Posts

学习RL(六)

DDPG与TD3：连续动作空间的深度确定性策略梯度 Open AI Spinning Up - DDPG - DDPG（Deep Deterministic Policy Gradient） Deep Deterministic Policy Gradient (DDPG) is an algorithm which concurrently learns a Q-function and a policy. It uses off-policy data and the Bellman equation to learn the Q-function, and uses the Q-function to learn the policy. 本文记录我在学习DDPG（Deep Deterministic Policy Gradient）和TD3（Twin Delayed DDPG）的过程，梳理清楚他们产生的背景，核心思想，特点以及我在实现过程中遇到的问题记录和解决。 1. 背景与动机 DQN在离散动作空间表现出色。然而，在许多实际控制任务中（如机器人控制、自动驾驶等），动作空间是连续的。DQN无法计算所有的$Q(s,a)$,代价太大。随着动作空间维度的提升，离散化动作空间带来的成本增加呈指数级别。 DDPG正是为解决连续动作空间控制问题而设计的。 2. DDPG核心思想参考Policy Gradient和PPO，DDPG和TD3想要通过梯度下降的方法对Policy做优化(调节$\theta$)，在训练结束的时候，具有一个最优化的$\theta$，使得$Q(s,a)$$\big(a=\mu_\theta(s)\big )$最大化，还要借鉴DQN当中使用到的replay buffer: $\mathcal D$和target network等技术，来提升训练的稳定性和效率。DQN通过Q网络1和target_Q网络2分别近似$Q^\star(s,a)$和$Q^\star(s’,a’)$，根据Bellman Optimality Equation: ...

学习RL(五)

积累奖励(状态价值)对策略的梯度与环境动力学无关在写两个算法之后，再明确一下基于优化策略梯度的核心思想。在RL_5中推导了策略梯度是一个期望，具体形式如下： $$ \begin{equation} \nabla _\theta J(\theta) = \mathbb{E} _{a \sim \pi _\theta, s \sim d _{\theta}} \sum _{t=0}^{T} A^{\pi _{\theta}}(s_t,a_t)\nabla _\theta \ln \pi _{\theta}(a_t|s_t) \label{eq1}\tag{1} \end{equation} $$ $$ \begin{equation} \begin{aligned} \nabla _{\theta} J(\theta) &= \mathbb{E} _{s \sim d _{\theta}}\sum _{a \in \mathcal A} A^{\pi}(s,a) \nabla _{\theta} \pi(a|s) \\ &= \mathbb{E} _{s \sim d _{\theta}}\sum _{a \in \mathcal A} \pi(a|s)A^{\pi}(s,a) \frac {\nabla _{\theta} \pi(a|s)}{\pi(a|s)} \\ &= \mathbb{E} _{s \sim d _{\theta},a \sim \pi} A^\pi(s,a) \nabla _{\theta} \ln \pi(a|s) \end{aligned} \label{eq2}\tag{2} \end{equation} $$ ...

手眼标定

本文参考了OPENCV 问题描述在机器人系统中，经常遇到需要确定相机（眼睛）与机器人末端（TCP）之间的安装关系。如果相机不在机械臂末端，往往末端会安装一个相机能够识别的标记物，相机系统给出该标记物在相机空间的三维坐标和姿态。无论上述哪种安装类型，都需要确定一个方程的解：$AX=XB$，$A,B$是已知的齐次矩阵，$X$是未知的齐次矩阵。利用李代数和最小二乘解决$AX=XB$的问题。平移旋转分开求解从齐次等式提取旋转部分 $$ \begin{bmatrix} R_A & b_A \ 0 & 1 \end{bmatrix} \begin{bmatrix} R_X & b_X \ 0 & 1 \end{bmatrix}= \begin{bmatrix} R_X & b_X \ 0 & 1 \end{bmatrix}\begin{bmatrix} R_B & b_B \ 0 & 1 \end{bmatrix} $$ $$ R_AR_X=R_XR_B $$ 李代数和李群之间的相互映射在SO(3)上，旋转矩阵$R$的李代数$\phi$ $\boldsymbol u\in so(3)$是一个三维向量($\boldsymbol u$是一个单位向量，$\phi\in \mathbb R$)。$\boldsymbol u^{\wedge}$是一个反对称矩阵。 so(3)李代数到SO(3)的指数映射–罗德里格斯公式 $$ R=e^{\phi \boldsymbol u^{\wedge}}=\cos\phi I + (1-\cos \phi) \boldsymbol u\boldsymbol u^T + \sin \phi \boldsymbol u^{\wedge} $$ ...

学习RL(三)

Learning就是通过迭代的方法找到更接近真实值的手段。蒙特卡洛方法当研究的问题动态模型未知的时候，怎么做策略估计？怎么做策略的改进？在实际应用中，经常遇到模型未知的情况，无法像上一章节讲的，通过Bellman公式计算状态价值是根据模型（状态传递概率$p(s’,r|s,a)$）得到的，但是实际应用中经常遇到没有这样的概率可以依赖。思路就是既然MDP利用环境状态传递概率(State Transition Probability)$p(s’,r|s,a)$来加权计算期望，在不知道这个概率的情况下，能否利用多次采集某状态出现的时候，环境给出的奖励Reward来平均计算，作为状态价值。解法就是通过实验，多次执行episode，在每次的循环中，记录特定状态出现的次数以及循环结束之后所获得的奖励，最后依据大数定律，对积累起来的奖励求平均值，就当作该状态的价值。如果我们事先知道所有的可能状态（在该特定的policy下面，应该可以确定出来），那么就维护一个数组，存储每一种状态的上面的信息，最后所有状态的价值都计算出来就意味着策略评估完成了。但是问题来了：如果一个episode持续很长时间，或者就无法结束，那么，蒙特卡洛方法这种依赖episode结束才可以获得状态价值的方法就无法应用，需要找到替代的方法来近似。 TD-learning就解决了这个问题。基于TD-Learning就衍生出一系列的方法解决这类问题。 MC Policy Evaluation and Control $$G_t=R_{t+1} + \gamma R_{t+2}+ \gamma^2 R_{t+3} \cdots + \gamma^{T-1} R_{T}$$ $$v_\pi(s)=\mathbb{E}_\pi(G_t|S_t=s)$$ 需要循环多次episode, 每次episode开始之后，每一次遇到感兴趣的$s$，记录$N(s)=N(s)+1$，并且把Return加进来：$G(\boldsymbol s,a)=G(\boldsymbol s,a)+r$ 完成当前的episode后，计算$Q(\boldsymbol s,a)=G(\boldsymbol s,a)/N(\boldsymbol s,a)$ ->类似于累加Reward的过程然后遍历$a$，更新策略：$\pi(s)=argmax_aQ(\boldsymbol s, a)$ Monte Carlo ES，是指每一个episode起始的状态选择是随机的，不能固定，避免有些状态永远无法被访问到。下图是书中的算法流程。这部分也叫做MC Policy Improvement。从给定的$\pi_0$开始，$E$代表策略估计（Policy Estimation），得到动作价值函数$Q_{\pi_0}$，采用贪心算法（greedy）找到使得$Q_\pi(\boldsymbol s, a)$最大的action: $\pi_1(\boldsymbol s) \leftarrow \arg max_{a}Q_{\pi_0}(\boldsymbol s, a)$ $$ \pi_0 \xrightarrow{\text{E}}Q_{\pi_0}\xrightarrow{\text{I}}\pi_1\xrightarrow{\text{I}}\pi_2\cdots \xrightarrow{\text{I}}\pi_*\xrightarrow{\text{E}}Q_{\pi_ *} $$ 参看4.6 广义策略迭代(Generalized Policy Iteration) On-Policy and Off-Policy 在学习Q值的过程中，我们会遇到两种情况： ...

学习RL(四)

更新记录 2025-12-15：从策略下的系统演进路径$\tau$推导PG为什么不需要对环境迁移概率求导$p(\boldsymbol s_{t},r|\boldsymbol s_{t-1},\boldsymbol a_{t-1})$从而引入baseline。 1. 为什么要有Policy Gradient 学习RL(三)当中提到，相比策略评估和策略迭代分开进行的方法，GPI已经有了进步，能够在策略评估的阶段就先把actions: $\mathcal{A}$(离散的)遍历一遍，找到使得action-value$:Q_\pi(s,a)$ （为了把概念表达清晰，这里我想纠正我之前的blog当中对action-value采用的符号：$q(s,a)$）最大的那个$a$ : $\arg\max_{a \in \mathcal{A}} Q_\pi(s, a)$。之前在写blog的时候，脑子里面一直就藏着一个大问号：如果是控制电机的转速这种连续的场景，该怎么遍历 $\mathcal{A}$呢？当时我的想法是将 $\mathcal{A}$分段考虑，但是直到我知道有Policy Gradient。 2. 什么是函数的Gradient 梯度一般是在函数自变量空间当中的一个向量（假设函数的自变量是一个向量），坐标系统是在一个垂直正交的系统中，$\nabla$就是一个在坐标系统中有方向有大小的向量，方向代表了自变量沿着该方向移动微小距离$dr$，函数变化最大。$df=||f(\boldsymbol x + dr\cdot \nabla f(\boldsymbol x))-f(\boldsymbol x)|| \geq || f(\boldsymbol x + dr\cdot \boldsymbol \alpha)-f(\boldsymbol x)|| \boldsymbol (\alpha \text{ is any vector in } \boldsymbol X$)。图1: 梯度方向示意。$\nabla f(\boldsymbol x)$ 指向函数值变化最快的方向。 3. 从价值函数推导 $$ J(\theta) = \sum_{s \in \mathcal{S}} d_\pi(s) V_\pi(s) = \sum_{s \in \mathcal{S}} d_\pi(s) \sum_{a \in \mathcal{A}} \pi_\theta(a \vert s) Q_\pi(s, a) \tag{1} $$ 对比之前的依据action-value$:Q_\pi(s,a)$寻找$s$上的$a_{best}$，本方法依旧会使用$:Q_\pi(s,a)$，但是并不在每次的迭代中（GDI）去直接做action的选择，而是参与到对（1）的梯度计算当中。 ...

2024总结

工作因为产品推广的需要出差到迪拜和新加坡参加口腔展。因为需要横向扩展产品线，集成不同的硬件系统，对软件的结构做了一系列的改造，就是重构。针对客户反馈的问题和测试人员的反馈，针对主要业务的模块进行了代码重构，使得架构的可扩展性，可维护性提升，避免不同功能的相互耦合导致的问题。重构的笔记个人学习 2024年的下半年开始，成为微信读书的重度用户。下面是一部分书的笔记: 《园丁与木匠》《置身事内：中国政府与经济发展》《禅与摩托车维修艺术》 2024年读书给我最大的触动，或者说收获是：遇到一件事情，不管是一个问题还是有人跟你描述了一个观点或者事实，首先要做的不是去着急想解决方法或者产生一个判断，而是要把自己沉浸到问题或者对方的视角当中，用贝叶斯的思维去辩证思考，首先就是把所谓的基础概率纳入进来，或者说列举出来所有的可能性，然后根据你所看到听到的来更新这些可能性，最后再得到自己的判断。 2024年设计加工了一套可倒立的立方体样机，软件还没定版。家庭主要精力在培养孩子。与其说是单方面培养，不如说是和孩子一起进步，从大脑的开发到体魄的强健我们都是共同参与。 2024年主要精力放在了认读英文和数学上面，英文听力一直用客厅的音响磨耳朵：journey to the west, dragon master 和牛津树。孩子的年度进展语文进展：年初识字量约600，年末识字量约1500。1-5月用洪恩字卡过完1300字，自读小巴掌童话数本。6月后开英文自读，中文基本停滞。英语进展：年初听力在牛津树8-9，文盲。年末自读完成RAZ I，听力约在初章。今年亲读了牛8，9，journey to the west，科二四五十本，dragon master。六月开始按高频词，自读牛1-5，自读RAZ GHI的顺序练习自读。听力：上半年牛7-9，科二，journey to the west，下半年dragon master。数学：年初10以内分合，年末100以内加减（退位减法未搞定）体能进展：年初开始独立完成樱桃沟，夏天完成百花山的两次尝试，从门头沟方向的入口开始算起，到高山草甸结束。第一次完成整体的一半，第二次完成全程，小震惊了我们。粗略估计2024年全部的爬升有1000米，2025年目标是2000米的爬升。家庭周末的菜主要是在家自己做，2024年几乎没有开发新的菜谱，继续吃老本。健康因为有了孩子的缘故，之前的羽毛球和篮球活动已经暂停了。能够抽时间做的事情是骑自行车，主要是上下班的骑行。我给自己配了一块佳明的运动手表，然后数据统计用strava。2023年开始的骑行，到了2024年算是第二个骑行年，2024年总共的里程是2600公里，主要是通勤，剩下的是周末门头沟的谭王路和妙峰山还有戒台寺。 2000多公里的距离应该只是入门的水平，所以我作为骑行菜鸟，还需要继续努力，继续健康快乐骑行更远的距离。 2024不足与2025展望不足孩子培养，看了书知道了理论，没有投入实践，对孩子的陪伴是需要“绳锯木断，水滴石穿“的功夫，日拱一卒，不断地提供给养。工作方面，有时对繁琐的需求变更产生厌恶情绪，没有心怀敬畏。生活方面，陪伴家庭成员的时间不够，在一起的时候，专注度也有待提高。锻炼身体方面，没有正确评估能力和目标的匹配度，经常蛮干。展望继续保持阅读的习惯。不管当天有多么忙，必须抽时间看看书。这并不是为了能保持住当天的进度，而是在有闲暇时间的时候，能花更多的时间去投入阅读。就是让自己每天都别离开这个习惯。锻炼身体方面，要劳逸结合，学一些有效的技巧，还有就是明确每次出车的目标，纯娱乐还是提升有氧能力。组织一次家庭出游，在孩子上小学之前，时间相对好安排。倒立立方体，软件部分做完，能够保持平衡，立起来。也希望自己在2025能够保持专注，持续学习，有优质的输出。 2025/01/08 看瑞尔集团的创始人邹其芳先生的第一次直播，让我触动的是慎交友。结交的朋友会潜移默化地影响自己，尽量结交贵人，对自己有积极影响的人。

学习RL(二)

动态规划在环境动力学模型$p(s’, r|s, a)$已知的情况下，学习状态价值或者是动作价值。策略评估–Policy Evaluation 讨论的是如何在已知策略的情况下计算状态价值函数，从而得到采用该策略的价值有多大。在DP当中policy evaluation就是计算状态价值函数，也就做prediction problem。这里讨论的是如何计算状态价值函数，该函数是从初始的状态(不准)迭代计算的，迭代的终止条件是状态价值的更新幅度小于一个预设的阈值$\theta$，也就是说当状态价值函数的更新幅度小于$\theta$的时候，就认为状态价值函数已经收敛了。还有一个具体的细节：提到了两种状态价值迭代的方式，一种是维护上一次所有状态价值的数组和当前状态价值的数组，计算当前的状态价值的时候只参考上一个状态的数组，还有一种是直接将上一次的数组某个状态价值更新了，其他状态价值的计算直接用更新了的。后面的讨论默认都是基于第二种方式。明显地，想要实现上面的计算过程有一个概率需要知道，那就是状态转移概率$p(s’, r|s, a)$，也就是在状态$s$下采取行动$a$之后，转移到状态$s’$并且得到奖励$r$的概率，这也是叫做环境模型已知。这个概率在DP当中是已知的，在后续的MC和TD当中是未知的。策略改进–Policy Improvement 讨论的是在已有一个策略，且该策略所对应的状态价值已经确定的情况下，如何调整$a=\pi(s)$为$a’=\pi’(s)$，使得改进了的策略在将来与环境交互中获得更多的奖励。想法的来源是在状态为s的情况下，我们知道，继续沿用策略$\pi$, 所得到的后续收益就是$V(s)=\mathbb{E}(G|S=s)$。那么，一个问题来了：有没有可能，在状态为$s$的情况下，采取一个不同于$\pi(s)$的行动$a’$, 从而得到一个更大的收益$\mathbb{E}(G|S=s, A=a’)$，也就是说，是否存在一个行动$a’$使得$Q(s, a’) > V(s)$。如果存在这样的行动，那么我们就可以把当前状态下的策略改进为$\pi’(s)=a’$, 也就是说，在状态为$s$的时候，不再按照之前的策略$\pi(s)$来选择行动，而是按照新的策略$\pi’(s)=a’$来选择行动：因为采取$a’$获得了更多的收益。这种单个状态下的动作改变，其实是更普遍的情况下的一个特例，普遍地，在已知策略$\pi$和状态价值$V _{\pi}(s)$的情况下，我们可以通过计算$Q _{\pi}(s,a)=\mathbb {E}(r _{t+1}+ \gamma V _{\pi}(s’)|S=s,A=a)=\sum _{r _{t+1},s’}p(s’,r _{t+1}|s,a)\big ( r _{t+1}+ \gamma V _{\pi}(s’)\big )$来找到一个行动$a’$使得$Q _{\pi}(s,a’) > V _{\pi}(s)$，从而把当前状态下的策略改进为$\pi’(s)=a’$。贪心策略：对于任意一个状态$s$，遍历所有可能采取的行动，看看哪种行动的状态-行动价值最高，那么，当后面遇到状态为$s$的时候，就直接采取行动$\pi’(s)$。 $$ \pi’(s) = \arg \max _a Q _{\pi}(s,a) = \arg \max _a \sum _{r _{t+1},s’}p(s’,r|s,a)\big ( r _{t+1}+ \gamma V _{\pi}(s’)\big ) $$ ...

《园丁与木匠》

关于作者：艾莉森·高普尼克（Alison Gopnik）是美国加州大学伯克利分校儿童发展心理学教授，也是该领域全世界最顶尖的学者之一。她不仅是一位实验心理学家，也是一位哲学家，一生致力于以跨学科的视角研究儿童的认知与成长。她养育了三个儿子，现有三个不到5岁的孙辈。本书的框架这本书我觉得最大的特点是将理论研究和实践结合起来，给父母一个很清晰的框架，在这个框架下，指导父母如何去爱孩子，如何去陪伴和引导孩子。在这个过程中，其实本质是提升父母的认知，为孩子的成长提供一个好的“花园”，而不是按照自己的想法去把孩子雕刻成一个心中的模样。作者在术中并没有特别细节地描述育儿方面需要采取的措施，而是结合儿童心理学，哲学，以及认知心理学的理论和最新的研究成果，将时间线拉长，到达原始人类，智人时候的生产生活，结合婴幼儿的大脑特点，分析了婴幼儿的行为产生的生物学原因以及从进化角度得出的原始动机。脉络本书首先强调了尽管成年人–包括了父母，祖父母等等参与照顾幼儿的所有人，可能会觉得照看幼儿是一件非常令人痛苦的事情，但是在每一个细节当中，照看者会感受到孩子的爱，以及孩子也会感受到照看者的爱和关怀，这种亲密关系是非常伟大和无私的，也是崇高的，在道德上深刻，在情感上强烈。所以对于照看孩子，作为成年人要把它当作一种修行，主动地去承担各种各样的非常琐碎的事情，因为这件事情本身就非常伟大。所以，作者最开始其实是要大家引起重视，不能掉以轻心。然后，作者给出了本书的中心思想：确切地说，爱孩子的意义就是为那些无助的幼儿提供一个丰富、稳定、安全的环境，这个环境充满变化、创新和新奇的元素，可供他们无限发展。无论是从生物学和进化的角度来看，还是从个人和政治的角度来看，都是如此。爱孩子并不是给他们一个目的地，而是为他们的旅程提供给养。而后，更加具体地讲，作者提出：好父母不一定会把孩子变成聪明、快乐或成功的成年人，但可以打造出强健、具有高适应性和韧性的新一代人，以更好地应对未来将要面临的不可避免、不可预测的变化。然后，作者借用孩子大脑的生物学研究成果：发育中的大脑就可以说明这一点。稚嫩的大脑比成熟的大脑更加可塑，它们会生成更多的神经连接，也更加灵活。事实上，一岁孩子大脑中的神经元连接数目是我们成人大脑的两倍。不止于此，年轻的大脑还拥有更多连接的可能。这些连接很弱，已有的连接可以根据新的经历更迅速、更容易地发生改变。因此，年轻的大脑可以毫不费力地随着环境的变化而改变。在成长过程中，21常用的神经连接会变得灵活高效，并能横跨更远的距离。不用的神经连接会被“修剪”掉，从而消失。成熟大脑的灵活性低，神经连接从曲折狭窄的小径变成了笔直的长途信息高速公路。成人的大脑仍能改变，但大多发生在压力之下，并且要付出努力和注意力。总之，年轻的大脑天生就要探索，成熟的大脑则负责运用。来说明，孩子心智的健康发展，一定不是按照父母的意愿，持续地接受某些特定的信息来促进大脑对应的神经元产生高效连接，而是需要在漫长的幼儿阶段，持续不断地让孩子接触大范围的内容，从体育到植物，从动物到乐器，从新闻到工程学等等。让孩子接受不同的概念，领域及其之间的关联就是优秀的内容输入，用于神经元的连接提供丰富的素材。我的一个好友推荐的方法就是带着孩子跟不同领域的专家聊天，让孩子接受从未了解的概念甚至它们之间的逻辑关系，让孩子建立丰富的概念，当将来再次遇到这些概念的时候，就不会因为是第一次而感到恐惧和陌生，反而会激发他们的探索欲望，让孩子发自内心地主动寻求概念背后的基本逻辑。接着作者作为一位母亲和祖母，从自己的亲身体会分析：大约20年前，我写下了第一本书。在某一章的开头，我描绘了怀孕生子给我带来的如潮水般势不可当的经历：9个月的生理变化，与另一个生命共用身体的奇妙感受，以及生产时席卷一切如跑马拉松般的努力。我能感受到婴儿在产道中移动，这感受怪异又真实；我能感到大脑中涌动的狂喜，以及它释放出的种种化学物质。最终，我怀抱着温暖的小生命，他紧贴着我的身体。似乎，这种种唯有母亲才能体验的生理、情感与化学变化，塑造了舐犊之情。毋庸置疑，母亲有照顾幼儿的原始冲动。有生理学和心理学的原因，显而易见。爱人双方，尤其是父亲，因为深爱着对方，所以也深爱着双方共同的孩子，祖父母因为爱着自己的孩子，而且忙碌的现代生活父母不能时时刻刻在幼儿身旁，祖父母将自己的爱延续到了孙辈。作者提到，所有这些人的爱，是对持续照看幼儿的基本保障，这些爱很难随着时间和环境而产生巨大变化，是发自内心深处并且是源源不断的。接着，作者从边看边学，边听边学，边玩边学和边练边学四个维度分析了如何结合孩子的大脑特点去为他们提供成长的养料和提供稳定环境。在这里我列举一些我认为比较重要的内容。孩子作为一张白纸，在出生之后是缺乏因果关系的逻辑分析能力的，那么，他们是如何学习到这一技能的呢？有两种方法可以学习因果知识：一种是通过反复试错，另一种是观察其他人或事件。反复试错是所有动物学习的最基本方式，即使是最简单的生物，例如苍蝇、鼻涕虫和蜗牛，也会重复一些可以带来奖励的行为。试错的方式可以测试你的行为是如何导致事件发生的，并学习如何让新的事件发生。 update::2025-6-05 在写[[AI - RL Policy Gradient]]的时候，找到了这篇文章[intuitive understanding of Policy Gradient](RL — Policy Gradient Explained. Policy Gradient Methods (PG) are… | by Jonathan Hui | Medium) 孩子看到了周围环境的状态$S_t$。孩子采取了行动$u_t$，根据他大脑中的instinct，我觉得是知觉，具体来说就是Agent当中的$\pi(u|s)$，采取的$u$应该是能够最大化一个价值函数$J$，这个函数和当前的状态$s$有紧密的关系。行动之后，环境变化，得到新的状态$S_{t+1}$以及得到奖励$r_{t+1}$ 进一步地，采取下一个行动，该行动的选择是依据新的环境状态因为孩子有漫长的学习期，并不会有太多的生存压力，所以要鼓励孩子尽量用“探索式”的学习方法来学习：孩子和成人之间的这种差异反映了我之前谈到的关于“探索式”与“运用式”学习方法的对比。在“运用式”学习中，我们尝试快速找到最有可能当下就能解决问题的方案；而在“探索式”学习中，即使不能马上找到答案，我们也会尝试很多的可能性，甚至包括不太可能奏效的那些。如果我们想要在复杂的世界中茁壮成长，这两种学习方式都需要。孩子不仅能够有选择性地吸收表面的知识，也能够看到隐藏在知识之下的可信度，或者说是一种程度，这种程度表示的是有多少可信任的成分。所以就像很多工程上采用的原理，例如卡尔曼滤波器，在获取到测量状态之后，需要根据可信度，加权到预测当中形成统计学意义上的最优值。当然，孩子的学习过程要比滤波复杂得多，是更高维度，更多层次的一种取舍行为。随着孩子年龄的增长，他们开始对与他人交谈时的更多细微之处变得敏感。孩子可以感知到别人在说话时有多自信。如果两个人提出相互争论的观点，那么即使是3岁的孩子也会选择相信那位说话时更有自信的人。如果4岁的孩子听到一个有知识的人提出什么主张，相比那些无知的人，他们更有可能相信这位有知识的人。而5岁的孩子则会考虑到更具体的知识分类，他们更可能相信医生对医学的评价，或者工程师对机器的评价。孩子有一种本能，就是努力归纳出来一种适用于可以解释很多现象的共同逻辑链条，也就是普遍规律。我的理解是在这个过程中，驱动孩子做这一件事情的原始动力是为了在将来的生活当中，在遇到问题的时候，能够快速产生解决问题的方法，而不是在遇到问题的时候才开始做多种尝试–可以说是惰性使然。孩子不仅需要更多关于这个世界的信息，他们还需要理解因果关系，才可以从一个更深入、更广泛的角度理解这个世界，也就是说，这些信息可以促进他们未来学到更多的知识。作者提到本质主义帮助孩子抽象他们所见到听到感受到的内容，可以让孩子更加深刻地理解他身边的世界: 孩子可以从语言的细微特征中学习。被心理学家称为本质主义的发展就是一个非常好的例子。苏珊·格尔曼3730年来一直在研究孩子的本质主义，并取得了令人瞩目的成就。所有有心智的生物把这个世界的事物区分成了不同的类别。而“本质主义”这个术语是心理学家用来描述我们倾向于认为这些类别是深刻的、先天的、永久的，这些都来自这个世界，而不是来自我们的心智。孩子大脑中永远有一个猜测：从统计学的角度来看，猜测是一个或者多个随机变量的概率分布，当我们有了新的证据，就会利用贝叶斯理论去计算在当前证据下，猜测的新的分布，这是一个条件概率分布，也叫做后验分布。也是我们心中认为最合理的结果。作者做的科学研究应该会涉及到这方面的数学基础。现在假设我们做一个新的实验或者进行一项新的观察。新的证据可能会让我们重新考量那个最好的猜测。也许有一个不同的假设能更好地解释新的证据。如果另一个假设成立，会发生什么呢？如果新的假设能更好地解释所有的证据，包括旧的和新的，那我们可能会认为它更有可能是真的。它将取代我们以前暂定为“真理”的想法。作者提到了探索式学习和掌握式学习：这两种学习方式似乎涉及不同的底层机制，甚至不同的大脑区域。孩子发展掌握式学习的时间要晚于探索式学习。婴儿和最聪明的成年人一样擅长探索式学习，甚至婴儿可以做得更好。但随着年龄的增长，人类似乎越来越擅长掌握式学习。成年人和幼儿的学习过程，在生物学上面是有差异的：我需要花很大的努力去适应让我无所适从的互联网。这是因为对成年人来说，学习一项新技术需要认真、细心、有意识的学习过程。而这种专注是成年人非常珍贵的资源。甚至在神经元的层面上也是如此。当我们集中注意力的时候，大脑中负责设定目标计划的前额叶皮层会释放胆碱类的神经递质。但这些能促使我们学习的化学物质只能传递到大脑的某些特定部位。前额叶皮层也会释放抑制性的化学物质，从而阻止大脑其他部位发生改变。因此成年人在学习一项新技术的时候，大脑只能进行一点点细微的改变。孩子大脑14的注意力和学习能力的运作方式则完全不同于成人。年轻的动物和人类有着分布更广的胆碱类神经递质，这让他们不需要专注和计划就能学习了。一切新鲜的事物，无论是多么令人惊讶的，还是看似无用的或杂乱无章的，年轻的大脑都能让孩子轻松地掌握这些庞杂的信息。收获当父母有意识地对孩子进行说教，可能不会对孩子产生多少影响，孩子此时并不能很好地吸收父母输出的观点或者是知识内容，相反地，孩子反而擅长通过父母微妙的肢体语言，说话的声音语调的变化，敏感地察觉出蕴含在里面的有效信息，从而吸收到孩子的大脑。作者在接受采访的时候提到一个点：西方的哲学传统当中，很少有孩子的身影，因为很多的西方哲学家都是单身的男士，他们专心于和自然、社会进行沟通，很少有机会接触孩子，更不用说从孩子身上获取到什么哲学方面的灵感了。 “以人为鉴，可以明得失；以史为鉴，可以知兴替”，还需要再加一句，以儿为鉴，可以明己。当我们观察幼儿的时候，就是在提升对自我的认知：某种程度上，他们就是曾经的我们，当我们试图让自己“傻”得更像一张白纸的时候，可能我们会发现，其实那个我就是孩子。当父母专注于如何提供幼儿一个安全丰富的环境的时候，往往父母就会从行动上提升自己本身的能力和认知水平，去争取更高的社会地位以及收入来使自己有能力提供如上的环境。关于作者的学术研究结合之前的卡尔曼滤波的文章，卡尔曼滤波器学习笔记（一）：概率论和贝叶斯滤波在儿童学习过程中，贝叶斯学习被作者重点提及。 ...

学习RL(一)

基础概念智能体和环境交互图1: Agent 与环境交互的基本结构。Agent 根据当前状态 $s_t$ 选择动作 $a_t$，环境依据状态转移概率 $p(s’,r|s,a)$ 返回下一状态 $s_{t+1}$ 和奖励 $r_t$。上面的图展示了RL智能体与环境交互的结构。这个示意图是很广义和普遍的：action可以是加载在机械臂电机上的控制电压或者是PWM信号，也可以是高级别的决策，例如是否要变道；state也比较灵活，可以看作是传感器回传的数据，也可以看作是在空间中特定符号描述的物体信息。奖励奖励这个概念我认为比较模糊，或者说它的来源可以是人为设计，也可以是环境给出。在机器人领域，奖励稀疏是一个常见问题，没有奖励的情况下，智能体很难学到真实的状态价值或者动作价值，那么策略的优化就很难进行下去。针对这个问题，后续专门讨论。策略策略$\pi$是智能体在状态$s$下对动作$a$的选择，或者是一个从状态到动作的映射关系。它可以是一个确定性的函数，例如DDPG和TD3那样输出准确的动作，也可以是一个随机的概率分布，例如PPO输出的是动作的高斯分布期望，可以利用这个期望生成一个分布，然后从分布中采样出来一个具体的动作。状态价值$V(s)$ 系统在状态$s$下，根据某个策略$\pi$采取行动，在后续和环境交互的过程中，得到的收益$G$的期望。 $$ \begin{aligned} & V(s)=\mathbb{E} _{\pi}(G|S=s) \\ & G=R _{t+1} + \gamma R _{t+2}+ \gamma ^2 R _{t+3} \cdots =\sum _{k=0}^{\infty}\gamma ^k R _{t+k+1} \end{aligned} $$ 行动价值$Q(s,a)$ 在状态$s$下，采取行动$a$之后，在后续和环境交互的过程中，得到的收益$G$的期望。 $$ \begin{aligned} & Q(s,a)=\mathbb{E} _{\pi}(G|S=s,A=a) \\ & G=R _{t+1} + \gamma R _{t+2}+ \gamma ^2 R _{t+3} \cdots =\sum _{k=0}^{\infty}\gamma ^k R _{t+k+1} \end{aligned} $$ ...

《置身事内：中国政府与经济发展》

我作为一个经济和政府运作逻辑的小白，最近看到了一本很多人推荐的书《置身事内：中国政府与经济发展》。希望以此为切入点，了解中国政府在中国经济发展中发挥了什么作用。我很喜欢两部国产电视剧，一部是《大明王朝1566》，一部是《走向共和》。这两部剧有个共同点：开场第一集中，那些历史上赫赫有名的大人物们，出场都没有半点慷慨激昂或阴险狡诈的样子，反倒都在做世上最乏味的事——算账。大明朝的阁老们在算国库的亏空和来年的预算，李鸿章、慈禧和光绪则在为建海军和修颐和园的费用伤脑筋。然而算着算着，观众就看到了刀光剑影，原来所有的政见冲突和人事谋略，都隐在这一两一两银子的账目之中。要真正理解政府行为，必然要了解财税。道理很朴素：办事要花钱，如果没钱，话说得再好听也难以落实。要想把握政府的真实意图和动向，不能光读文件，还要看政府资金的流向和数量，所以财政从来不是一个纯粹的经济问题。党的十八届三中全会通过了《中共中央关于全面深化改革若干重大问题的决定》，明确了财政的定位和功能：“财政是国家治理的基础和重要支柱，科学的财税体制是优化资源配置、维护市场统一、促进社会公平、实现国家长治久安的制度保障。” 政府想要集中力量办大事，必须手里有足够的资金来支持，制度再完善，武力再强大，没钱，就会崩溃。结合《显微镜下的大明》这本书，明朝建国初期，首先做的事情就是把全国的人口和当时最重要的生产资料–土地的情况搞清楚，然后根据这些资料制定对应的制度来收取赋税。中央对地方的实际情况了解得越清楚，政策制定和执行才可以越畅通，明末的乱世，就是中央对地方的信息不对称，很多财富都暗藏在地方豪强手里，国家知道的财富乘以日益提高的税收百分比并不足以支撑国家的正常运转，然后就没有然后了。所以，本书研究的，或者是揭示出来的，是我们身处时代下，每天都在发生事情的背后逻辑，搞清楚这个逻辑对每一个人，都是有好处的。财税与政府行为分税制改革 1994年的分税制改革把税收分为三类：中央税（如关税）、地方税（如营业税）、共享税（如增值税）。同时分设国税、地税两套机构，与地方财政部门脱钩，省以下税务机关以垂直管理为主，由上级税务机构负责管理人员和工资。这种设置可以减少地方政府对税收的干扰，保障中央税收收入，但缺点也很明显：两套机构导致税务系统人员激增，提高了税收征管成本，而且企业需要应付两套人马和审查，纳税成本也高。2018年，分立了24年的国税与地税再次开始合并经过分税制改革，中央对地方的税收收入大幅度提高，但是明显对地方的税收入是有很大影响的，所以地方的阻力很大。国家通过增值税、企业所得税等税种，大大提高了中央的预算收入占比GDP的比例，从原来的22%变为了55%并且之后稳定维持在这一水平。具有深远的意义：大大增强了中央政府的宏观调控能力，也保证了集中力量办大事的能力，例如过气改革和国防现代化建设，以及应对外部的金融危机和内部的重大冲击，例如汶川地震和1997，2008年的金融危机。政府投融资与债务土地资本化再穷的国家也有土地，土地本身并不值钱，值钱的是土地上面的经济活动。土地资本化的魔力，在于可以挣脱物理属性，在抽象的意义上交易承诺和希望，将过去的储蓄、现在的收入、未来的前途，统统汇聚和封存在一小片土地上，使其价值暴增。由此产生的能量不亚于科技进步，支撑起了工业化和城市化的巨大投资。经济发展的奥秘之一，正是把有形资产转变成为这种抽象资本，从而聚合跨越空间和时间的资源。作者以成都的宽窄巷子为例，讲了成都文旅集团作为典型的政府融资平台类公司，持有从政府拿到的土地使用权，可以从政府获得各类补贴，而且有政府作为背景，可以融资。虽然通过土地金融可以很快地搞投资建设，但是需要大量的资金，分税制改革后，地方政府的税收进一步减少，所以，如何为政府搞到钱，就是摆在眼前的一个最大问题。从而，国家开发银行和城投公司诞生了。政府有钱了，就可以大兴土木进行土地开发和基础设施建设，从而极大地刺激经济的增长，而经济的增长又可以带动土地的升值，然后利用土地升值偿还巨额的贷款。这样的循环前提条件是经济一直以较高的速度发展，一旦经济发展停滞不前，就会带来连锁反应，这套模式就会崩盘。国家为了避免政府债务出现问题，出台了四项举措：第一项就是债务置换，从2015年新版《预算法》生效后开始，到2019年基本完成。简单来说，债务置换就是用地方政府发行的公债，替换一部分融资平台公司的银行贷款和城投债。第二项改革是推动融资平台转型，厘清与政府之间的关系，剥离其为政府融资的功能，同时破除政府对其形成的“隐性”担保。第三项改革是约束银行和各类金融机构，避免大量资金流入融资平台。这部分监管的难点不在银行本身，而在各类影子银行业务。第四项改革就是问责官员，对过度负债的行为终身追责。这项改革从2016年开始。2018年，中共中央办公厅和国务院办公厅正式下发《地方政府隐性债务问责办法》，要求官员树立正确的政绩观，严控地方政府债务增量，终身问责，倒查责任。政府产业引导基金作为科技行业的从业者，或多或少听说了政府的动作对于成千上万个企业的巨大影响力。政府的意志力和决定如何通过非常坚实的“抓手”去执行下去，就是非常值得研究和思考的。在这个商品经济时代，任何商业行为背后都是金钱在驱动着，我们看到的一切经济活动，都被金钱这只无形的大手推动着。学习政府产业引导基金，正好能够理解最近十年来政府为了推动工业化的发展所采取的较为具体的举措。私募基金，简单说来就是一群人把钱交给另一群人去管理和投资，分享投资收益。称其为“私募”，是为了和公众经常买卖的“公募”基金区别开。私募基金对投资人资格、募资和退出方式等都有特殊规定，不像公募基金的份额那样可以每天买卖。图4-1描绘了私募基金的基本运作方式。出钱的人叫“有限合伙人”（limited partner，以下简称LP），管钱和投资的人叫“普通合伙人”（general partner，以下简称GP）。LP把钱交给GP投资和运作，同时付给GP两种费用：一种是基本管理费。一般是投资总额的2%，无论亏赚，每年都要交。另一种是绩效提成，行话叫“carry”。若投资赚了钱，GP要先偿还LP的本金和事先约定的基本收益（一般为8%），若还有多余利润，GP可从中提成，一般为20%。雷军–北京小米智造股权投资基金这个案例正好可以帮助我学习私募基金和产业引导基金。小米私募股权基金管理有限公司的角色是GP, LP是小米智造的17位股东成员。小米募集的资金七成都来自于政府引导基金，其中，北京市政府引导基金投入了20亿元。作者在后面还分析了兴起的制度条件，产业条件和金融条件。政策条件 2005年，发改委和财政部等部门首次明确了国家与地方政府可以设立创业投资引导基金，通过参股和提供融资担保等方式扶持创投企业的设立与发展。自2015年起，财政部和发改委陆续出台了一系列针对政府引导基金的管理细则，为各地提供了行动指南。其中最重要的是两点。第一，再次明确“利益共享、风险共担”原则，允许使用财政资金的政府投资基金出现亏损。第二，明确了财政部门虽然出资，但“一般不参与基金日常管理事务”，并且明确要求各地财政部门配合，“积极营造政府投资基金支持产业发展的良好环境”，推动政府投资基金实现市场化运作。产业条件绝大多数政府引导基金最终都投向了战略性新兴产业（以下简称“战新产业”），这是由这类产业的三大特性决定的。首先，扶持和发展战新产业是国家战略，将财政预算资金形成的引导基金投向这些产业，符合政策要求，制度上有保障。从“十二五”规划到“十三五”规划，国务院都对发展战新产业做了专门的规划，将其视为产业政策的重中之重。要求2015年战新产业增加值占GDP的比重需达到8%（已实现）；2020年达到15%；2030年，战新产业应该发展成推动我国经济持续健康发展的主导力量，使我国成为世界战新产业重要的制造中心和创新中心。在这两个五年规划中，都提出要加大和创新财税与金融政策对战新产业的支持，明确鼓励发挥财政资金引导作用，吸引社会资本，扩大投资规模，促进战新产业快速发展。金融条件引导基金大多采用“母基金”方式运行，与社会资本共同投资于市场化的私募基金，通过后者投资未上市公司的股权。这种模式的繁荣，需要三个条件：有大量的社会资本可以参与投资、有大量的私募基金管理人可以委托、有畅通的投资退出渠道。其中最重要的是畅通的资本市场退出渠道。遇到的问题因为是投资新兴的行业，这些行业还需要大量的研发工作，才能使得产品日趋成熟，所以未来是否可以盈利，是一个比较随机的事情，容易亏钱。源自财政资金的地域属性与资本无边界之间的矛盾。内地的基金不容易吸引到产业，而且不希望到东部投资很有前景的产业。为他人做嫁衣。资本市场的资金来源，有80%是社会资本，社会资本的动作对政策和金融情况很敏感，不容易筹集到足够的资金开展工作。 LP侧政府人员素质要求高，但是分配制度是随公务员的走，不容易配备足够优秀的人才。城市化与不平衡房价和居民债务因为大城市拥有优质的工作机会，良好的教育环境和医疗条件，吸引了大量人口涌入，房价上涨开始于2008年。根据中国人民银行的这项调查，城镇居民2019年的负债中有76%是房贷。而从资产端看，城镇居民的主要财产也就是房子。房产占了家庭资产的近七成，其中六成是住房，一成是商铺。而在美国居民的财富中，72%是金融资产，房产占比不到28%。(15)中国人财富的压舱石是房子，美国人财富的压舱石是金融资产。这个重大差别可以帮助理解两国的一些基本政策，比如中国对房市的重视以及美国对股市的重视。当经济发展不景气的时候，很多买房者会面临债务危机，因为他们在之前的乐观的环境下，例如收入持续上涨，房价持续上涨，选择忽略了经济如果下行，收入难以按照预期的速度增长的情况，这种情况确实在2020年疫情之后发生，部分人选择提前偿还贷款，部分人为了还月供降低消费水平，消费水平降低会带来国内消费市场的低迷，影响了商品提供方的收益，而广大的职工又在这些企业当中工作，他们的收入可想而知地受到影响。政府与经济发展随着经济的持续发展，政府在整个国民经济当中占有的比重会越来越大，这是“瓦格纳法则”。从改革开放到今天，政府为了推动经济发展，主要是以强调生产力建设为主要手段，例如开发房地产，修公路，高铁，投资建设工业园区等等，这些举措极大地提升了我国的工业制造水平，全球的进口产品中，有很大的比例都是中国制造。但是，政府的重点关注目标应该从生产力建设转向服务型政府，也就是加大对民生的投入。从原来的重点投资物，变为重点投资人。总结经济学是对经济现象的解读。现象复杂多变，偶然因素非常重要，过往并非必然，未来也不能确定。但经济学研究依然是有意义的。它能从过往事件的来龙去脉中提取一些因素，思考这些因素的不同组合，形成对事件的多种解读，给人启发。但什么是相关因素？怎么组合？又如何解读？这些都与所研究事件的所在环境密不可分。任何合格的理论当然都能自圆其说，但应用理论要跳出理论本身，才能审视其适用性和实用性，这种应用因时、因地、因人而异。对相关因素的提取和组合，本质上是对“何谓重要”这一问题的反复考量，其判断标准只能在比较中产生。这一“比较”的视野，要在空间和时间两个维度展开，既包括跨地区、跨国家的比较，也包括跨时期的比较。研究者不仅要深入了解本国现状和历史，也要了解所比较国家的现状和历史。比较数据和表面现象容易，但要比较数据产生的过程和现象发生的机制就难了，而这些往往更加有用。发展经济学的核心就是理解发展过程，因此必须理解初始条件和路径依赖，对“历史”的延续性和强大力量心存敬畏，对简单套用外来理论心存疑虑。整本书当中，每一个章节最后的推荐阅读材料也是十分有用的。作者把本章涉及到的问题，一一列举了参考资料，并且加以评论和推荐，值得继续深入阅读。作者特别指出了，如何提出好的问题，是指定措施和思考解决方案的第一步，在很多时候，能够提出问题，就说明对整个事情或者状态有了很深入的了解，针对问题，已经有了答案。摘录当经济增速放缓、新创造的机会变少之后，年轻人间的竞争会更加激烈，而其父母的财富优势会变得更加重要。如果“拼爹”现象越来越严重的话，社会对不平等的容忍程度便会下降，不安定因素会增加。这里的思考是：这一代年轻人的父母，曾经经历的时代是经济发展高速期，有头脑肯吃苦的那一代都获得了想要的财富。这一代人如果复刻上一代人的思路，会发现他们的收获可能无法匹配付出，会产生两种后果，一种是躺平，另外一种可能是调查为什么会这样，或者直接怨天尤人。美国上世纪的嬉皮士运动就是这样。发达资本主义国家，例如英国美国的过去，一定程度上非常具有参考意义，可能中国的现在就是他们的过去，美国20世纪60年代的年轻人为什么会发起嬉皮士运动，难道者的是他们想开辟新的文化风潮？还是他们对社会的不满，激发的种种行为最终固化了这样的文化？我们看到的最终的结果并不是内在驱动这些行为的目标，需要好好思考为什么他们要做这些事情，结合当下的我们，应该能够提供一些答案出来。成功的政策背后是成功的协商和妥协，而不是机械的命令与执行，所以理解利益冲突，理解协调和解决机制，是理解政策的基础。政策的制定，一定是通过实践反复修正和完善的结果。政府在出台新政之后，需要怀着敬畏的心态，从不同的维度来思考，因为政策某种程度就是对人行为方式的约束，既然要约束，就说明在广大的中国大地上，已经发生了很多类似的未受到约束的事情，他们为什么要做这些事情？值得思考背后的原因。这样，才可以深刻理解政策的意图，那么对于实际执行政策的官员，才可以在实际面临问题时候正确解读，做出正确的决策。