Yang’s Blog

你好，欢迎来到我的博客。这里记录我的学习与生活。

多巴胺、贝叶斯与伯努利的谬误：我们如何被'可能性'欺骗

最近读完了《贪婪的多巴胺》，这本书从脑科学视角解释了人类行为背后的驱动力。而在阅读过程中，我不断联想到之前在《伯努利的谬误》中提到的贝叶斯推理，以及将认知科学和人工智能结合起来的《Bayesian Models of Cognition》。这三本书看似毫不相干——一本是讲多巴胺在大脑中的工作原理（为了面向大众读者，做了很多简化，语言比较通俗易懂）以及多巴胺跟社会现象的种种关系，一本讲概率统计，频率学派和贝叶斯学派的两三百年之争，以及如何利用贝叶斯定理去构建模型，去模拟人类的推理过程——但我发现它们指向了同一个深刻的问题：人类大脑的运转，一方面在面对很多的选择的时候，需要使用基于概率的推理框架来做因果推理；另一方面，还需要有一套感觉系统，该系统将视觉，听觉和触觉等原始信号综合起来，结合时间和空间信息，变为了感觉，感觉再经过某种结构，固化为了知觉或者叫经验，从输出动作的角度来看，知觉应该是上面的第一方面的部分，类似一个打分系统，这一部分更像一个行动系统，行动系统根据打分系统的输出去采取行动。因果推理会在不断学习过程中做抽象，学习到的知识会用于打分系统，最终都是服务于行动的输出。在这里，不得不提到杨立昆的世界模型，他提出的 JEPA（Joint Embedding Predictive Architecture）模型，正是试图还原大脑做推理和决策的机制，提出一种具有自主智能的模型结构。这个构想非常类似于人脑的工作流程，可以为机器智能提供非常好的架构指导。多巴胺：一个"可能性"的信徒《贪婪的多巴胺》最核心的观点是：多巴胺并非"快乐分子"，而是"欲望分子"。它不负责让你享受当下，而是驱使你追逐未来。它最大的作用是将我们对未来的的想象这种偏图景化的东西，转化为去寻找或者实现的动力。澳大利亚神经科学家约翰·佩蒂格鲁（John Douglas Pettigrew）发现了一个关键事实：大脑将外部世界分为两个独立的区域来管理——“近体的"和"远体的”。 “近体”体现在当下的体验或者触手可及的空间，“远体”体现在未来的可能性或者伸手无法到达的空间。多巴胺专注于远体空间，专注于"还没有到手的东西"。多巴胺有一个非常特殊的职责：最大化利用未来的资源，追求更好的事物。这意味着什么？多巴胺本质上是在做一件事：对未来的可能性下注。它不关心你已经拥有的，只关心你可能获得的。这就是为什么赌博让人上瘾，为什么热恋会让人疯狂，为什么艺术家永远不会对已完成的作品满足。但问题在于，大脑对"可能性"的评估，往往是有偏差的。或者说，对未来可能性的评估，并不是多巴胺要做的事情，专门有系统负责评估，本书并没有提及该系统的细节。多巴胺产生的原因：奖赏预测误差与TD误差研究这个现象的科学家把这种从新奇事物中得到的快感命名为“奖赏预测误差”。我们每时每刻都在预测将要发生的事，从什么时候可以下班，到在自动取款机上看到卡里有多少余额。实际发生的事好于我们的预期，就表明我们对未来的预言存在误差：可能我们可以提前下班了，或者查看余额时发现比预期多了100元。正是这种让人快乐的误差触发多巴胺行动起来。这种快乐不是源于额外的时间或钱本身，而是预期之外的好消息带来的兴奋感。这恰恰就是强化学习中时序差分误差(TD Error)的定义： $$\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$$ 其中 $V(s_t)$ 是大脑对当前状态的预期价值，$r_t + \gamma V(s_{t+1})$ 被看作是实际获得的奖励加上对未来价值的估计($V(s_{t+1})$其实不一定准确)。当实际情况好于预期，$\delta_t > 0$，多巴胺爆发——这与神经科学实验中观察到的多巴胺神经元放电模式完全一致。如果某种信号用来指导行动的话，那就是更一般的形式，强化学习中的优势函数 $A(s,a) = Q(s,a) - V(s)$ 度量的是某个具体行动比"平均表现"好多少，它几乎是最低方差的策略梯度估计。多巴胺系统在做的事情，本质上是计算优势函数——将预期与现实的差距转化为行动的动力。我自己的观点: 大脑中有一个区域负责预测未来的状态，这个区域会根据当前的状态、你采取的行动和过去的经验，生成一个对未来的预测，这个预测不仅仅是将来要发生的状态，还需要考虑达到该状态所可能采取的行动。另外一个区域负责对这个预测到的未来状态、行动对打分或者是做评估，在若干个评估结果中，选择出一个最优的结果，并且大脑认为该结果非常合理可行，这个时候，当该结果的评估价值远大于历史的平均水平时，多巴胺开始产生，并且急迫地驱动你去按照该行动去实现那个预期的未来。伯努利的谬误：混淆似然与后验在《伯努利的谬误》中，作者 Aubrey Clayton 指出了一个困扰了统计学三百年的根本错误,忽略基础概率或者叫做先验概率而直接使用基于频率的统计方法计算一件事情发生的可能性，是片面的，在很多行业当中，我们以为的基于频率的统计方法的客观性，其实会导致严重的错误。往往会造成的后果是：将似然概率（Likelihood）等同于后验概率（Posterior）。而事实上，一件事情发生的可能性，本质上就是主观判断+客观数据共同决定的，只要提出可能性，这件事情就带进来主观色彩了，因为不同的人，给出的猜想集合本身就不一致，在数据到来之前，没办法确定谁的猜想集合是对的，谁的猜想是错的。用数学语言来说，伯努利错误地认为： $$P(F=f \mid S=s) \approx P(S \text{ is close to } f \mid F=f)$$ ...

学习RL(六)

DDPG与TD3：连续动作空间的深度确定性策略梯度 Open AI Spinning Up - DDPG - DDPG（Deep Deterministic Policy Gradient） Deep Deterministic Policy Gradient (DDPG) is an algorithm which concurrently learns a Q-function and a policy. It uses off-policy data and the Bellman equation to learn the Q-function, and uses the Q-function to learn the policy. 本文记录我在学习DDPG（Deep Deterministic Policy Gradient）和TD3（Twin Delayed DDPG）的过程，梳理清楚他们产生的背景，核心思想，特点以及我在实现过程中遇到的问题记录和解决。 1. 背景与动机 DQN在离散动作空间表现出色。然而，在许多实际控制任务中（如机器人控制、自动驾驶等），动作空间是连续的。DQN无法计算所有的$Q(s,a)$,代价太大。随着动作空间维度的提升，离散化动作空间带来的成本增加呈指数级别。 DDPG正是为解决连续动作空间控制问题而设计的。 2. DDPG核心思想参考Policy Gradient和PPO，DDPG和TD3想要通过梯度下降的方法对Policy做优化(调节$\theta$)，在训练结束的时候，具有一个最优化的$\theta$，使得$Q(s,a)$$\big(a=\mu_\theta(s)\big )$最大化，还要借鉴DQN当中使用到的replay buffer: $\mathcal D$和target network等技术，来提升训练的稳定性和效率。DQN通过Q网络1和target_Q网络2分别近似$Q^\star(s,a)$和$Q^\star(s’,a’)$，根据Bellman Optimality Equation: ...

学习RL(五)

积累奖励(状态价值)对策略的梯度与环境动力学无关在写两个算法之后，再明确一下基于优化策略梯度的核心思想。在RL_5中推导了策略梯度是一个期望，具体形式如下： $$ \begin{equation} \nabla _\theta J(\theta) = \mathbb{E} _{a \sim \pi _\theta, s \sim d _{\theta}} \sum _{t=0}^{T} A^{\pi _{\theta}}(s_t,a_t)\nabla _\theta \ln \pi _{\theta}(a_t|s_t) \label{eq1}\tag{1} \end{equation} $$ $$ \begin{equation} \begin{aligned} \nabla _{\theta} J(\theta) &= \mathbb{E} _{s \sim d _{\theta}}\sum _{a \in \mathcal A} A^{\pi}(s,a) \nabla _{\theta} \pi(a|s) \\ &= \mathbb{E} _{s \sim d _{\theta}}\sum _{a \in \mathcal A} \pi(a|s)A^{\pi}(s,a) \frac {\nabla _{\theta} \pi(a|s)}{\pi(a|s)} \\ &= \mathbb{E} _{s \sim d _{\theta},a \sim \pi} A^\pi(s,a) \nabla _{\theta} \ln \pi(a|s) \end{aligned} \label{eq2}\tag{2} \end{equation} $$ ...

手眼标定

本文参考了OPENCV 问题描述在机器人系统中，经常遇到需要确定相机（眼睛）与机器人末端（TCP）之间的安装关系。如果相机不在机械臂末端，往往末端会安装一个相机能够识别的标记物，相机系统给出该标记物在相机空间的三维坐标和姿态。无论上述哪种安装类型，都需要确定一个方程的解：$AX=XB$，$A,B$是已知的齐次矩阵，$X$是未知的齐次矩阵。利用李代数和最小二乘解决$AX=XB$的问题。平移旋转分开求解从齐次等式提取旋转部分 $$ \begin{bmatrix} R_A & b_A \ 0 & 1 \end{bmatrix} \begin{bmatrix} R_X & b_X \ 0 & 1 \end{bmatrix}= \begin{bmatrix} R_X & b_X \ 0 & 1 \end{bmatrix}\begin{bmatrix} R_B & b_B \ 0 & 1 \end{bmatrix} $$ $$ R_AR_X=R_XR_B $$ 李代数和李群之间的相互映射在SO(3)上，旋转矩阵$R$的李代数$\phi$ $\boldsymbol u\in so(3)$是一个三维向量($\boldsymbol u$是一个单位向量，$\phi\in \mathbb R$)。$\boldsymbol u^{\wedge}$是一个反对称矩阵。 so(3)李代数到SO(3)的指数映射–罗德里格斯公式 $$ R=e^{\phi \boldsymbol u^{\wedge}}=\cos\phi I + (1-\cos \phi) \boldsymbol u\boldsymbol u^T + \sin \phi \boldsymbol u^{\wedge} $$ ...

学习RL(三)

Learning就是通过迭代的方法找到更接近真实值的手段。蒙特卡洛方法当研究的问题动态模型未知的时候，怎么做策略估计？怎么做策略的改进？在实际应用中，经常遇到模型未知的情况，无法像上一章节讲的，通过Bellman公式计算状态价值是根据模型（状态传递概率$p(s’,r|s,a)$）得到的，但是实际应用中经常遇到没有这样的概率可以依赖。思路就是既然MDP利用环境状态传递概率(State Transition Probability)$p(s’,r|s,a)$来加权计算期望，在不知道这个概率的情况下，能否利用多次采集某状态出现的时候，环境给出的奖励Reward来平均计算，作为状态价值。解法就是通过实验，多次执行episode，在每次的循环中，记录特定状态出现的次数以及循环结束之后所获得的奖励，最后依据大数定律，对积累起来的奖励求平均值，就当作该状态的价值。如果我们事先知道所有的可能状态（在该特定的policy下面，应该可以确定出来），那么就维护一个数组，存储每一种状态的上面的信息，最后所有状态的价值都计算出来就意味着策略评估完成了。但是问题来了：如果一个episode持续很长时间，或者就无法结束，那么，蒙特卡洛方法这种依赖episode结束才可以获得状态价值的方法就无法应用，需要找到替代的方法来近似。 TD-learning就解决了这个问题。基于TD-Learning就衍生出一系列的方法解决这类问题。 MC Policy Evaluation and Control $$G_t=R_{t+1} + \gamma R_{t+2}+ \gamma^2 R_{t+3} \cdots + \gamma^{T-1} R_{T}$$ $$v_\pi(s)=\mathbb{E}_\pi(G_t|S_t=s)$$ 需要循环多次episode, 每次episode开始之后，每一次遇到感兴趣的$s$，记录$N(s)=N(s)+1$，并且把Return加进来：$G(\boldsymbol s,a)=G(\boldsymbol s,a)+r$ 完成当前的episode后，计算$Q(\boldsymbol s,a)=G(\boldsymbol s,a)/N(\boldsymbol s,a)$ ->类似于累加Reward的过程然后遍历$a$，更新策略：$\pi(s)=argmax_aQ(\boldsymbol s, a)$ Monte Carlo ES，是指每一个episode起始的状态选择是随机的，不能固定，避免有些状态永远无法被访问到。下图是书中的算法流程。这部分也叫做MC Policy Improvement。从给定的$\pi_0$开始，$E$代表策略估计（Policy Estimation），得到动作价值函数$Q_{\pi_0}$，采用贪心算法（greedy）找到使得$Q_\pi(\boldsymbol s, a)$最大的action: $\pi_1(\boldsymbol s) \leftarrow \arg max_{a}Q_{\pi_0}(\boldsymbol s, a)$ $$ \pi_0 \xrightarrow{\text{E}}Q_{\pi_0}\xrightarrow{\text{I}}\pi_1\xrightarrow{\text{I}}\pi_2\cdots \xrightarrow{\text{I}}\pi_*\xrightarrow{\text{E}}Q_{\pi_ *} $$ 广义策略迭代(Generalized Policy Iteration) On-Policy and Off-Policy 在学习Q值的过程中，我们会遇到两种情况： ...

学习RL(四)

更新记录 2025-12-15：从策略下的系统演进路径$\tau$推导PG为什么不需要对环境迁移概率求导$p(\boldsymbol s_{t},r|\boldsymbol s_{t-1},\boldsymbol a_{t-1})$从而引入baseline。 1. 为什么要有Policy Gradient 学习RL(三)当中提到，相比策略评估和策略迭代分开进行的方法，GPI已经有了进步，能够在策略评估的阶段就先把actions: $\mathcal{A}$(离散的)遍历一遍，找到使得action-value$:Q_\pi(s,a)$ （为了把概念表达清晰，这里我想纠正我之前的blog当中对action-value采用的符号：$q(s,a)$）最大的那个$a$ : $\arg\max_{a \in \mathcal{A}} Q_\pi(s, a)$。之前在写blog的时候，脑子里面一直就藏着一个大问号：如果是控制电机的转速这种连续的场景，该怎么遍历 $\mathcal{A}$呢？当时我的想法是将 $\mathcal{A}$分段考虑，但是直到我知道有Policy Gradient。 2. 什么是函数的Gradient 梯度一般是在函数自变量空间当中的一个向量（假设函数的自变量是一个向量），坐标系统是在一个垂直正交的系统中，$\nabla$就是一个在坐标系统中有方向有大小的向量，方向代表了自变量沿着该方向移动微小距离$dr$，函数变化最大。$df=||f(\boldsymbol x + dr\cdot \nabla f(\boldsymbol x))-f(\boldsymbol x)|| \geq || f(\boldsymbol x + dr\cdot \boldsymbol \alpha)-f(\boldsymbol x)|| \boldsymbol (\alpha \text{ is any vector in } \boldsymbol X$)。图1: 梯度方向示意。$\nabla f(\boldsymbol x)$ 指向函数值变化最快的方向。 3. 从价值函数推导 $$ J(\theta) = \sum_{s \in \mathcal{S}} d_\pi(s) V_\pi(s) = \sum_{s \in \mathcal{S}} d_\pi(s) \sum_{a \in \mathcal{A}} \pi_\theta(a \vert s) Q_\pi(s, a) \tag{1} $$ 对比之前的依据action-value$:Q_\pi(s,a)$寻找$s$上的$a_{best}$，本方法依旧会使用$:Q_\pi(s,a)$，但是并不在每次的迭代中（GDI）去直接做action的选择，而是参与到对（1）的梯度计算当中。 ...

2024总结

工作因为产品推广的需要出差到迪拜和新加坡参加口腔展。因为需要横向扩展产品线，集成不同的硬件系统，对软件的结构做了一系列的改造，就是重构。针对客户反馈的问题和测试人员的反馈，针对主要业务的模块进行了代码重构，使得架构的可扩展性，可维护性提升，避免不同功能的相互耦合导致的问题。重构的笔记个人学习 2024年的下半年开始，成为微信读书的重度用户。下面是一部分书的笔记: 《园丁与木匠》《置身事内：中国政府与经济发展》《禅与摩托车维修艺术》 2024年读书给我最大的触动，或者说收获是：遇到一件事情，不管是一个问题还是有人跟你描述了一个观点或者事实，首先要做的不是去着急想解决方法或者产生一个判断，而是要把自己沉浸到问题或者对方的视角当中，用贝叶斯的思维去辩证思考，首先就是把所谓的基础概率纳入进来，或者说列举出来所有的可能性，然后根据你所看到听到的来更新这些可能性，最后再得到自己的判断。 2024年设计加工了一套可倒立的立方体样机，软件还没定版。家庭主要精力在培养孩子。与其说是单方面培养，不如说是和孩子一起进步，从大脑的开发到体魄的强健我们都是共同参与。 2024年主要精力放在了认读英文和数学上面，英文听力一直用客厅的音响磨耳朵：journey to the west, dragon master 和牛津树。孩子的年度进展语文进展：年初识字量约600，年末识字量约1500。1-5月用洪恩字卡过完1300字，自读小巴掌童话数本。6月后开英文自读，中文基本停滞。英语进展：年初听力在牛津树8-9，文盲。年末自读完成RAZ I，听力约在初章。今年亲读了牛8，9，journey to the west，科二四五十本，dragon master。六月开始按高频词，自读牛1-5，自读RAZ GHI的顺序练习自读。听力：上半年牛7-9，科二，journey to the west，下半年dragon master。数学：年初10以内分合，年末100以内加减（退位减法未搞定）体能进展：年初开始独立完成樱桃沟，夏天完成百花山的两次尝试，从门头沟方向的入口开始算起，到高山草甸结束。第一次完成整体的一半，第二次完成全程，小震惊了我们。粗略估计2024年全部的爬升有1000米，2025年目标是2000米的爬升。家庭周末的菜主要是在家自己做，2024年几乎没有开发新的菜谱，继续吃老本。健康因为有了孩子的缘故，之前的羽毛球和篮球活动已经暂停了。能够抽时间做的事情是骑自行车，主要是上下班的骑行。我给自己配了一块佳明的运动手表，然后数据统计用strava。2023年开始的骑行，到了2024年算是第二个骑行年，2024年总共的里程是2600公里，主要是通勤，剩下的是周末门头沟的谭王路和妙峰山还有戒台寺。 2000多公里的距离应该只是入门的水平，所以我作为骑行菜鸟，还需要继续努力，继续健康快乐骑行更远的距离。 2024不足与2025展望不足孩子培养，看了书知道了理论，没有投入实践，对孩子的陪伴是需要“绳锯木断，水滴石穿“的功夫，日拱一卒，不断地提供给养。工作方面，有时对繁琐的需求变更产生厌恶情绪，没有心怀敬畏。生活方面，陪伴家庭成员的时间不够，在一起的时候，专注度也有待提高。锻炼身体方面，没有正确评估能力和目标的匹配度，经常蛮干。展望继续保持阅读的习惯。不管当天有多么忙，必须抽时间看看书。这并不是为了能保持住当天的进度，而是在有闲暇时间的时候，能花更多的时间去投入阅读。就是让自己每天都别离开这个习惯。锻炼身体方面，要劳逸结合，学一些有效的技巧，还有就是明确每次出车的目标，纯娱乐还是提升有氧能力。组织一次家庭出游，在孩子上小学之前，时间相对好安排。倒立立方体，软件部分做完，能够保持平衡，立起来。也希望自己在2025能够保持专注，持续学习，有优质的输出。 2025/01/08 看瑞尔集团的创始人邹其芳先生的第一次直播，让我触动的是慎交友。结交的朋友会潜移默化地影响自己，尽量结交贵人，对自己有积极影响的人。

学习RL(二)

动态规划在环境动力学模型$p(s’, r|s, a)$已知的情况下，学习状态价值或者是动作价值。策略评估–Policy Evaluation 讨论的是如何在已知策略的情况下计算状态价值函数，从而得到采用该策略的价值有多大。在DP当中policy evaluation就是计算状态价值函数，也就做prediction problem。这里讨论的是如何计算状态价值函数，该函数是从初始的状态(不准)迭代计算的，迭代的终止条件是状态价值的更新幅度小于一个预设的阈值$\theta$，也就是说当状态价值函数的更新幅度小于$\theta$的时候，就认为状态价值函数已经收敛了。还有一个具体的细节：提到了两种状态价值迭代的方式，一种是维护上一次所有状态价值的数组和当前状态价值的数组，计算当前的状态价值的时候只参考上一个状态的数组，还有一种是直接将上一次的数组某个状态价值更新了，其他状态价值的计算直接用更新了的。后面的讨论默认都是基于第二种方式。明显地，想要实现上面的计算过程有一个概率需要知道，那就是状态转移概率$p(s’, r|s, a)$，也就是在状态$s$下采取行动$a$之后，转移到状态$s’$并且得到奖励$r$的概率，这也是叫做环境模型已知。这个概率在DP当中是已知的，在后续的MC和TD当中是未知的。策略改进–Policy Improvement 讨论的是在已有一个策略，且该策略所对应的状态价值已经确定的情况下，如何调整$a=\pi(s)$为$a’=\pi’(s)$，使得改进了的策略在将来与环境交互中获得更多的奖励。想法的来源是在状态为$s$的情况下，我们知道，继续沿用策略$\pi$, 所得到的后续收益就是$V(s)=\mathbb{E}(G|S=s)$。那么，一个问题来了：有没有可能，在状态为$s$的情况下，采取一个不同于$\pi(s)$的行动$a’$, 从而得到一个更大的收益$\mathbb{E}(G|S=s, A=a’)$，也就是说，是否存在一个行动$a’$使得$Q(s, a’) > V(s)$。如果存在这样的行动，那么我们就可以把当前状态下的策略改进为$\pi’(s)=a’$, 也就是说，在状态为$s$的时候，不再按照之前的策略$\pi(s)$来选择行动，而是按照新的策略$\pi’(s)=a’$来选择行动：因为采取$a’$获得了更多的收益。这种单个状态下的动作改变，其实是更普遍的情况下的一个特例，普遍地，在已知策略$\pi$和状态价值$V _{\pi}(s)$的情况下，我们可以通过计算$Q _{\pi}(s,a)=\mathbb {E}(r _{t+1}+ \gamma V _{\pi}(s’)|S=s,A=a)=\sum _{r _{t+1},s’}p(s’,r _{t+1}|s,a)\big ( r _{t+1}+ \gamma V _{\pi}(s’)\big )$来找到一个行动$a’$使得$Q _{\pi}(s,a’) > V _{\pi}(s)$，从而把当前状态下的策略改进为$\pi’(s)=a’$。贪心策略：对于任意一个状态$s$，遍历所有可能采取的行动，看看哪种行动的状态-行动价值最高，那么，当后面遇到状态为$s$的时候，就直接采取行动$\pi’(s)$。 $$ \pi’(s) = \arg \max _a Q _{\pi}(s,a) = \arg \max _a \sum _{r _{t+1},s’}p(s’,r|s,a)\big ( r _{t+1}+ \gamma V _{\pi}(s’)\big ) $$ ...

《园丁与木匠》

关于作者：艾莉森·高普尼克（Alison Gopnik）是美国加州大学伯克利分校儿童发展心理学教授，也是该领域全世界最顶尖的学者之一。她不仅是一位实验心理学家，也是一位哲学家，一生致力于以跨学科的视角研究儿童的认知与成长。她养育了三个儿子，现有三个不到5岁的孙辈。本书的框架这本书我觉得最大的特点是将理论研究和实践结合起来，给父母一个很清晰的框架，在这个框架下，指导父母如何去爱孩子，如何去陪伴和引导孩子。在这个过程中，其实本质是提升父母的认知，为孩子的成长提供一个好的“花园”，而不是按照自己的想法去把孩子雕刻成一个心中的模样。作者在术中并没有特别细节地描述育儿方面需要采取的措施，而是结合儿童心理学，哲学，以及认知心理学的理论和最新的研究成果，将时间线拉长，到达原始人类，智人时候的生产生活，结合婴幼儿的大脑特点，分析了婴幼儿的行为产生的生物学原因以及从进化角度得出的原始动机。脉络本书首先强调了尽管成年人–包括了父母，祖父母等等参与照顾幼儿的所有人，可能会觉得照看幼儿是一件非常令人痛苦的事情，但是在每一个细节当中，照看者会感受到孩子的爱，以及孩子也会感受到照看者的爱和关怀，这种亲密关系是非常伟大和无私的，也是崇高的，在道德上深刻，在情感上强烈。所以对于照看孩子，作为成年人要把它当作一种修行，主动地去承担各种各样的非常琐碎的事情，因为这件事情本身就非常伟大。所以，作者最开始其实是要大家引起重视，不能掉以轻心。然后，作者给出了本书的中心思想：确切地说，爱孩子的意义就是为那些无助的幼儿提供一个丰富、稳定、安全的环境，这个环境充满变化、创新和新奇的元素，可供他们无限发展。无论是从生物学和进化的角度来看，还是从个人和政治的角度来看，都是如此。爱孩子并不是给他们一个目的地，而是为他们的旅程提供给养。而后，更加具体地讲，作者提出：好父母不一定会把孩子变成聪明、快乐或成功的成年人，但可以打造出强健、具有高适应性和韧性的新一代人，以更好地应对未来将要面临的不可避免、不可预测的变化。然后，作者借用孩子大脑的生物学研究成果：发育中的大脑就可以说明这一点。稚嫩的大脑比成熟的大脑更加可塑，它们会生成更多的神经连接，也更加灵活。事实上，一岁孩子大脑中的神经元连接数目是我们成人大脑的两倍。不止于此，年轻的大脑还拥有更多连接的可能。这些连接很弱，已有的连接可以根据新的经历更迅速、更容易地发生改变。因此，年轻的大脑可以毫不费力地随着环境的变化而改变。在成长过程中，21常用的神经连接会变得灵活高效，并能横跨更远的距离。不用的神经连接会被“修剪”掉，从而消失。成熟大脑的灵活性低，神经连接从曲折狭窄的小径变成了笔直的长途信息高速公路。成人的大脑仍能改变，但大多发生在压力之下，并且要付出努力和注意力。总之，年轻的大脑天生就要探索，成熟的大脑则负责运用。来说明，孩子心智的健康发展，一定不是按照父母的意愿，持续地接受某些特定的信息来促进大脑对应的神经元产生高效连接，而是需要在漫长的幼儿阶段，持续不断地让孩子接触大范围的内容，从体育到植物，从动物到乐器，从新闻到工程学等等。让孩子接受不同的概念，领域及其之间的关联就是优秀的内容输入，用于神经元的连接提供丰富的素材。我的一个好友推荐的方法就是带着孩子跟不同领域的专家聊天，让孩子接受从未了解的概念甚至它们之间的逻辑关系，让孩子建立丰富的概念，当将来再次遇到这些概念的时候，就不会因为是第一次而感到恐惧和陌生，反而会激发他们的探索欲望，让孩子发自内心地主动寻求概念背后的基本逻辑。接着作者作为一位母亲和祖母，从自己的亲身体会分析：大约20年前，我写下了第一本书。在某一章的开头，我描绘了怀孕生子给我带来的如潮水般势不可当的经历：9个月的生理变化，与另一个生命共用身体的奇妙感受，以及生产时席卷一切如跑马拉松般的努力。我能感受到婴儿在产道中移动，这感受怪异又真实；我能感到大脑中涌动的狂喜，以及它释放出的种种化学物质。最终，我怀抱着温暖的小生命，他紧贴着我的身体。似乎，这种种唯有母亲才能体验的生理、情感与化学变化，塑造了舐犊之情。毋庸置疑，母亲有照顾幼儿的原始冲动。有生理学和心理学的原因，显而易见。爱人双方，尤其是父亲，因为深爱着对方，所以也深爱着双方共同的孩子，祖父母因为爱着自己的孩子，而且忙碌的现代生活父母不能时时刻刻在幼儿身旁，祖父母将自己的爱延续到了孙辈。作者提到，所有这些人的爱，是对持续照看幼儿的基本保障，这些爱很难随着时间和环境而产生巨大变化，是发自内心深处并且是源源不断的。接着，作者从边看边学，边听边学，边玩边学和边练边学四个维度分析了如何结合孩子的大脑特点去为他们提供成长的养料和提供稳定环境。在这里我列举一些我认为比较重要的内容。孩子作为一张白纸，在出生之后是缺乏因果关系的逻辑分析能力的，那么，他们是如何学习到这一技能的呢？有两种方法可以学习因果知识：一种是通过反复试错，另一种是观察其他人或事件。反复试错是所有动物学习的最基本方式，即使是最简单的生物，例如苍蝇、鼻涕虫和蜗牛，也会重复一些可以带来奖励的行为。试错的方式可以测试你的行为是如何导致事件发生的，并学习如何让新的事件发生。 update::2025-6-05 在写[[AI - RL Policy Gradient]]的时候，找到了这篇文章[intuitive understanding of Policy Gradient](RL — Policy Gradient Explained. Policy Gradient Methods (PG) are… | by Jonathan Hui | Medium) 孩子看到了周围环境的状态$S_t$。孩子采取了行动$u_t$，根据他大脑中的instinct，我觉得是知觉，具体来说就是Agent当中的$\pi(u|s)$，采取的$u$应该是能够最大化一个价值函数$J$，这个函数和当前的状态$s$有紧密的关系。行动之后，环境变化，得到新的状态$S_{t+1}$以及得到奖励$r_{t+1}$ 进一步地，采取下一个行动，该行动的选择是依据新的环境状态因为孩子有漫长的学习期，并不会有太多的生存压力，所以要鼓励孩子尽量用“探索式”的学习方法来学习：孩子和成人之间的这种差异反映了我之前谈到的关于“探索式”与“运用式”学习方法的对比。在“运用式”学习中，我们尝试快速找到最有可能当下就能解决问题的方案；而在“探索式”学习中，即使不能马上找到答案，我们也会尝试很多的可能性，甚至包括不太可能奏效的那些。如果我们想要在复杂的世界中茁壮成长，这两种学习方式都需要。孩子不仅能够有选择性地吸收表面的知识，也能够看到隐藏在知识之下的可信度，或者说是一种程度，这种程度表示的是有多少可信任的成分。所以就像很多工程上采用的原理，例如卡尔曼滤波器，在获取到测量状态之后，需要根据可信度，加权到预测当中形成统计学意义上的最优值。当然，孩子的学习过程要比滤波复杂得多，是更高维度，更多层次的一种取舍行为。随着孩子年龄的增长，他们开始对与他人交谈时的更多细微之处变得敏感。孩子可以感知到别人在说话时有多自信。如果两个人提出相互争论的观点，那么即使是3岁的孩子也会选择相信那位说话时更有自信的人。如果4岁的孩子听到一个有知识的人提出什么主张，相比那些无知的人，他们更有可能相信这位有知识的人。而5岁的孩子则会考虑到更具体的知识分类，他们更可能相信医生对医学的评价，或者工程师对机器的评价。孩子有一种本能，就是努力归纳出来一种适用于可以解释很多现象的共同逻辑链条，也就是普遍规律。我的理解是在这个过程中，驱动孩子做这一件事情的原始动力是为了在将来的生活当中，在遇到问题的时候，能够快速产生解决问题的方法，而不是在遇到问题的时候才开始做多种尝试–可以说是惰性使然。孩子不仅需要更多关于这个世界的信息，他们还需要理解因果关系，才可以从一个更深入、更广泛的角度理解这个世界，也就是说，这些信息可以促进他们未来学到更多的知识。作者提到本质主义帮助孩子抽象他们所见到听到感受到的内容，可以让孩子更加深刻地理解他身边的世界: 孩子可以从语言的细微特征中学习。被心理学家称为本质主义的发展就是一个非常好的例子。苏珊·格尔曼3730年来一直在研究孩子的本质主义，并取得了令人瞩目的成就。所有有心智的生物把这个世界的事物区分成了不同的类别。而“本质主义”这个术语是心理学家用来描述我们倾向于认为这些类别是深刻的、先天的、永久的，这些都来自这个世界，而不是来自我们的心智。孩子大脑中永远有一个猜测：从统计学的角度来看，猜测是一个或者多个随机变量的概率分布，当我们有了新的证据，就会利用贝叶斯理论去计算在当前证据下，猜测的新的分布，这是一个条件概率分布，也叫做后验分布。也是我们心中认为最合理的结果。作者做的科学研究应该会涉及到这方面的数学基础。现在假设我们做一个新的实验或者进行一项新的观察。新的证据可能会让我们重新考量那个最好的猜测。也许有一个不同的假设能更好地解释新的证据。如果另一个假设成立，会发生什么呢？如果新的假设能更好地解释所有的证据，包括旧的和新的，那我们可能会认为它更有可能是真的。它将取代我们以前暂定为“真理”的想法。作者提到了探索式学习和掌握式学习：这两种学习方式似乎涉及不同的底层机制，甚至不同的大脑区域。孩子发展掌握式学习的时间要晚于探索式学习。婴儿和最聪明的成年人一样擅长探索式学习，甚至婴儿可以做得更好。但随着年龄的增长，人类似乎越来越擅长掌握式学习。成年人和幼儿的学习过程，在生物学上面是有差异的：我需要花很大的努力去适应让我无所适从的互联网。这是因为对成年人来说，学习一项新技术需要认真、细心、有意识的学习过程。而这种专注是成年人非常珍贵的资源。甚至在神经元的层面上也是如此。当我们集中注意力的时候，大脑中负责设定目标计划的前额叶皮层会释放胆碱类的神经递质。但这些能促使我们学习的化学物质只能传递到大脑的某些特定部位。前额叶皮层也会释放抑制性的化学物质，从而阻止大脑其他部位发生改变。因此成年人在学习一项新技术的时候，大脑只能进行一点点细微的改变。孩子大脑14的注意力和学习能力的运作方式则完全不同于成人。年轻的动物和人类有着分布更广的胆碱类神经递质，这让他们不需要专注和计划就能学习了。一切新鲜的事物，无论是多么令人惊讶的，还是看似无用的或杂乱无章的，年轻的大脑都能让孩子轻松地掌握这些庞杂的信息。收获当父母有意识地对孩子进行说教，可能不会对孩子产生多少影响，孩子此时并不能很好地吸收父母输出的观点或者是知识内容，相反地，孩子反而擅长通过父母微妙的肢体语言，说话的声音语调的变化，敏感地察觉出蕴含在里面的有效信息，从而吸收到孩子的大脑。作者在接受采访的时候提到一个点：西方的哲学传统当中，很少有孩子的身影，因为很多的西方哲学家都是单身的男士，他们专心于和自然、社会进行沟通，很少有机会接触孩子，更不用说从孩子身上获取到什么哲学方面的灵感了。 “以人为鉴，可以明得失；以史为鉴，可以知兴替”，还需要再加一句，以儿为鉴，可以明己。当我们观察幼儿的时候，就是在提升对自我的认知：某种程度上，他们就是曾经的我们，当我们试图让自己“傻”得更像一张白纸的时候，可能我们会发现，其实那个我就是孩子。当父母专注于如何提供幼儿一个安全丰富的环境的时候，往往父母就会从行动上提升自己本身的能力和认知水平，去争取更高的社会地位以及收入来使自己有能力提供如上的环境。关于作者的学术研究结合之前的卡尔曼滤波的文章，卡尔曼滤波器学习笔记（一）：概率论和贝叶斯滤波在儿童学习过程中，贝叶斯学习被作者重点提及。 ...

学习RL(一)

基础概念智能体和环境交互图1: Agent 与环境交互的基本结构。Agent 根据当前状态 $s_t$ 选择动作 $a_t$，环境依据状态转移概率 $p(s’,r|s,a)$ 返回下一状态 $s_{t+1}$ 和奖励 $r_t$。上面的图展示了RL智能体与环境交互的结构。这个示意图是很广义和普遍的：action可以是加载在机械臂电机上的控制电压或者是PWM信号，也可以是高级别的决策，例如是否要变道；state也比较灵活，可以看作是传感器回传的数据，也可以看作是在空间中特定符号描述的物体信息。奖励奖励这个概念我认为比较模糊，或者说它的来源可以是人为设计，也可以是环境给出。在机器人领域，奖励稀疏是一个常见问题，没有奖励的情况下，智能体很难学到真实的状态价值或者动作价值，那么策略的优化就很难进行下去。针对这个问题，后续专门讨论。策略策略$\pi$是智能体在状态$s$下对动作$a$的选择，或者是一个从状态到动作的映射关系。它可以是一个确定性的函数，例如DDPG和TD3那样输出准确的动作，也可以是一个随机的概率分布，例如PPO输出的是动作的高斯分布期望，可以利用这个期望生成一个分布，然后从分布中采样出来一个具体的动作。状态价值$V(s)$ 系统在状态$s$下，根据某个策略$\pi$采取行动，在后续和环境交互的过程中，得到的收益$G$的期望。 $$ \begin{aligned} & V(s)=\mathbb{E} _{\pi}(G|S=s) \\ & G=R _{t+1} + \gamma R _{t+2}+ \gamma ^2 R _{t+3} \cdots =\sum _{k=0}^{\infty}\gamma ^k R _{t+k+1} \end{aligned} $$ 行动价值$Q(s,a)$ 在状态$s$下，采取行动$a$之后，在后续和环境交互的过程中，得到的收益$G$的期望。 $$ \begin{aligned} & Q(s,a)=\mathbb{E} _{\pi}(G|S=s,A=a) \\ & G=R _{t+1} + \gamma R _{t+2}+ \gamma ^2 R _{t+3} \cdots =\sum _{k=0}^{\infty}\gamma ^k R _{t+k+1} \end{aligned} $$ ...