<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>概率论 on Yang's Blog</title><link>https://warden2018.github.io/tags/%E6%A6%82%E7%8E%87%E8%AE%BA/</link><description>Recent content in 概率论 on Yang's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Fri, 03 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://warden2018.github.io/tags/%E6%A6%82%E7%8E%87%E8%AE%BA/index.xml" rel="self" type="application/rss+xml"/><item><title>多巴胺、贝叶斯与伯努利的谬误：我们如何被'可能性'欺骗</title><link>https://warden2018.github.io/posts/2026-04-03-book-dopamine-and-bayes/</link><pubDate>Fri, 03 Apr 2026 00:00:00 +0000</pubDate><guid>https://warden2018.github.io/posts/2026-04-03-book-dopamine-and-bayes/</guid><description>&lt;div style="display:flex;justify-content:center;gap:20px;"&gt;
&lt;img src="https://images-1302340771.cos.ap-beijing.myqcloud.com/books/s33973820.jpg" alt="贪婪的多巴胺" style="height:200px;object-fit:contain;" /&gt;
&lt;img src="https://images-1302340771.cos.ap-beijing.myqcloud.com/Bernoulli%27s%20Fallacy.jpg" alt="Bernoulli's Fallacy" style="height:200px;object-fit:contain;" /&gt;
&lt;img src="https://images-1302340771.cos.ap-beijing.myqcloud.com/Bayesian_models_of_Cognition.jpg" alt="Bayesian Models of Cognition" style="height:200px;object-fit:contain;" /&gt;
&lt;img src="https://images-1302340771.cos.ap-beijing.myqcloud.com/JEPA_worldModel.png" alt="JEPA World Model" style="height:200px;object-fit:contain;" /&gt;
&lt;/div&gt;
&lt;p&gt;最近读完了《贪婪的多巴胺》，这本书从脑科学视角解释了人类行为背后的驱动力。而在阅读过程中，我不断联想到之前在《伯努利的谬误》中提到的贝叶斯推理，以及将认知科学和人工智能结合起来的《Bayesian Models of Cognition》。这三本书看似毫不相干——一本是讲多巴胺在大脑中的工作原理（为了面向大众读者，做了很多简化，语言比较通俗易懂）以及多巴胺跟社会现象的种种关系，一本讲概率统计，频率学派和贝叶斯学派的两三百年之争，以及如何利用贝叶斯定理去构建模型，去模拟人类的推理过程——但我发现它们指向了同一个深刻的问题：&lt;strong&gt;人类大脑的运转，一方面在面对很多的选择的时候，需要使用基于概率的推理框架来做因果推理；另一方面，还需要有一套感觉系统，该系统将视觉，听觉和触觉等原始信号综合起来，结合时间和空间信息，变为了感觉，感觉再经过某种结构，固化为了知觉或者叫经验，从输出动作的角度来看，知觉应该是上面的第一方面的部分，类似一个打分系统，这一部分更像一个行动系统，行动系统根据打分系统的输出去采取行动。因果推理会在不断学习过程中做抽象，学习到的知识会用于打分系统，最终都是服务于行动的输出&lt;/strong&gt;。在这里，不得不提到&lt;a href="http://yann.lecun.com/"&gt;杨立昆&lt;/a&gt;的世界模型，他提出的 JEPA（Joint Embedding Predictive Architecture）模型，正是试图还原大脑做推理和决策的机制，提出一种具有自主智能的模型结构。这个构想非常类似于人脑的工作流程，可以为机器智能提供非常好的架构指导。&lt;/p&gt;
&lt;h2 id="多巴胺一个可能性的信徒"&gt;多巴胺：一个&amp;quot;可能性&amp;quot;的信徒&lt;/h2&gt;
&lt;p&gt;《贪婪的多巴胺》最核心的观点是：多巴胺并非&amp;quot;快乐分子&amp;quot;，而是&amp;quot;欲望分子&amp;quot;。它不负责让你享受当下，而是驱使你追逐未来。它最大的作用是将我们对未来的的想象这种偏图景化的东西，转化为去寻找或者实现的动力。&lt;/p&gt;
&lt;p&gt;澳大利亚神经科学家约翰·佩蒂格鲁（John Douglas Pettigrew）发现了一个关键事实：&lt;strong&gt;大脑将外部世界分为两个独立的区域来管理——&amp;ldquo;近体的&amp;quot;和&amp;quot;远体的&amp;rdquo;。&lt;/strong&gt; “近体”体现在当下的体验或者触手可及的空间，“远体”体现在未来的可能性或者伸手无法到达的空间。&lt;/p&gt;
&lt;p&gt;多巴胺专注于远体空间，专注于&amp;quot;还没有到手的东西&amp;quot;。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;多巴胺有一个非常特殊的职责：最大化利用未来的资源，追求更好的事物。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;这意味着什么？多巴胺本质上是在做一件事：&lt;strong&gt;对未来的可能性下注。&lt;/strong&gt; 它不关心你已经拥有的，只关心你可能获得的。这就是为什么赌博让人上瘾，为什么热恋会让人疯狂，为什么艺术家永远不会对已完成的作品满足。&lt;/p&gt;
&lt;p&gt;但问题在于，大脑对&amp;quot;可能性&amp;quot;的评估，往往是有偏差的。或者说，对未来可能性的评估，并不是多巴胺要做的事情，专门有系统负责评估，本书并没有提及该系统的细节。&lt;/p&gt;
&lt;h2 id="多巴胺产生的原因奖赏预测误差与td误差"&gt;多巴胺产生的原因：奖赏预测误差与TD误差&lt;/h2&gt;
&lt;p&gt;研究这个现象的科学家把这种从新奇事物中得到的快感命名为“奖赏预测误差”。我们每时每刻都在预测将要发生的事，从什么时候可以下班，到在自动取款机上看到卡里有多少余额。实际发生的事好于我们的预期，就表明我们对未来的预言存在误差：可能我们可以提前下班了，或者查看余额时发现比预期多了100元。正是这种让人快乐的误差触发多巴胺行动起来。这种快乐不是源于额外的时间或钱本身，而是预期之外的好消息带来的兴奋感。&lt;/p&gt;
&lt;p&gt;这恰恰就是强化学习中时序差分误差(TD Error)的定义：&lt;/p&gt;
&lt;p&gt;$$\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$$&lt;/p&gt;
&lt;p&gt;其中 $V(s_t)$ 是大脑对当前状态的预期价值，$r_t + \gamma V(s_{t+1})$ 被看作是实际获得的奖励加上对未来价值的估计($V(s_{t+1})$其实不一定准确)。当实际情况好于预期，$\delta_t &amp;gt; 0$，多巴胺爆发——这与神经科学实验中观察到的多巴胺神经元放电模式完全一致。如果某种信号用来指导行动的话，那就是更一般的形式，强化学习中的&lt;strong&gt;优势函数&lt;/strong&gt; $A(s,a) = Q(s,a) - V(s)$ 度量的是某个具体行动比&amp;quot;平均表现&amp;quot;好多少，它几乎是最低方差的策略梯度估计。多巴胺系统在做的事情，本质上是计算优势函数——将预期与现实的差距转化为行动的动力。&lt;/p&gt;
&lt;p&gt;&lt;em&gt;我自己的观点&lt;/em&gt;:&lt;/p&gt;
&lt;p&gt;大脑中有一个区域负责预策未来的状态，这个区域会根据当前的状态、你采取的行动和过去的经验，生成一个对未来的预测，这个预测不仅仅是将来要发生的状态，还需要考虑达到该状态所可能采取的行动。另外一个区域负责对这个预测到的未来状态、行动对打分或者是做评估，在若干个评估结果中，选择出一个最优的结果，并且大脑认为该结果非常合理可行，这个时候，当该结果的评估价值远大于历史的平均水平时，多巴胺开始产生，并且急迫地驱动你去按照该行动去实现那个预期的未来。&lt;/p&gt;
&lt;h2 id="伯努利的谬误混淆似然与后验"&gt;伯努利的谬误：混淆似然与后验&lt;/h2&gt;
&lt;p&gt;在《伯努利的谬误》中，作者 &lt;a href="https://aubreyclayton.com/"&gt;Aubrey Clayton&lt;/a&gt; 指出了一个困扰了统计学三百年的根本错误,忽略基础概率或者叫做先验概率而直接使用基于频率的统计方法计算一件事情发生的可能性，是片面的，在很多行业当中，我们以为的基于频率的统计方法的客观性，其实会导致严重的错误。往往会造成的后果是：&lt;strong&gt;将似然概率（Likelihood）等同于后验概率（Posterior）。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;而事实上，一件事情发生的可能性，本质上就是主观判断+客观数据共同决定的，只要提出可能性，这件事情就带进来主观色彩了，因为不同的人，给出的猜想集合本身就不一致，在数据到来之前，没办法确定谁的猜想集合是对的，谁的猜想是错的。&lt;/p&gt;
&lt;p&gt;用数学语言来说，伯努利错误地认为：&lt;/p&gt;
&lt;p&gt;$$P(F=f \mid S=s) \approx P(S \text{ is close to } f \mid F=f)$$&lt;/p&gt;</description></item></channel></rss>