读书心得:思考,快与慢

第6章 意料之外与情理之中

讲系统1如何对发生的事件做判断的,分析了它的工作机理和存在的缺陷

讲了心理学家乔恩的故事,从第一次的惊喜到第二次的习以为常,因果关系的推导在系统1看来,会因为之前发生了一次小概率事件而把之后再次发生类似事件认为习以为常,我个人认为就是条件概率在第二次采样的时候被系统1无意识地调高了。

第16章 因果关系比统计学更有说服力

在16章节当中,列举了出租车逃逸的事例。这个问题是要求我们回答出租车是蓝色而不是绿色的概率是多少。

我们通过贝叶斯的思想来分析这个问题: 事件B:出租车是蓝色的; 事件G: 出租车是绿色的;事件S:那个目击证人指认出出租车的颜色是蓝色的。

因为, ,这两个概率是先验的,假如现场没有目击证人的任何证词,我们只能根据先验信息来判断肇事出租车是蓝色的概率是0.15。但是现场有目击证人,目击证人的观察也具有一定的不确定性,他能够正确辨认出租车颜色的概率是0.8。其实,作者想要读者思考的是如何根据目击证人的证词和先验概率分布来计算出租车是蓝色的后验概率,这个后验概率是,我们可以通过贝叶斯公式来计算:

上面的公式当中,比较容易得到概率数据的项:

->当出租车为蓝色时目击证人指认出租车是蓝色的概率,是一个条件概率;

->现场的出租车颜色是蓝色的概率;

分母的是目击证人指认出租车是蓝色的概率,是一个边缘概率,在之前的卡尔曼滤波器学习笔记(一)当中提到过。如何确定这个概率的数值呢?我们可以通过全概率公式来计算:

这样,我们就可以计算出

得到这个结果的反思:单纯依靠先验概率得到答案0.15,单纯依靠目击证人得到0.8都不是最合理的结果,需要综合两者的信息来判断,当我们依靠贝叶斯公式计算得到后验概率是0.41之后,我们会更信服这样的概率结果。

在这个问题的讨论中,我和妻子产生了分歧,分歧点在于条件概率的计算是一个除法,除法的分子部分她选择了而不是,她认为分母部分已经把这个目击者看到的信息包含进去了,分子是这个城市蓝色汽车出现的概率。

我的想法是在这个问题中只是假设(Hypothesis),这个问题的核心仍然是那个目击者,目击者说他看到蓝车是一个证据(evidence),他看到蓝车并且假设是蓝车概率是,但是也有可能是绿车他说成蓝车,他看到蓝车但是假设是绿车概率是, 那么他看到蓝车并且假设也是蓝车的概率是 ,也就是这个问题的答案。全程考虑问题的重点是他提出他看到蓝车这个证据的事件需要在所有可能的假设上面做两个事件同时发生的概率求解,然后看看证据所描述的假设占据所有假设上的比率。隐藏的统计学基础比率(Statistical Base Rates)起到的作用就是计算提出证据这个事件和假设真的发生的概率。

像是线性代数当中的基向量,我们在讨论问题的时候,并不会过度关心那些个基向量,我们关心的是基向量的线性组合,或者说是坐标,例如,飞机在飞行中的位置就是一个大地坐标系统下的向量,在飞机着陆过程中,地面控制系统关心的是飞机的z坐标(代表了当前的高度),如果高度不对会发生坠机事件,和x、y方向的联合速度,代表了水平飞行的朝向,如果朝向不对无法降落到飞机场。这些变量是飞机位置这个总体变量在某些方向上的投影。从概率的角度看,就是证据的提出向基础事件们投影,得到的投影作为新的样本,从样本中选择我们关心的子样本。

从独立做100次实验的角度来看,让目击者独立重复看100次现场,实验设计85次是绿色出租车,15次是蓝色出租车,他看到蓝色出租车并且汇报是蓝车有12次,他看到绿色出租车并且汇报是蓝色出租车有17次,他总共汇报了29次是蓝车,但是这29次当中真正是蓝车只有12次,那么最终的概率就是12/29。

作者在这一章节最想强调的事情是:在特殊场景发生的事情,即使是你亲眼看到的,也并不能把这个事件发生的概率提高到1,人们很容易忽略统计学的基础比例,但是如果统计学的基础比例换汤不换药地被描述为因果关系当中的原因,比如还是那个出租车肇事逃逸的问题,描述为两家公司拥有相同数量的出租车,但是在造成事故的出租车当中,绿色出租车占比为85%。那么,人们就更容易地接受这样的事实,就会觉得是绿色出租车的可能性变大,降低是蓝色出租车肇事的预期。从而改变了对这个事件的看法。但是从数学的角度,这两种描述都是贝叶斯公式当中的计算素材。作者提到的两个重要的概念分别是:

统计学基础比率(Statistical Base Rates):在一个特定的群体当中,某个特定的属性的比例,例如,某个城市的出租车当中,蓝色出租车的比例是15%,绿色出租车的比例是85%。普遍受到轻视,当人们手头有和该事件相关的具体信息时,有时候还会完全忘记或者忽略这个比率。

因果关系基础比率(Causal Base Rates):在一个特定的群体当中,某个特定的属性的比例,例如,某个城市的出租车当中,蓝色出租车肇事的比例是15%,绿色出租车肇事的比例是85%。因果关系往往被看作是个别事件的信息,人们很容易把这个信息和其他的具体事件结合起来考虑问题。

文章讲到的思维定式,对于大脑中的系统1来说,它的特征之一就是代表了范畴规范和原型范例,这样的规范和范例决定了我们如何看待身边的事物,比如电冰箱,电动车和交通警察,在我们的记忆当中会存储所有这些范畴的事物或者个人相关的一个或者多个“规范的”典型形象,当这些规范具有了社会性的时候,这些典型形象就被称为思维定式。注意,这里是范式的式。

我们应该如何做?

  1. 我认为,在需要做出判断的时候,尽量能够把和当前所遇到的问题相关的名词列举出来,然后把他们做一些组合形成一些描述,然后再思考这些描述是否有普遍的统计学规律,如果有,把这些规律转化为因果关系的基础比率,帮助我们分析当前的这个具体问题。
  2. 任何我们看到听到的事情,都是值得怀疑的,因为从数学的角度来看,这件事情发生都是概率性的,我们看到听到感受到的,只是该事件的某种观测,只要是观测,就会存在偏差,就会不准,即使我们主观感受觉得自己判断得很准。
  3. 不能忽略基础比率,但是更不能忽略观测。

第17章 所有表现都会回归平均值

成功=天赋+运气

从飞行员特技表演到高尔夫球手前后两天的比赛水平,都说明了,如果某一次表现优秀,并不能下定论这个选手一直会如此的优秀,反而,他的表现会回归平均值,但是如果某个选手的表现一直显著超过平均值,那么,说明他是一位优秀的选手。 回归效应是普遍存在的现象,上过《体育画报》封面的运动员都会在之后的比赛中表现欠佳。

作者强调了相关性和因果性是不同的概念:

  • 相关系数:两个值共有因素的相对比重,在0到1之间浮动。我理解的是,两个值是随机变量,有联合概率分布函数和联合概率密度函数,也有某个变量的边缘概率分布和边缘密度函数。查阅卯诗松概率统计的书籍,描述两个变量之间的统计关系可以采用协方差或者相关系数,但是因为协方差是带有量纲的,就是某种单位,无法归一化,所以有了相关系数这个无量纲的系数。 两个随机变量的协方差,或者叫做相关矩(中心矩)

时候,说明两个随机变量是正相关的,当时候,说明两个随机变量是负相关的,当时候,说明两个随机变量是不相关的。

  • 两个随机变量不相关不代表相互独立。
随机变量独立性的定义
  • 相关系数的计算公式。 两个随机变量的相关系数

  • 变量之间的回归关系 -- 英国生物学家兼统计学家高尔顿 回归分析的意义

自变量的取值是如何影响因变量期望值的,该模型并不会给出的具体取值,只是表明了的平均水平会随发生什么样的变化。

一元线性回归模型
  • 如何在实践中利用这个效应?

在做预测分析的时候,可以根据历史数据得到回归分析的结果,然后,根据个例的最近情况,比如最近三年的走势,结合回归分析结果进行加权平均,得到的加权平均更具有说服力。作者举例的连锁百货公司的下一年的门店销售额增长情况,需要在平均增长情况的基础上,对业绩较差的门店赋予大于10%的增长率,对于业绩较好的门店赋予小于10%的增长率。个人认为,这只是一种思维方式,需要我们使用更精确的数学模型来刻画这种变化情况。

第18章 如何让直觉性预测更恰当有效

对问题的预测和对问题的估测是不同的,到底哪里不同?


读书心得:思考,快与慢
https://warden2018.github.io/2023/12/24/2023-12-24-Book-Thinking-Fast-Slow/
作者
Yang
发布于
2023年12月24日
许可协议