感谢 点一个大大的赞! 经典教材的重新排版
文章中深蓝色字体表示摘录自该教材。
给老王点赞! 老王
这个作者真心用心地交互式展示数学和工程实践。 Kalman-and-Bayesian-Filters-in-Python
这篇容易让我们建立直觉的理解
3blue1brown-bayes-theorem
背景知识 一本很有名的书,学习作者对内容的安排。 需要的预备知识:
线性代数
概率,概率密度函数
离散变量贝叶斯滤波
连续变量贝叶斯滤波推导
学习心得 首先是概念理解,需要把概念代表的物理意义搞清楚:事件≠随机变量,随机变量是对事件的数量化描述,事件是随机变量的取值,随机变量的取值可以是一个数,也可以是一个向量。概率密度函数是对随机变量的取值的概率分布的描述,概率密度函数的积分就是概率。概率密度函数的积分就是概率,概率密度函数的积分就是概率,概率密度函数的积分就是概率。重要的事情说三遍。
亲自手写公式推导一遍,在这个过程中会强烈加深对内部逻辑的理解,争取可以做到经过很长时间之后,你仍然可以随便拿一张纸开始从零推导
感觉基于贝叶斯的随机过程计算其实是在更新变量的概率分布,并不是直接计算最终你看到的数据,最后你得到的数据只是这个过程当中的附带产品。
上面这一条的感受里面说的计算过程,基础是全概率下的全部样本空间,像是在一个无限大的平面上(因为真实值的取值是无穷无尽的)时刻飘过一团云,这团云和云笼罩下的区域是本次计算的结果。
符号说明 一般性地,我们用$\boldsymbol X$表示随机变量,用$\boldsymbol x$表示随机变量的某一个具体的取值。用$\boldsymbol{y}$表示测量值。$\boldsymbol{u}$表示系统的控制量。$\boldsymbol{w}$表示系统的过程噪声,$\boldsymbol{v}$表示测量噪声。黑体代表这些变量是向量。
概率论回顾 随机变量$\boldsymbol X$(Random Variable)的物理意义是把随机事件数量化。随机变量分为离散随机变量和连续随机变量。离散随机变量的取值是有限的,连续随机变量的取值是无限的。随机变量的取值可以是一个数,也可以是一个向量。个人觉得随机变量只是对随机事件的定量描述,是更加具象化的表达方式。更加核心的还是随机事件,所以下面的描述都是基于事件来推导公式的,并没有带入随机变量的表达。
条件概率的定义: 某事件B发生的条件下,事件A发生的概率,记为$P(A|B)$。 工程上是把事件看作随机变量在某一时刻取某一个数值,所以,在实际计算时,计算的是条件概率密度函数,并不是单单一个条件概率。
乘法公式: $P(AB)=P(A)P(B|A)=P(B)P(A|B)$ 描述的是随着时间的推移,事件A和事件B同时发生的概率可以通过事件A发生的概率和基于A发生B发生的概率相乘得到。方便针对每一个概率进行单独的计算从而得到一个总的概率。
全概率公式: 全概率公式是另一个很重要的公式,提供了计算复杂事件概率的一条有效的途径,使得一个复杂事件的概率可以通过简单的计算得到。
全概率公式:设$B_1,B_2,\cdots,B_n$是样本空间$\Omega$的一个划分,且$\cup_{i=1}^n B_i=\Omega$, $P(B_i)>0(i=1,2,\cdots,n)$,则对于任一事件$A$,有 $P(A)=\Sigma P(B_i)P(A|B_i)$
贝叶斯公式: 这个公式得到的前提是乘法公式和全概率公式。 设$B_1,B_2,\cdots,B_n$是样本空间$\Omega$的一个划分,且$\cup_{i=1}^n B_i=\Omega$, $P(B_i)>0(i=1,2,\cdots,n)$,则对于任一事件$A$,有 $P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\Sigma_{j=1}^n P(B_j)P(A|B_j)}$
体会:虽然我没有查找托马斯·贝叶斯发现这个定理的过程是不是因为实际的应用问题,因为在状态估计这个领域,具有非常强的适配性,我们可以把样本空间理解成状态变量的空间,$B_i$理解成离散的单个样本,$A$理解成对样本空间的某次测量,$P(B_i)$理解成状态变量的先验概率,$P(A|B_i)$理解成测量值的似然概率 – 就是假设真实值为$B_i$的条件下测量值为$A$的概率,$P(B_i|A)$理解成状态变量的后验概率(经过测量更新),这样就可以把贝叶斯公式应用到状态估计当中了。
维基百科里面说这个方程的分母是$P(B)$
然后我看到了它说$P(B)$是边缘分布,然后我点进去看啥是边缘分布: 边缘分布
在这里隐约感觉到:这里的论述和线性代数里面的空间向量怎么很类似?跟信号的傅里叶分解也很类似:全部都是把一个复杂的东西分解成一些简单的东西,然后再把这些简单的东西组合起来得到复杂的东西。这块简单的东西就是全样本空间下每一种样本的概率,类似于空间中的基向量,或者傅里叶变换中的基函数,然后这些基函数前面的系数就是权重或者是事件A和$B_i$重叠了多少程度,然后求和就得到了边缘概率。
最后再次用更好记忆的方式写一遍贝叶斯公式:
$$ 后验条件概率=\frac{先验概率*似然概率}{边缘概率} $$
条件概率是概率论中一个既重要又实用的概念。 – 1.4《概率论与数理统计》茆诗松
pdf: probability density function, 概率密度函数 cdf: cumulative distribution function, 累积分布函数 先验概率:就是人们根据自己系统的模型给出来的经验概率 后验概率:就是通过传感器本身的测量特性–传感器测某个状态得到的结果这个变量的概率分布和先验的概率分布,得到的对系统的状态变量条件概率$P(X=x|Y=y)$ 似然概率:是一个条件概率,意思是当真实值取值为$x$的时候,测量值取值为$y$的概率,$P(Y=y|X=x)$ (这里默认测量值测量到的就是真实值) 我觉得还需要加一个边缘概率:边缘概率就是全概率公式对于某一个事件的应用,就是基于所有可能的状态量,测量得到$y$之后的条件概率和先验概率乘积再相加。展现形式是和全概率一样的,只不过这里具有了更多的实际意义。
...