引言
我是一枚硬币
又是我——那一枚被很多人玩坏了的硬币。大家呢,总是很喜欢把我抛来抛去。忘了多少年前, 一个叫做伯努利的人,把我往天上抛了$N$次, 还幸灾乐祸的统计了我脸着地的次数,记作$X$。然后说我脸着地的次数是一个服从二项分布的随机变量, 记作 $X\sim B(N, p)$ , 其中 $p$ 是我每一次脸着地的概率。这个二项分布呢,是一个离散型的概率分布, 那货给出了在$N$ 起飞中, 我脸着地次数的概率如下:
$$
P(X = x) = C_N^xp^x(1-p)^{N-x}
$$
那么,在知道我每一次脸着地的概率的情况下, 大家就能够算出在$N$ 次起飞中,我脸着地次数的概率; 但是身为一枚骄傲的硬币,怎么可以让人类轻而易举的就知道我每一次脸着地的概率!!!
我的爸爸——贝叶斯
可是呢,人类也是同样的骄傲,我不告诉你们,你们偏要知道我的脸着地的概率。那怎么办呢?这时,有个叫做贝叶斯的年轻人站了出来,说了句:”我有个想法,不知当讲不当讲”, 然后就巴拉巴拉的说了起来:”虽然我们不知道$p$的值具体是多少, 但能够确定的是$p$这个值是一个连续值,而且属于区间[0,1]。姑且把这个信息称为先验知识。除此之外,我们一无所知。那么,不妨假设这个概率p是一个随机变量, 服从[0,1]的均匀分布,称为先验分布。那现在我们再把它抛N1次,通过统计正面朝下的次数来计算p取各个值得概率分布,称为后验分布。” 无耻的人类啊,脸着地,咱就说脸着地,说什么正面朝下。。。真是的。
我的儿子——beta分布
就这样,我又被抛了N1次,一共x1次脸朝地。这时候, 贝叶斯又说: “大家看,这次实验的结果呢,正面朝下的次数是x1次。按照先前介绍的,有如下下几个假设
$$
X \sim B(N_1, p)\
p \sim Uniform(0, 1) \
$$
假设$p=\lambda$ ,那么又x1次正面朝下的概率为:
$$
P(X = x_1 | p = \lambda) = C_{N_1}^{x_1} \lambda ^{x_1}(1-\lambda)^{N_1 - x_1}
$$
按照我以前提出来的贝叶斯公式,有:
$$
P(p = \lambda | X = x_1) = \frac {P(X=x_1|p=\lambda) \cdot P(p=\lambda)} {\int_0^1P(X=x_1| p=\gamma)\cdot P(p=\gamma)d\gamma}
$$
$$
P(p=\lambda|X=x_1) = \frac{C_{N_1}^{x_1} \lambda ^{x_1}(1-\lambda)^{N_1 - x_1} \cdot 1}{\int_0^1 C_{N_1}^{x_1} \gamma ^{x_1}(1-\gamma)^{N_1 - x_1} \cdot 1 d\gamma} \
= \frac{ \lambda ^{x_1}(1-\lambda)^{N_1 - x_1} }{\int_0^1\gamma ^{x_1}(1-\gamma)^{N_1 - x_1} d\gamma} \
= \frac {\lambda ^{x_1}(1-\lambda)^{N_1 - x_1}} {B(x_1 + 1, N_1 - x_1 + 1)} \
其中, B(m, n) = \int_0^1t^{m-1}(1-t)^{n-1}dt , 称为Beta函数
$$
最后的公式表达的是在已知N1次抛硬币实验中,正面朝下次数为x1次的条件下, 硬币每一次正面朝下服从的概率分布。那么把这个分布称为Beta分布, 它有两个参数一个m, 表示事件发生的次数;一个是n,表示事件不发生的次数。在这里,Beta函数的作用是使得Beta分布的这个表达式在[0,1]的积分值最终为1,也就是归一化的作用(normalization)。以后,大家在计算类似概率的时候,就可以直接按照这个概率公式计算, 不用再抛硬币了。”
$$
随机变量服从Beta分布,记为 p \sim Beta(m, n) , 则 \
P(p= \lambda) = \frac {\lambda^{m-1}(1 - \lambda)^{n - 1}}{B(m,n )} , \
其中, B(m,n) = \int_0^1t^{m-1}(1-t)^{n-1}dt
$$
敢情这贝叶斯还挺好人, 以后我终于可以不用被抛来抛去的了。
二项分布的关系
均匀分布也是一个Beta分布
当Beta分布的两个参数都是1的时候, 其概率密度函数为:
$$
p(X = x) = 1, x \in [0,1]
$$
就是一个[0,1]区间的均匀分布。
共轭分布(Conjugate distribution)
在贝叶斯理论中,如果先验分布于后验分布具有相同的函数形式,或者说同属于一个分布族(仅分布的参数不一致)。而先验分布称为似然函数$P(X=x_1|p=\lambda)$ 的共轭先验分布。在上面的抛硬币的例子中,Beta分布族就是一个共轭分布族(conjugate distributions), 分布族中任意一个固定参数的具体分布都是 二项分布的一个共轭先验分布, 具体的如下:
$$
假设硬币正面朝下的概率p\sim Beta(m,n) , 在N次抛硬币实验中有 \
P(p=\lambda|X = x) = \frac {P(X=x|p=\lambda)\cdot P(p=\lambda)}{\int_0^1P(X=x|p=\gamma)\cdot P(p=\gamma)d\gamma} \
= \frac {C_N^x\lambda^x(1-\lambda)^{N-x} \cdot \frac {\lambda^{(m-1)} \cdot (1-\lambda)^{n-1}}{B(m,n)}}{\int_0^1C_N^x\gamma^x(1-\gamma)^{N-x} \cdot \frac {\gamma^{(m-1)} \cdot (1-\gamma)^{n-1}}{B(m,n)}d\gamma} \
= \frac {\lambda^{(x+m-1)}(1-\lambda)^{N-x+n-1}} {B(x+m, N-x+n)} \sim Beta(x+m, N-x+n)
$$