Duxy's

a digged hole

隐马尔可夫模型

以前一直觉得马尔可夫模型好像挺麻烦,认真研究后发现,其思想也算是非常的简单,在此记录一下。

机器学习中常用概率分布模型

高斯分布(Gaussian Distribution)

高斯分布又称正态分布(Normal Distribution),是最为常见的分布模型。在变元较多的情况下,通常情况下都是服从高斯分布的。在一些没有特别特征的概率分析中,使用高斯分布没有人会说有问题。

高斯分布的公式为:\( f(x) = \frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(x-\mu)^2}{2\delta^2}) \)。其中有两个分布参数\(\mu\)(均值)与\(\delta^2\)(方差),决定了高斯分布的形状。

高斯分布为钟形,中间高,两边低。当\(\delta^2\)增大时,钟的高度降低。\(\mu\)决定了钟的中心位置。

伯努力分布(Bernoulli Distribution)

伯努力分布比较简单,就是两个互斥事件(一个标记为0,一个标记为1)的分布,一个事件的发生机率为\(p\)的话,另一个的发生机率就为(1-p)。通常情况下定义:
\[
P(x=1) = p\\
P(x=0) = 1-p\\
P(x) = p^x(1-p)^{1-x}\\
E(x) = P(x=1) = p
\]

二项分布(Binomial distribution)

二项分布是从伯努力分布推出来的,伯努力进行一次的取值,二项分布是重复n次的伯努力分布。以抛硬币为例,扔一次的概率分布即为伯努力,扔n次的即为二项分布。所以其概率密度函数为:
\[
P(K=k) = \binom{n}{k}p^k(1-p)^{n-k}
\]
上式就是中学常见的二项式系数。

多项分布(Multinomial Distribution)

多项分布是二项分布的一个扩展,也可以说二项分布是多项分布的特殊情况。上述取值只有0,1两种,而多项分布可以有k种互斥事件:(1,2,...k),如扔骰子的k为6。
多项分布是问:每次试验,执行事件的概率分别为\( p_1, p_2, ..., p_k (\sum_{i=1}^k{p_i} = 1) \),重复执行n次试验,事件执行次数分别为\( x_1, x_2, ..., x_k (\sum_{i=1}^k{x_i} = n) \)的可能性。
其概率密度函数为:
\[
P(x_1, x_2, ..., x_k; n, p_1, p_2, ..., p_k) = \frac{x_1!...x_k!}{n!}p_1^{x_1}...p_k^{x_k}
\]
多项分布也是常见概率模型。

Gamma函数

将阶乘在实数集上进行扩展,就得到了Gamma函数。
\[\Gamma(x) = \int_0^{\infty}t^{x-1}e^{-t}dt\]
通过分部积分的方法,可以推导出这个函数有如下的递归性质
\[\Gamma(x+1) = x \Gamma(x)\]
于是很容易证明,\(\Gamma(x)\) 函数可以当成是阶乘在实数集上的延拓,具有如下性质
\[\Gamma(n) = (n-1)!\]
这里为什么用的是\((n-1)!\)而不是\(n!\)?据说,是为了使Beta分布的形式更漂亮。
具体还有一些推导和扩展应用,我看的是我爱自然语言处理的blog,讲得非常好。

Beta分布

Beta分布有一个比较经典的故事,看了就大概懂了。

有一天你被魔鬼撒旦抓走了,撒旦说:”你们人类很聪明,而我是很仁慈的,和你玩一个游戏,赢了就可以走,否则把灵魂出卖给我。游戏的规则很简单,我有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对。“ 你应该怎么猜呢?
从数学的角度抽象一下,上面这个游戏其实是在说随机变量\(X_1,X_2,\cdots,X_n {\stackrel{\mathrm{iid}}{\sim}} Uniform(0,1)\),把这\(n\) 个随机变量排序后得到顺序统计量 \(X_{(1)},X_{(2)},\cdots, X_{(n)}\), 然后问 \(X_{(k)}\) 的分布是什么。
Beta分布其实挺好算的,用到了一个\(\Delta x\),假定\(X_(k)\)落到了\((x - \Delta x)\)中,取\(\Delta x\)的极限,就可以得到结果了。
\[f(x) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}\]
同样,在我爱自然语言处理的blog中,也有大量的扩展介绍。

Dirichlet分布

Beta分布的问题是,第k大的数是什么。如果同时问:第\(k_1, k_2, ..., k_l\)大的数是什么,就从Beta分布转到了Dirichlet分布了。

贝叶斯统计

在统计门派中,有着频率学派(frequentist)贝叶斯学派(bayesian)之分,其最主要的区别在于:频率学派认为未知量是确定的,而贝叶斯学派认为未知量是随机值。