Duxy's

a digged hole

贝叶斯统计

在统计门派中,有着频率学派(frequentist)贝叶斯学派(bayesian)之分,其最主要的区别在于:频率学派认为未知量是确定的,而贝叶斯学派认为未知量是随机值。

机器学习的基础算法几乎都是建立在频率学派的认知上的,因为\(P(y|x;\theta)\)中,\(\theta\)是未知、待学习的。但我们都认为,它是可以学习出唯一解的,所以在写的时候,都使用分号分隔随机变量与\(\theta\)。而贝叶斯统计中认为,\(\theta\)是满足某个分布的随机变量,因而可以使用分布对其进行研究,这里,显然,\(\theta\)应该使用逗号分隔。

贝叶斯统计中常常提到先验概率后验概率,其实是对贝叶斯公式正正反反的应用。简单来说,假设出现的随机事件为x,出现的随机事件为y,那么,通常情况下,我们会检验:\(P(y|x)\),这表示,如果我们做了x,那么发生y的概率是多少。由于Bayes定理的提出,我们可以算出,若y事情已经发生了,那么x事情也发生的概率是多少?这使用Bayes公式可以进行简单计算:

\[
P(y|x) = \frac{P(x|y)P(y)}{P(x)}
\]

从对上述两类问题的描述可以清楚的看到,一类问题是先因后果,另一个是先果后因,自然的就被称作先验概率和后验概率了。

在机器学习中,使用贝叶斯统计对数据进行分析,也是使用上述经典公式。我们计算\(P(\theta)\)与\(S = \{x^{(i)},y^{(i)}\}\)的概率关系\(P(\theta|S)\),利用Bayes公式,可得出计算法则。假定\(\theta ~ \mu(\delta,\tau^2I)\),那么\(\tau\)越接近0,曲线越平滑,因而通常情况下,贝叶斯统计比最大似然估计更容易避免过拟合。

\(\theta\)的计算由下式得出:
\[
\mathop{min}\limits_{\theta}\sum_{i}{||y^{(i)}-\theta^Tx^{(i)}||^2+\lambda||\theta||^2}
\]

但是由于该式子计算太过复杂,通常情况下,我们使用一个近似公式实现,称作\(\theta\)的最大后验估计:
\[
\theta_{MAP} = \mathop{arg max}_{\theta}\prod_{i=1}^{m}{p(y^{(i)}|x^{(i)},\theta)p(\theta)}
\]
该式除了最后的\(P(\theta)\)外,与最大似然估计一样:
\[
\theta_{ML} = \mathop{arg max}_{\theta}\prod_{i=1}^{m}{p(y^{(i)}|x^{(i)},\theta)}
\]
有了上述式子,我们应该如何对y作预测呢?对于新到的样本,使用参数\(\theta\)的后验分布,计算标签集y的后验分布\(p(y|x,S)\),再求出给定x下y的期望,就得出结果了。