频率派与贝叶斯派

2018-01-23 ML

假设

假设 $\theta $ 表示 parameter, $X$ 表示 data:

$$ X={(X_1, X_2, ..., X_N)^T}_{N\times p}=\begin{pmatrix} x_{11} & x_{12} & ... & x_{1p} \\ x_{21} & x_{22} & ... & x_{2p} \\ \vdots & & & \\ x_{N1} & x_{N2} & ... & x_{Np} \end{pmatrix}_{N\times p} $$

假设 $X$ 服从概率模型 $X\sim p(x| \theta ) $ .

频率派

频率派认为这 $\theta$ 是未知常量,而 $X$ 是 $r.v$ (随机变量)。

频率派关心的是数据,需要把未知的 $\theta$ 估计出来。

MLE

常用的方法是 MLE (最大似然估计) :

$$\theta_{MLE} = arg\,\underset{\theta}{max}\,\boldsymbol{L}(\theta) = arg\,\underset{\theta}{max}\,log\,p(X|\theta)$$

引申

频率派的角度发展出来的是统计机器学习,本质是一个优化问题,一般的步骤是:

  1. 设计模型,可以是概率模型、判别模块等;
  2. 针对模型设计 loss function;
  3. 使用优化算法对 loss function 求解,如梯度下降、牛顿法等;

贝叶斯派

贝叶斯派认为 $\theta$ 也是 $r.v$,且 $\theta\sim p(\theta )$(后验)

通过贝叶斯公式可知:

$$p(\theta | X) = \frac{p(X|\theta )\cdot p(\theta )}{p(X)}\propto p(X|\theta )\cdot p(\theta )$$

其中:$p(\theta | X)$ 是 posterior, $p(X|\theta )$ 是 likehood, $p(\theta )$ 是 prior, $p(X)$ 相当于 $\int _\theta p(X|\theta )p(\theta)\, d\theta$

MAP

常用的方法是 MAP (最大后验概率估计) :

$$\theta_{MAP} = arg\,\underset{\theta}{max}\,p(\theta|X) = arg\,\underset{\theta}{max}\,p(X|\theta)\cdot p(\theta)$$

贝叶斯估计

严格来讲,MAP 还不算真正的贝叶斯估计,真正的贝叶斯估计需要“实打实”地求先验概率,即:

$$p(\theta | X) = \frac{p(X|\theta )\cdot p(\theta )}{\int _\theta p(X|\theta )p(\theta)\, d\theta} $$

贝叶斯预测

引入贝叶斯预测,可将得到的后验概率测试新样本的概率:

假设有待预测的样本 $\tilde{x}$,根据边缘似然,那么该样本出现的概率为:

$$p(\tilde{x}|X)=\int _\theta p(\tilde{x},\theta|X)p(\theta)\, d\theta=\int _\theta p(\tilde{x}|\theta)p(\theta|X)\, d\theta$$

引申

贝叶斯派引申出来的就是概率图模型,在贝叶斯角度来看本质就是一个求积分的问题,解析解求不出来可以用数值解,用蒙特卡罗的方法来求,比如常用的 MCMC 采样方法。