2018-01-23
ML
假设 $\theta $ 表示 parameter, $X$ 表示 data:
$$ X={(X_1, X_2, ..., X_N)^T}_{N\times p}=\begin{pmatrix} x_{11} & x_{12} & ... & x_{1p} \\ x_{21} & x_{22} & ... & x_{2p} \\ \vdots & & & \\ x_{N1} & x_{N2} & ... & x_{Np} \end{pmatrix}_{N\times p} $$假设 $X$ 服从概率模型 $X\sim p(x| \theta ) $ .
频率派的角度发展出来的是统计机器学习,本质是一个优化问题,一般的步骤是:
贝叶斯派认为 $\theta$ 也是 $r.v$,且 $\theta\sim p(\theta )$(后验)
通过贝叶斯公式可知:
$$p(\theta | X) = \frac{p(X|\theta )\cdot p(\theta )}{p(X)}\propto p(X|\theta )\cdot p(\theta )$$其中:$p(\theta | X)$ 是 posterior, $p(X|\theta )$ 是 likehood, $p(\theta )$ 是 prior, $p(X)$ 相当于 $\int _\theta p(X|\theta )p(\theta)\, d\theta$
常用的方法是 MAP (最大后验概率估计) :
$$\theta_{MAP} = arg\,\underset{\theta}{max}\,p(\theta|X) = arg\,\underset{\theta}{max}\,p(X|\theta)\cdot p(\theta)$$严格来讲,MAP 还不算真正的贝叶斯估计,真正的贝叶斯估计需要“实打实”地求先验概率,即:
$$p(\theta | X) = \frac{p(X|\theta )\cdot p(\theta )}{\int _\theta p(X|\theta )p(\theta)\, d\theta} $$