微网站怎么做的好名字吗/网络营销策略都有哪些
- MLE (Maximum Likelihood Estimation 最大似然估计) 频率学派
- MAP (Maximum A Posteriori 最大厚颜估计) 贝叶斯学派
各派观点:
- 频率学派认为世界确定,有一个本体其真值是不变的,我们的目标是要找到该真值或真值所在的范围
- 贝叶斯学派认为世界是不确定的,人们对世界有一个预判,通过观测数据对预判做调整,我们的目标是要找到最优的描述这个世界的概率分布
对事物建模时用θ\thetaθ表示模型的参数,解决问题的本质即是求解该值
- MLE
假设数据 x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn是独立同分布的一组抽样,那么MLE对θ\thetaθ 的估计方法可以如下推导:
θ^MLE\hat{\theta}_{MLE}θ^MLE
=arg max P(X,θ)P(X, \theta)P(X,θ)
=arg max P(x1,θ)P(x2,θ)...P(xn,θ)P(x_1, \theta)P(x_2, \theta)...P(x_n, \theta)P(x1,θ)P(x2,θ)...P(xn,θ)
=arg max ∑i=1nlogP(xi),θ\sum_{i=1}^{n}logP(x_i),\theta∑i=1nlogP(xi),θ
=arg min -∑i=1nlogP(xi),θ\sum_{i=1}^{n}logP(x_i),\theta∑i=1nlogP(xi),θ
最后一行即Negative Log Likelihood(NLL)
深度学习做分类任务时所用的 cross entropy loss 本质也是MLE
- MAP
假设数据 x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn是独立同分布的一组抽样,则MAP对θ\thetaθ 的估计方法可以如下推导:
θ^MAP\hat{\theta}_{MAP}θ^MAP
=arg max P(θ∣X)P(\theta|X)P(θ∣X)
=arg min -logP(θ∣X)log P(\theta|X)logP(θ∣X)
=arg min -logP(X∣θ)log P(X|\theta)logP(X∣θ)-logP(θ)log P(\theta)logP(θ)+logP(X)log P(X)logP(X)
=arg min -logP(X∣θ)log P(X|\theta)logP(X∣θ)-logP(θ)log P(\theta)logP(θ)
(不考虑最后一项因为其与θ\thetaθ无关)
-logP(X∣θ)log P(X|\theta)logP(X∣θ)即NLL,所以MLE 和 MAP优化的不同在于先验项-logP(θ)log P(\theta)logP(θ) 。假设先验是高斯分布即:
P(θ)P(\theta)P(θ) =constant ×e−θ22σ2\times e^{- \frac{\theta^2}{2\sigma^2}}×e−2σ2θ2
则-logP(θ)log P(\theta)logP(θ) =constant + eθ22σ2e^{\frac{\theta^2}{2\sigma^2}}e2σ2θ2
在MAP中使用高斯分布的先验等价于在MLE中采用L2正则
ref:https://zhuanlan.zhihu.com/p/32480810