当前位置: 首页 > news >正文

建筑设计专业是干什么的/seo薪酬如何

建筑设计专业是干什么的,seo薪酬如何,wordpress自动图床,中级注册安全工程师统计学习方法——EM算法及其推广EM算法及其推广(一)EM算法引入EM算法EM算法的导出(可不看)在非监督学习中的应用EM算法的收敛性参考文献EM算法及其推广(一) EM算法(期望极大算法)是…

统计学习方法——EM算法及其推广

  • EM算法及其推广(一)
    • EM算法引入
        • EM算法
        • EM算法的导出(可不看)
        • 在非监督学习中的应用
    • EM算法的收敛性
            • 参考文献

EM算法及其推广(一)

EM算法(期望极大算法)是一种迭代算法用于含有隐变量的概率模型参数的极大似然估计。主要包含两步:

  • E步:求期望
  • M步:求极大

EM算法引入

概率模型有时既含有观测变量,又含有隐变量(潜在变量)。

EM算法

  • 输入:观测变量数据YYY,隐变量数据ZZZ,联合分布P(Y,Z∣θ)P\left( {Y,Z\left| \theta \right.} \right)P(Y,Zθ),条件分布P(Z∣Y,θ)P\left( {Z\left| {Y,\theta } \right.} \right)P(ZY,θ)
  • 输出:模型参数θ\thetaθ
  • 流程:
    • 选择参数的初始化θ(0)\theta_{\left(0\right)}θ(0),开始迭代
    • E步:记θ(i)\theta_{\left(i\right)}θ(i)为第iii次迭代参数θ\thetaθ的估计值,在第i+1i+1i+1次迭代的E步,计算
      Q(θ,θ(i))=EZ[log⁡P(Y,Z∣θ)∣Y,θ(i)]=∑Zlog⁡P(Y,Z∣θ)P(Z∣Y,θ(i))Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right) = {E_Z}\left[ {\log P\left( {Y,Z\left| \theta \right.} \right)\left| {Y,{\theta ^{\left( i \right)}}} \right.} \right] = \sum\limits_Z {\log P\left( {Y,Z\left| \theta \right.} \right)P\left( {Z\left| {Y,{\theta ^{\left( i \right)}}} \right.} \right)}Q(θ,θ(i))=EZ[logP(Y,Zθ)Y,θ(i)]=ZlogP(Y,Zθ)P(ZY,θ(i))
      其中P(Z∣Y,θ(i))P\left( {Z\left| {Y,{\theta ^{\left( i \right)}}} \right.} \right)P(ZY,θ(i))是在给定观测数据YYY和当前的参数估计θ(i)\theta_{\left(i\right)}θ(i)下隐变量数据ZZZ的条件概率分布。
    • M步:求使Q(θ,θ(i))Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right)Q(θ,θ(i))最大化的θ\thetaθ,确定第i+1i+1i+1次迭代的参数的估计值θ(i+1)\theta_{\left(i+1\right)}θ(i+1)
      θ(i+1)=arg⁡max⁡θQ(θ,θ(i))\theta_{\left(i+1\right)}=\arg \mathop {\max }\limits_\theta Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right)θ(i+1)=argθmaxQ(θ,θ(i))
    • 重复上面两步直到收敛,一般是:
      ∥θ(i+1)−θ(i)∥&lt;ε1\left\| {{\theta ^{\left( {i + 1} \right)}} - {\theta ^{\left( i \right)}}} \right\| &lt; {\varepsilon _1}θ(i+1)θ(i)<ε1

      ∥Q(θ(i+1),θ(i))−Q(θ(i),θ(i))∥&lt;ε2\left\| {Q\left( {{\theta ^{\left( {i + 1} \right)}},{\theta ^{\left( i \right)}}} \right) - Q\left( {{\theta ^{\left( i \right)}},{\theta ^{\left( i \right)}}} \right)} \right\| &lt; {\varepsilon _2}Q(θ(i+1),θ(i))Q(θ(i),θ(i))<ε2

Q函数:
完全数据的对数似然函数log⁡P(Y,Z∣θ)\log P\left( {Y,Z\left| \theta \right.} \right)logP(Y,Zθ)关于在给定观测数据YYY和当前参数θ(i)\theta^{\left(i\right)}θ(i)下对未观测数据ZZZ的条件概率分布log⁡P(Z∣Y,θ(i))\log P\left( {Z\left| Y, \theta_{\left(i\right)} \right.} \right)logP(ZY,θ(i))的期望称为Q函数,即:
Q(θ,θ(i))=EZ[log⁡P(Y,Z∣θ)∣Y,θ(i)]Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right) = {E_Z}\left[ {\log P\left( {Y,Z\left| \theta \right.} \right)\left| {Y,{\theta ^{\left( i \right)}}} \right.} \right]Q(θ,θ(i))=EZ[logP(Y,Zθ)Y,θ(i)]

EM算法的导出(可不看)

对于一个含有隐变量的概率模型,目标是极大化观测数据(不完全数据)YYY关于参数θ\thetaθ的对数似然函数,即
L(θ)=log⁡(Y∣θ)=log⁡∑ZP(Y,Z∣θ)=log⁡(∑ZP(Y∣Z,θ)P(Z∣θ))L\left( \theta \right) = \log \left( {Y\left| \theta \right.} \right) = \log \sum\limits_Z {P\left( {Y,Z\left| \theta \right.} \right)} = \log \left( {\sum\limits_Z {P\left( {Y\left| {Z,\theta } \right.} \right)P\left( {Z\left| \theta \right.} \right)} } \right)L(θ)=log(Yθ)=logZP(Y,Zθ)=log(ZP(YZ,θ)P(Zθ))
EM算法的通过迭代逐步近似极大化L(θ)L\left( \theta \right)L(θ),希望新的θ\thetaθ能使其增加,考虑相邻两次的差:
L(θ)−L(θ(i))=log⁡(∑ZP(Y∣Z,θ)P(Z∣θ))−log⁡P(Y∣θ(i))L\left( \theta \right) - L\left( {{\theta ^{\left( i \right)}}} \right) = \log \left( {\sum\limits_Z {P\left( {Y\left| {Z,\theta } \right.} \right)P\left( {Z\left| \theta \right.} \right)} } \right) - \log P\left( {Y\left| {{\theta ^{\left( i \right)}}} \right.} \right)L(θ)L(θ(i))=log(ZP(YZ,θ)P(Zθ))logP(Yθ(i))
利用Jensen不等式得到下界:
L(θ)−L(θ(i))=log⁡(∑ZP(Y∣Z,θ(i))P(Y∣Z,θ)P(Z∣θ)P(Y∣Z,θ(i)))−log⁡P(Y∣θ(i))&ThickSpace;&ThickSpace;≥∑ZP(Y∣Z,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)P(Y∣Z,θ(i))−log⁡P(Y∣θ(i))&ThickSpace;&ThickSpace;=∑ZP(Y∣Z,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)P(Y∣Z,θ(i))P(Y∣θ(i))\begin{array}{l} L\left( \theta \right) - L\left( {{\theta ^{\left( i \right)}}} \right) = \log \left( {\sum\limits_Z {P\left( {Y\left| {Z,{\theta ^{\left( i \right)}}} \right.} \right)\frac{{P\left( {Y\left| {Z,\theta } \right.} \right)P\left( {Z\left| \theta \right.} \right)}}{{P\left( {Y\left| {Z,{\theta ^{\left( i \right)}}} \right.} \right)}}} } \right) - \log P\left( {Y\left| {{\theta ^{\left( i \right)}}} \right.} \right)\\ \quad \quad \quad \quad \quad \;\; \ge \sum\limits_Z {P\left( {Y\left| {Z,{\theta ^{\left( i \right)}}} \right.} \right)\log \frac{{P\left( {Y\left| {Z,\theta } \right.} \right)P\left( {Z\left| \theta \right.} \right)}}{{P\left( {Y\left| {Z,{\theta ^{\left( i \right)}}} \right.} \right)}}} - \log P\left( {Y\left| {{\theta ^{\left( i \right)}}} \right.} \right)\\ \quad \quad \quad \quad \quad \;\; = \sum\limits_Z {P\left( {Y\left| {Z,{\theta ^{\left( i \right)}}} \right.} \right)\log \frac{{P\left( {Y\left| {Z,\theta } \right.} \right)P\left( {Z\left| \theta \right.} \right)}}{{P\left( {Y\left| {Z,{\theta ^{\left( i \right)}}} \right.} \right)P\left( {Y\left| {{\theta ^{\left( i \right)}}} \right.} \right)}}} \end{array}L(θ)L(θ(i))=log(ZP(YZ,θ(i))P(YZ,θ(i))P(YZ,θ)P(Zθ))logP(Yθ(i))ZP(YZ,θ(i))logP(YZ,θ(i))P(YZ,θ)P(Zθ)logP(Yθ(i))=ZP(YZ,θ(i))logP(YZ,θ(i))P(Yθ(i))P(YZ,θ)P(Zθ)

B(θ,θ(i))=^L(θ(i))+∑ZP(Y∣Z,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)P(Y∣Z,θ(i))P(Y∣θ(i))B\left( {\theta ,{\theta ^{\left( i \right)}}} \right)\hat = L\left( {{\theta ^{\left( i \right)}}} \right) + \sum\limits_Z {P\left( {Y\left| {Z,{\theta ^{\left( i \right)}}} \right.} \right)\log \frac{{P\left( {Y\left| {Z,\theta } \right.} \right)P\left( {Z\left| \theta \right.} \right)}}{{P\left( {Y\left| {Z,{\theta ^{\left( i \right)}}} \right.} \right)P\left( {Y\left| {{\theta ^{\left( i \right)}}} \right.} \right)}}}B(θ,θ(i))=^L(θ(i))+ZP(YZ,θ(i))logP(YZ,θ(i))P(Yθ(i))P(YZ,θ)P(Zθ)
则其为L(θ)L\left( \theta \right)L(θ)的一个下界。为了增大L(θ)L\left( \theta \right)L(θ),所以要使B(θ,θ(i))B\left( {\theta ,{\theta ^{\left( i \right)}}} \right)B(θ,θ(i))达到极大值:
θ(i+1)=arg⁡max⁡θB(θ,θ(i)){\theta ^{\left( {i + 1} \right)}} = \arg \mathop {\max }\limits_\theta B\left( {\theta ,{\theta ^{\left( i \right)}}} \right)θ(i+1)=argθmaxB(θ,θ(i))

在非监督学习中的应用

对于非监督学习,我们可以认为XXX为观测数据,YYY为未观测数据,生成模型由联合概率分布P(X,Y)P\left( {X,Y} \right)P(X,Y)表示,可以认为非监督学习训练数据是联合概率分布产生的数据。

EM算法的收敛性

  • 定理1
    P(Y∣θ)P\left( {Y\left| \theta \right.} \right)P(Yθ)为观测数据的似然函数,θ(i),i=1,2,⋯{\theta ^{\left( i \right)}},i=1,2,\cdotsθ(i)i=1,2,为EM算法得到的参数估计序列,P(Y∣θ(i)),i=1,2,⋯P\left( {Y\left| {{\theta ^{\left( i \right)}}} \right.} \right),i = 1,2, \cdotsP(Yθ(i)),i=1,2,为对应的似然函数序列,则P(Y∣θ(i))P\left( {Y\left| {{\theta ^{\left( i \right)}}} \right.} \right)P(Yθ(i))是单调递增的,即
    P(Y∣θ(i+1))≥P(Y∣θ(i))P\left( {Y\left| {{\theta ^{\left( {i + 1} \right)}}} \right.} \right) \ge P\left( {Y\left| {{\theta ^{\left( i \right)}}} \right.} \right)P(Yθ(i+1))P(Yθ(i))
  • 定理2
    L(θ)=log⁡P(Y∣θ)L\left( \theta \right) = \log P\left( {Y\left| \theta \right.} \right)L(θ)=logP(Yθ)为观测数据的对数似然函数,θ(i),i=1,2,⋯{{\theta ^{\left( i \right)}}},i=1,2,\cdotsθ(i)i=1,2,为EM算法得到的参数估计序列,L(θ(i)),i=1,2,⋯L\left({{\theta ^{\left( i \right)}}}\right),i=1,2,\cdotsL(θ(i))i=1,2,为对应的对数似然函数序列。
    • 如果P(Y∣θ)P\left( {Y\left| \theta \right.}\right)P(Yθ)有上界,则L(θ(i))=log⁡P(Y∣θ(i))L\left({{\theta ^{\left( i \right)}}}\right)=\log P\left( {Y\left| \theta^{\left(i\right)} \right.}\right)L(θ(i))=logP(Yθ(i))收敛到某一个值L∗L^*L
    • 在函数Q(θ,θ′)Q\left( {\theta ,\theta &#x27;} \right)Q(θ,θ)L(θ)L\left( \theta \right)L(θ)满足一定条件下,由EM算法得到的参数估计序列θ(i)\theta^{\left(i\right)}θ(i)的收敛值θ∗\theta^*θL(θ)L\left(\theta\right)L(θ)的稳定点。
参考文献

《统计学习方法》

http://www.jmfq.cn/news/5056651.html

相关文章:

  • 做毕业证教育网站/百度深圳总部
  • 做网站的模版/怎么找推广渠道
  • 做网站每年交服务费/电子商务网站建设方案
  • 如何让网站快速被收录/怎么样拓展客户资源
  • 淮北网站建设制作/seo点击器
  • wordpress主题安装/百度上如何做优化网站
  • springboot社交网站开发/代运营公司可靠吗
  • 如何做免费电影网站/广告公司推广文案
  • 网站的开发环境是什么/seo点击排名工具有用吗
  • 空滤网站怎么做/抖音关键词排名优化
  • 福建微网站建设公司/bt兔子磁力天堂
  • 网站建设必须要服务器么/2022年seo还值得做吗
  • 宁波哪家公司做网站好/外贸怎么建立自己的网站
  • 大做网站/企业网站推广方案
  • 北海住房和城乡建设部网站/百度应用
  • 台州网站建设方案/金戈枸橼酸西地那非片
  • 网站开发网站制作报价单/怎么创建自己的网址
  • 找工程去哪个网站/系统优化大师免费版
  • 菏泽建设/云速seo百度点击
  • 网站开发工具的功能有哪些/品牌推广计划
  • 做网站需要vps吗/手机如何制作网页链接
  • 郑州建站优化/湖南专业的关键词优化
  • 网站建设基本要求/百度推广代运营公司
  • 做app的网站有哪些功能/seo薪资
  • 做游戏平面设计好的素材网站有哪些/b站推广平台
  • 前后端分离企业网站源码/搜狗指数
  • 昆明做网站哪家便宜/百度seo快速排名优化
  • 杭州企业营销网站建设公司/网络seo是什么工作
  • 学校网站建设的作用/百度公司的企业文化
  • 三明鑫龙建设工程网站/泰州seo外包公司