当前位置: 首页 > news >正文

嘉兴 做网站 推广/市场营销方案范文5篇

嘉兴 做网站 推广,市场营销方案范文5篇,开发公司已经卖出生地,专业做网站的公司哪家好目录 定理1 MC control 收敛定理 定理2 SARSA 算法收敛定理 定理3 Q-learning 收敛理论 问题1: 新策略是随机的还是确定的?我们可以使用新策略计算得到的Q值去产生新的轨迹吗? 问题2:SARSA与Q-learning的区别? 问题3: on policy与off p…

目录

 定理1 MC control 收敛定理

定理2  SARSA 算法收敛定理

定理3 Q-learning 收敛理论

问题1: 新策略是随机的还是确定的?我们可以使用新策略计算得到的Q值去产生新的轨迹吗?

问题2:SARSA与Q-learning的区别?

问题3: on policy与off policy的区别?

 问题4:Both SARSA and Q-learning may update their policy after every step,正确还是错误?

问题5 : 策略控制MC算法的理解

 问题6: Maximization Bias Proof / Q值的最大化偏差估计

问题7:为什么Double Q-Learning能对状态-动作值产生无偏估计?

问题8:Q-Learning与Double Q-Learning的区别?


 定理1 MC control 收敛定理

 当MC control 满足GLIE条件的时候,就保证了该算法的收敛性。

定理2  SARSA 算法收敛定理

定理3 Q-learning 收敛理论

 

问题1: 新策略是随机的还是确定的?我们可以使用新策略计算得到的Q值去产生新的轨迹吗?

答:确定的,不可以。

问题2:SARSA与Q-learning的区别?

答:选择动作的更新策略不同,如下图所示:

 从下面这道例题可以清楚的区别:

 运用SARSA算法,得出的结果为2.5

 运用Q-learning算法,得出的结果为5,为什么SARSA算法和Q-learning算法的结果有差?因为SARSA算法在状态7选择的动作是某轨迹中的真实动作,但是Q-learning算法选择的却是状态7所有轨迹中的Q值最大的动作。

问题3: on policy与off policy的区别?

答:易知,on policy learning,即同策学习、在线学习,off policy learning,即异策学习、离线学习。同策学习与异策学习的定义如下:

on policy在学习的过程中以及探索的过程中使用的都是同一个策略,即学习从该策略中获得的经验来评估该策略,例如SARSA算法,运用同一个策略去获取At,At+1,而off policy学习使用从不同策略中收集的经验来评估策略,在学习的过程中使用的是贪婪算法,但是在探索的过程中使用的是更激进的算法,例如通过选取下一个状态的Q值的最大值来确定行为。

 问题4:Both SARSA and Q-learning may update their policy after every step,正确还是错误?

答:正确。因为这两个算法都是TD算法。

问题5 : 策略控制MC算法的理解

 问题6: Maximization Bias Proof / Q值的最大化偏差估计

在有限样本中采用贪婪策略估计Q值会导致较大偏差,证明过程如红框中的内容所示:

为了解决这个问题,提出了Double Q-Learning

问题7:为什么Double Q-Learning能对状态-动作值产生无偏估计?

 Double Q-Learning的思想,亦或者什么是Double Q-Learning?

如上所述,Double Q-Learning将样本分为独立的对Q值无偏估计的两部分,Double Q-Learning Q值更新的时候不再选取下一状态Q值的最大值时的动作/行为,而是选择当前状态Q值的最大值时的动作/行为。

问题8:Q-Learning与Double Q-Learning的区别?

 Q-learning的伪代码为:

Q-Learning算法由于受到大规模的动作值过估计(overestimation)而出现不稳定和效果不佳等现象的存在,而导致overestimation的主要原因来自于最大化值函数(max)逼近,该过程目标是为了最大的累计期望奖励,而在这个过程中产生了正向偏差。而本文章作者巧妙的是使用了两个估计器(double estimator)去计算Q-learning的值函数,作者将这种方法定义了一个名字叫“Double Q-learning”(本质上一个off-policy算法),并对其收敛过程进行了证明(缺点:当然double Q-learning算法有时会低估动作值,但不会像Q学习那样遭受过高估计)。

论文地址: https://papers.nips.cc/paper/3964-double-q-learning.pdf

 


参考资料

https://blog.csdn.net/gsww404/article/details/103413124

斯坦福cs234课件:http://web.stanford.edu/class/cs234/index.html 

http://www.jmfq.cn/news/4826827.html

相关文章:

  • 上海做外贸网站建设/上海百度公司地址
  • 写个网页多少钱/黑帽seo技术论坛
  • 做律师网站公司/微信营销案例
  • 汽车网站名称/百度企业网盘
  • 建设部门户网站/理发美发培训学校
  • 办一家建筑公司流程/seo chinaz
  • 网站上怎么做弹幕效果/软文案例
  • 网站域名续费多少钱/东莞网站推广运营公司
  • 专业网站制作公司排行/做一个网站要多少钱
  • 长沙网站托管哪家好/广州竞价托管代运营
  • 大连哪家网站技术开发公司好/厦门人才网官网登录
  • 东莞建网站平台/最新实时新闻
  • 网站建设的技术方案/软文案例大全300字
  • wordpress万网安装/网站优化排名怎么做
  • js网站下拉置顶代码/百度网盘网页版登录首页
  • 专业排名优化网站/海阳seo排名
  • 优秀网站建设出售/网上推广赚钱方法
  • 网上商城怎么开发/霸榜seo
  • 开发网站怎样注册公司/seo网站推广的主要目的是什么
  • 杭州网站建设页面/网络营销技巧和营销方法
  • 建设网站后如何做后台/广东清远今天疫情实时动态防控
  • 本地企业网站建设服务/百度学术论文官网入口
  • 服装生产厂商网站建设方案/推广学院seo教程
  • 怎么在网站视频做字幕/班级优化大师怎么用
  • 苏州企业网站制作服务/网站收录申请
  • 网站域名注册信息查询/网络营销和网络推广
  • 一个人做网站现实吗/免费推广产品的平台
  • 网站如何被搜索引擎收录/广州的百度推广公司
  • 阿里巴巴网站做销售方案/郑州seo优化哪家好
  • 想做个网站 怎么做/新手学百度竞价要多久