毕设DW做网站的过程/看广告收益的正规平台
文章目录
- 时序差分价值迭代 TD(nstep)TD(n_{step})TD(nstep)
- 同策时序差分
- 策略评估
- SARSA / SARSA(n)
- 异策时序差分
- 重要性采样
- Q学习(Q-Learning)
- 双重Q学习(Double Q-Learning)
- 资格迹算法 TD(λ)TD(\lambda)TD(λ)
时序差分价值迭代 TD(nstep)TD(n_{step})TD(nstep)
不需要环境模型,所以只有价值迭代;
采用了动态规划中“自益”的思想,所以不需要回合结束,所以可以用于连续型任务。
同策时序差分
- 更新目标
单步:
Ut:t+1(q)=Rt+γ⋅q(St+1,At+1)U_{t:t+1}^{(q)}=R_{t} + \gamma·q(S_{t+1}, A_{t+1}) Ut:t+1(q)=Rt+γ⋅q(St+1,At+1)
多步:
Ut:t+n(q)=Rt+Rt+1+Rt+2+⋅⋅⋅+γn⋅q(St+n,At+n)U_{t:t+n}^{(q)}=R_{t} + R_{t+1} + R_{t+2} + ··· +\gamma^n·q(S_{t+n}, A_{t+n}) Ut:t+n(q)=Rt+Rt+1+Rt+2+⋅⋅⋅+γn⋅q(St+n,At+n) - 备份图
策略评估
- 状态价值
- 动作价值
SARSA / SARSA(n)
(St,At,Rt,St+1,At+1)(S_{t}, A_{t}, R_{t}, S_{t+1}, A_{t+1})(St,At,Rt,St+1,At+1)
- 单步SARSA U=Ut:t+1(q)U=U_{t:t+1}^{(q)}U=Ut:t+1(q)
- 多步SARSA U=Ut:t+n(q)U=U_{t:t+n}^{(q)}U=Ut:t+n(q)
异策时序差分
重要性采样
原始策略π\piπ,行动策略bbb 的轨迹概率:
两者比值(仅和策略有关):
Q学习(Q-Learning)
属于异策?
存在最大化偏差,没有柔性
双重Q学习(Double Q-Learning)
独立的两个动作价值函数q(0)q^{(0)}q(0)和q(1)q^{(1)}q(1),消除最大化偏差
资格迹算法 TD(λ)TD(\lambda)TD(λ)
时序差分目标Ut:t+iU_{t:t+i}Ut:t+i和λ\lambdaλ回报
资格迹函数e(s,a)e(s, a)e(s,a)
推导和理解