Policy Gradient Method
Value Function Approach
如 Q-learning 这些是值函数方法
有几个弊端:
- 值函数方法找出的策略是确定性策略, 而最优策略可能是概率策略
- 不收敛, 即任意小的值函数变化也会引起策略变化
注意上面说 Q-Learning 的动作价值函数一定收敛, 即
对于两个动作
记
那么
但是
这样的振荡对于任意的
这就会导致
PG
相比于 DQN 的使用 NN 拟合动作价值函数
NN 的边权即为策略的参数, 输入状态, 输出选择各个动作的概率
令
那么
其中
用这个去更新
Policy Gradient Theorem
第一种是取所有收益的平均值:
其中
表示已知使用策略
因为当策略与初始状态固定,
同时
所以
由此可以写出
可以看出这个值函数其实代表的是 Advantage 函数, 表示策略相对于期望值的优势程度
我们称这个写法为 average-reward formulation
第二种是从某个开始状态开始:
那么有
这个值函数代表的是 Value-Action 函数, 与 MDP 定义中的
我们称这个写法为 start-state formulation
对于任意 MDP, 以及上面两种
的任意一种表达, 有
只给出 average-reward 的计算, start-state 同理
直接计算
两边用
而由于
所以
这个定理的重要性在于, 对平稳分布的变化
这样我们就可以通过采样有限轮, 按照
之后
(unbiased estimate, 指采样得到的期望等于被估计量的真实值)
无偏是随机的梯度上升需要保证的条件
同时, 上面的结论
这样结论仍然成立, 因为
Policy Gradient with Approximation
我们需要估计
对于
对于第二种
那么
现在用 NN 来近似
令
一般地参数的更新量为最小化均方差求梯度
因为
那么收敛到局部最优后有
即
注意我们只要求梯度的期望为
实际上, 根据
这样的好处是降低梯度方差, 后面会提到
我们写出:
定 理 如果
满足 , 并且满足策略的参数化条件
那么
合并
由
条件
同时我们可以写出满足
这里把
它会使得
这样看,
所以, 即使我们根据
事实上, 我们在
所以我们不妨令
这样还有好处: 引入
Convergence of Policy Iteration with Function Approximation
下面不加证明给出, 迭代更新策略可以收敛
定 理 给出
是策略与价值函数的两个可微分近似器, 满足 和下面式子
令
为更新步长序列, 满足
那么给定初始
, 每一步的策略 对应于参数 , 以及更新规则:
那么
REINFORCE Algorithm
PG 的一个应用
策略
状态与行动轨迹记为
符合
记期望的返回值为:
这个期望值就是收益平均值
我们希望让
采用梯度上升的方式更新这个
类似于
我们对上面的式子乘上
那么有梯度:
如果当前为时刻
(这里用 Policy Gradient 里的第二种
那么
进而把
用
所以
所以用
由于
同时, 如果上面的式子
仍然成立, 因为
根据上面的式子
这个
用
根据上面我们说的, 使用
Actor-Critic
PG 的另一个应用
Temporal Difference
这个临时误差定义为
其实就是
用 REINFORCE 改进
用 REINFORCE 改一下
REINFORCE 中使用 Monte-Carlo 方法采样出一个
现在我们用另一个 NN 来估计
假设
那么 Actor 就是
根据贝尔曼最优方程, 最优的
就是说
所以我们希望最小化一个方差函数
求梯度得到
那么每一步:
注意 REINFORCE 中的梯度
而 Actor-Critic 是每一步就更新一下参数
参考: