type
Post
status
Published
date
Dec 19, 2025
slug
RL_003
summary
新策略 相对于旧策略 的性能提升量,等于"用新策略去采样,然后用旧策略的优势函数去评估"所得到的期望累计折扣优势。 这意味着我们估计新策略性能,只需用旧策略的优势函数,就能评价新策略。 策略改进不需要直接知道新策略有多好,只需要知道旧策略认为哪些动作更好,然后让新策略更常选这些动作。
tags
强化学习
category
学习分享
icon
password
假定有两个策略,我们要计算这两个策略的目标函数性能差异,即。 根据性能差异引理:
  • 旧策略  的优势函数。 (论文中一般记作,此处为了和动作随机变量区分,记作)
已知:
根据前文贝尔曼方程的推导可知
两个值函数的差
 
可以看到是一个递归式,对上式展开
同理
带回上式
 
由于马尔可夫性,有
所以
带回上式
两边同时对求期望,假定初始状态服从分布
这一项就是策略梯度算法中的,含义是:基于policy 从输出分布出发,到达状态概率期望的折扣累加。
代回上式:
注意是未normlize的概率分布,有些教材会将其normalize化
其中:
从而得到normalize 后的性能差异引理
还有些教材将策略梯度引理写成trahectory形式
新策略 相对于旧策略 的性能提升量,等于"用新策略去采样,然后用旧策略的优势函数去评估"所得到的期望累计折扣优势。 这意味着我们估计新策略性能,只需用旧策略的优势函数,就能评价新策略。 策略改进不需要直接知道新策略有多好,只需要知道旧策略认为哪些动作更好,然后让新策略更常选这些动作。
 
 
RL学习小结 (002): 策略梯度理论RL学习小结 (004): Actor-Critic Method
Loading...