type
status
date
slug
summary
tags
category
icon
password
假定有两个策略,我们要计算这两个策略的目标函数性能差异,即。 根据性能差异引理:
  • 旧策略  的优势函数。 (论文中一般记作,此处为了和动作随机变量区分,记作)
已知:
根据前文贝尔曼方程的推导可知
两个值函数的差
 
可以看到是一个递归式,对上式展开
同理
带回上式
 
由于马尔可夫性,有
所以
带回上式
两边同时对求期望,假定初始状态服从分布
新策略 相对于旧策略 的性能提升量,等于"用新策略去采样,然后用旧策略的优势函数去评估"所得到的期望累计折扣优势。 这意味着我们估计新策略性能,只需用旧策略的优势函数,就能评价新策略。 策略改进不需要直接知道新策略有多好,只需要知道旧策略认为哪些动作更好,然后让新策略更常选这些动作。
 
 
RL学习小结 (002): 策略梯度理论Feeling after reading The Little Prince 
Loading...