type
status
date
slug
summary
tags
category
icon
password
假定有两个策略,我们要计算这两个策略的目标函数性能差异,即。
根据性能差异引理:
- 是旧策略 的优势函数。 (论文中一般记作,此处为了和动作随机变量区分,记作)
已知:
根据前文贝尔曼方程的推导可知
两个值函数的差
可以看到是一个递归式,对上式展开
同理
带回上式
由于马尔可夫性,有
所以
带回上式
两边同时对求期望,假定初始状态服从分布
新策略 相对于旧策略 的性能提升量,等于"用新策略去采样,然后用旧策略的优势函数去评估"所得到的期望累计折扣优势。
这意味着我们估计新策略性能,只需用旧策略的优势函数,就能评价新策略。
策略改进不需要直接知道新策略有多好,只需要知道旧策略认为哪些动作更好,然后让新策略更常选这些动作。
- 作者:莫叶何竹🍀
- 链接:http://www.myhz0606.com/article/RL_003
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
