RL学习小结 (001): 基本概念、贝尔曼方程
RL学习小结 (002): 策略梯度理论

Lazy loaded imageRL学习小结 (003): 性能差异引理(The Difference in Policy Performance)

新策略 相对于旧策略 的性能提升量,等于"用新策略去采样,然后用旧策略的优势函数去评估"所得到的期望累计折扣优势。 这意味着我们估计新策略性能,只需用旧策略的优势函数,就能评价新策略。 策略改进不需要直接知道新策略有多好,只需要知道旧策略认为哪些动作更好,然后让新策略更常选这些动作。
RL学习小结 (003): 性能差异引理(The Difference in Policy Performance)