RL学习小结 (001): 基本概念、贝尔曼方程学习分享本文系统介绍了强化学习的核心概念,包括状态、动作、策略、奖励和回报等基本术语;随后展示了如何使用马尔可夫决策过程(MDP)对强化学习问题进行数学建模;最后推导了状态值函数和动作值函数的贝尔曼方程。2025-8-31 强化学习
RL学习小结 (003): 性能差异引理(The Difference in Policy Performance)学习分享新策略 相对于旧策略 的性能提升量,等于"用新策略去采样,然后用旧策略的优势函数去评估"所得到的期望累计折扣优势。 这意味着我们估计新策略性能,只需用旧策略的优势函数,就能评价新策略。 策略改进不需要直接知道新策略有多好,只需要知道旧策略认为哪些动作更好,然后让新策略更常选这些动作。2025-12-19 强化学习