RL学习小结 (001): 基本概念、贝尔曼方程学习分享本文系统介绍了强化学习的核心概念,包括状态、动作、策略、奖励和回报等基本术语;随后展示了如何使用马尔可夫决策过程(MDP)对强化学习问题进行数学建模;最后推导了状态值函数和动作值函数的贝尔曼方程。2025-8-31 强化学习
RL学习小结 (003): 性能差异引理(The Difference in Policy Performance)学习分享新策略 相对于旧策略 的性能提升量,等于"用新策略去采样,然后用旧策略的优势函数去评估"所得到的期望累计折扣优势。 这意味着我们估计新策略性能,只需用旧策略的优势函数,就能评价新策略。 策略改进不需要直接知道新策略有多好,只需要知道旧策略认为哪些动作更好,然后让新策略更常选这些动作。2025-12-19 强化学习
RL学习小结 (004): Actor-Critic Method学习分享actor-critic (文本主要讨论advantage actor critic, A2C)相较蒙特卡洛(REINFORCE)有2大核心创新 • 通过subtract baseline ,在满足无偏性的前提下降低方差 • 通过bootstrapping的方法来代替纯蒙特卡洛回报降低方差。2026-2-4 强化学习