type
status
date
slug
summary
tags
category
icon
password
参考教材:
1. 《Reinforcement Learning: An Introduction》
2. 《Mathematical Foundations of Reinforcement Learning
1 强化学习基本概念
1.1 术语定义
在强化学习中,可以将学习过程看作智能体(agent)与环境(environment)的交互过程。智能体能够感知环境状态、做出决策、执行动作,从而影响环境并获得奖励。为了更好地描述这一过程,通常定义以下基本概念:
- 状态(State, S):表示环境的随机变量。某个具体的状态记为小写 ,其中 是状态空间。
- 动作(Action, A):表示智能体可采取的动作的随机变量。具体动作记为,其中是动作空间。
- 状态转移(State Transition):当智能体在时刻处于状态 并采取动作后,环境转移到新的状态,记为
- 策略(Policy, ):描述智能体的决策规则,是一个条件概率分布, 它表示在状态下选择动作的概率:
- 奖励(Reward, ):环境在状态下对智能体采取动作所反馈的随机变量。奖励的一个取值记为, 是奖励空间,常写作。
- 轨迹(Trajectory, τ):智能体与环境交互所产生的状态-动作-奖励序列,例如:
- 回报(Return, Gt):从时刻 t 开始累积的奖励,用于衡量长期收益。
- 即时奖励(Immediate Reward):当前时刻的奖励。
- 未来奖励(Future Reward):从未来时刻累积的奖励。
- 折扣回报(Discounted Return):为了避免无限轨迹回报发散,并调节对近期与远期奖励的重视程度,引入折扣因子:
- 回合(Episode):从初始状态到终止状态的完整过程,即一条有限长度的轨迹。
- Episodic Task(回合式任务):具有明确起点和终点。
- Continuing Task(持续性任务):没有终止状态,交互过程无限持续。
2 马尔可夫决策过程
通常我们会用马尔可夫决策过程(markov decision process (MDP))来来描述强化学习。MDP是描述随机系统的一般框架。它由以下关键要素组成
- 集合(Sets)
- 状态空间集合。所有状态的集合
- 动作空间集合。与每一个状态关联的动作集合,是随机变量的一个值
- 奖励空间集合。与每一个关联的所有奖励集合
- 模型(model)
- 状态转移概率,
- 奖励概率,
- 策略(policy):在状态下,agent采取动作a的概率
- 马尔可夫性质(markov property):下一个状态和奖励仅依赖当前时刻的状态和动作,而与之前的状态和动作无关
马尔可夫过程与马尔可夫决策过程有什么联系? 当马尔可夫决策过程中的策略确定了,此时的马尔可夫决策过程就退化成了马尔科夫奖励过程,如果奖励也去掉,那么就进一步退化为马尔可夫过程。
3 贝尔曼方程(Bellman Equation)
在强化学习中,马尔可夫决策过程(MDP)是建模智能体与环境交互的核心数学模型,而贝尔曼方程(Bellman Equation)是求解 MDP 的关键工具。
强化学习的核心目标通过智能体(agent)与环境(environment)的交互来学习一个最优的策略(policy)使得累积回报(return)最大化。
实际中,由于状态转移的随机性,从一个状态出发,存在多条轨迹,每条轨迹的回报不同,因此通常我们的优化目标是最大化期望回报。
3.1 状态值函数与贝尔曼方程
定义在策略下,从状态 状态值函数 开始的期望累积回报为状态值函数(state-value function),也简称为状态值(state value)。
⚠️式子中的是随机变量,是随机变量的值。
最优策略可以定义为使状态值函数最大的策略
折扣回报(Discounted Return)定义为:
- 是即时奖励 immediate reward
- 未来奖励 future reward
利用折扣回报定义,状态值函数可以拆分为即时奖励和未来回报的期望:
先看第一项即时奖励期望
在看第二项未来回报的期望
将结果带入原式中,我们得到值函数形式如下,此时的值函数方程也称为贝尔曼方程。
贝尔曼方程描述了不同状态值之间的关系。式中代表系统模型。通过联立所有状态值我们可以求解出贝尔曼方程所有状态的值。
3.1 贝尔曼方程的联合概率形式
已知
代入初始的贝尔曼方程中
3.2贝尔曼方程的向量形式
前面提到,对于每一个状态,我们都可以写一个值函数(贝尔曼方程),假定状态数为,则有联立形式:
为了方便以向量化定义
此时的贝尔曼方程可以写做
对于每一个状态 的联立形式
用矩阵的形式表达,上面的联立形式可以写做
即
根据上面贝尔曼方程的向量形式(本质上是一个线性方程组),我们有2种方法可以对其进行求解
3.2.1 向量形式贝尔曼方程的求解
3.2.1.1 解析解
上面的解析解有几个性质
- 可逆。(根据Gershgorin circle theorem可以证明满足,本文不做深究)
- . (因为, ,根据矩阵逆的级数展开可以证明)
- 对于任何向量有, 若有
3.2.1.2 数值解
根据下面的迭代式可以迭代求解
随机初始一个,通过上面的迭代式可以求出真实的状态值,即
为什么上面的迭代式能保证能够收敛到真实值,证明:
定义误差,只需证明
将误差代入迭代式中
3.3 动作值函数的贝尔曼方程
动作值函数(Action Value Function, 简称动作值)也是强化学习一个非常重要的概念,其定义为
它表示在状态下采取动作后,沿着策略执行,所能获得的期望回报。
3.3.1 动作值与状态值的关系
状态值函数等于该状态下所有动作值的加权平均,其中权重是策略。
3.3.2 动作值的贝尔曼方程
根据式(8)和式(18),可以写出动作值的贝尔曼方程
小结
本文系统介绍了强化学习的核心概念,包括状态、动作、策略、奖励和回报等基本术语;随后展示了如何使用马尔可夫决策过程(MDP)对强化学习问题进行数学建模;最后推导了状态值函数和动作值函数的贝尔曼方程。
如有理解不当、笔误之处,敬请指出。非常感谢~
- 作者:莫叶何竹🍀
- 链接:http://www.myhz0606.com/article/RL_001
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。