跳至主要內容
RL10 - Actor-Critic 方法
  • actor: 对应 policy update
  • critic: 对应 policy evaluation 或者 value evaluation
20240830184236
20240830184236

显然,是在基于 策略梯度上升 算法的基础上,将对于 Q 值的估计通过一个网络来进行描述,这个便成为 critic, 而对应的策略梯度上升算法就是对应 actor。


academic强化学习大约 1 分钟
RL9 - 策略梯度法(Policy gradient)
  • 之前介绍的方法都是 value-based 的方法,从这章开始时基于 policy-based 的方法。
  • policy function approximation 是直接建立一个基于策略的目标函数来进行梯度上升的优化。

1. 基本思路

将基于表格表示的策略 转换为 基于函数表示的策略。
即此时策略 π\pi 可以描述为:


academic强化学习大约 4 分钟
RL8 - 值函数近似(Value Function Approximation)

对于 q-value 的估计从 基于表格的 (tabular representation) 转换到 基于函数的 (function representation)

1. 引入

  • 通过使用一个函数来进行拟合 state values 或者 action values: v^(s,w)vπ(s)\hat{v}(s,w)\approx v_\pi(s), 其中wRmw\in \mathbb{R}^m是参数向量。
  • 可以提高存储效率
  • 提高泛化能力

academic强化学习大约 6 分钟
RL7 - Temporal-Difference Learning

1. 引入

考虑一个复杂的均值估计问题: 计算

ω=E[R+γv(X)], \omega = \mathbb{E}[R+\gamma v(X)],


academic强化学习大约 4 分钟
RL6 - 随机近似理论与随机梯度下降算法
  • 针对 mean estimation 问题进行研究,因为在 RL 中 无论是 state value 还是 action value 其定义都是一个均值 (means)

  • Stochastic approximation(SA): SA refers to a broad class of stochastic iterative algorithms soloving root finding or optimization problems.


academic强化学习大约 5 分钟
RL5 - 蒙特卡洛方法 (Monte Carlo) model-free
  • 如何在没有模型 (即p(rs,a),p(ss,a)p(r|s,a),p(s'|s,a)等均未知) 的情况下进行估计 通过 Monte Carlo estimation.
    其核心思想是:
    若有一系列(i.i.di.i.d)样本采样,得到一个样本序列x1,x2,,xN{x_1,x_2,\dots,x_N}
    那么对于随机变量XX的估计可以为:

    E[x]xˉ=1Nj=1Nxj E[x]\approx \bar{x} = \frac{1}{N}\sum_{j=1}^Nx_j

    该方法成立的数学依据是 大数定理 (Law of Large Numbers)
    20240811225952
    样本必须是独立同分布(iid, independent and identically distributed)

  • 为什么考虑 mean estimation. 因为无论是 state value 还是 action value 其原始定义都是从期望出发的。

    vπ(s)=E[GtSt=s];qπ(s,a)=E[GtSt=s,At=a] v_\pi(s)=E[G_t|S_t=s]; \quad q_\pi(s,a)=E[G_t|S_t=s,A_t=a]


academic强化学习大约 6 分钟
RL3 - 贝尔曼最优公式
  • Core concepts: optimal state value and optimal policy
  • A fundamental tool: the Bellman optimality equation (BOE)

1. Optimal policy

最优策略的定义:
A policy π\pi^* is optimal if π(s)vπ(s)\pi^*(s)\ge v_\pi(s) for all s and for any other policy π\pi.
需要确定几件事:


academic强化学习大约 2 分钟
RL2 - 贝尔曼公式

核心内容

  • state value
  • the Bellman equation

1.State value

1.1 GtG_t


academic强化学习大约 5 分钟
RL1 - 基本概念

强化学习框架图

主要框架
主要框架

1. 基本概念

  • State(状态):The status of the agent with respect to the environment.

  • State Space(状态空间): 所有状态的集合。S={si}i=1nS=\{s_i\}_{i=1}^{n}

  • Action(动作): 对于每一个状态,都有可选择的动作。

  • Action space of a state: 对应状态中所有可选择的动作集合。A(si)={ai}i=1nA(s_i)=\{a_i\}_{i=1}^{n}

  • State transition(状态转换): s1a1s2s_1\overset{a_1}{\rightarrow} s_2。定义了agent与环境的交互行为。

  • State transition probability: p(s2s1,a1)p(s_2|s_1,a_1),即状态s1s_1采用动作a1a_1转到状态s2s_2的概率。

  • Policy π\pi: 指导agent在当前状态下选择哪个动作。

  • Reward(奖励): 在执行一个动作后获得的一个常数(依赖于当前状态和所采取的动作)。同样可以用条件概率的形式进行描述,如p(r=1s1,a1)p(r=1|s_1,a_1),即在状态s1s_1下采用动作a1a_1获得的奖励r=1r=1的概率。

  • Trajectory:a state-action-reward chain.(可以有限,也可以是无限长的trajectory) s1r=0a2s2r=0a2s5r=0a2s8r=1a2s9s_1\overset{a_2}{\underset{r=0}{\rightarrow}}s_2\overset{a_2}{\underset{r=0}{\rightarrow}}s_5\overset{a_2}{\underset{r=0}{\rightarrow}}s_8\overset{a_2}{\underset{r=1}{\rightarrow}}s_9.
    个人理解,trajectory是在策略给定下,agent可能走出的全部轨迹,并非只是一个单一的轨迹。

  • Return of a trajectory:将对应的轨迹所获得的所有reward的总和,可以粗步衡量一个策略的好坏。

  • Discounted return(of a trajectory):为了应对具有无限步的trajectory的return=return=\infty的情况。 s1r=0a2s2r=0a2s5r=0a2s8r=1a2s9r=1a2s9r=1a2s9s_1\overset{a_2}{\underset{r=0}{\rightarrow}}s_2\overset{a_2}{\underset{r=0}{\rightarrow}}s_5\overset{a_2}{\underset{r=0}{\rightarrow}}s_8\overset{a_2}{\underset{r=1}{\rightarrow}}s_9\color{blue}{\overset{a_2}{\underset{r=1}{\rightarrow}}s_9\overset{a_2}{\underset{r=1}{\rightarrow}}s_9\dots}. 此时该trajectory的return=0+0+0+1+1+=return=0+0+0+1+1+\dots=\infty。 引入discount rate, γ[0,1)\gamma\in[0,1). 此时对应的discounted rate=0+γ0+γ20+γ31+γ41+=γ311γdiscounted\space rate=0+\gamma 0+\gamma^2 0+\gamma^3 1+\gamma^4 1+\dots=\gamma^3 \frac{1}{1-\gamma} 显然,如果γ\gamma接近0,即此时的discounted return越短视,注重近期的reward;γ\gamma接近1,更远视,更注重长远的reward。

  • Episode(trial):When interacting with the environment following a policy, the agent may stop at some terminal states. The resulting trajectory is called an episode(or a trial)/ 即表示具有终止状态terminal states的trajectory,通常是具有有限步长的trajectory. 同理,这样的任务称为episodic tasks

  • continuing tasks:即不具备terminal states的任务,会与环境一直交互下去。 可以通过设置将episodic tasks转换成continuing tasks,如可以在target states中限制action space,控制其一直待在target states中。 Deterministic — Stochastic


academic强化学习大约 3 分钟