【Berkeley CS285】Deep Reinforcement Learning 学习笔记
Lecture 1: Introduction
什么是强化学习
- 基于学习的决策制定的数学形式化方法(Mathematical formalism for learning-based decision making)
- 从经验中学习决策和控制的方法(Approach for learning decision making and control from experience)
强化学习与监督学习
- 标准(监督)学习:对于给定的数据集 $D = {(x_i, y_i)}$ , 寻找由 $x$ 到 $y$ 的映射函数 $f_{\theta}(x_i)\ \approx y_i$。监督学习假设所有数据对独立同分布,并且在训练过程中知道ground truth。数据驱动的 AI 学习数据的分布,但很难得到更好的结果。
- 强化学习:数据并非独立同分布,过去的输出会影响未来的分布,同时训练过程中并不知道ground truth,只知道结果 success / failure 以及 reward。强化学习的输入是每个时间步的状态 $s_t$,输出是行为$a_t$。在循环的在线学习过程中,Agent 与环境互动,接受状态$s_t$ 并输出动作 $a_T$ ,环境则以状态 $s_{t+1}$ 与奖励 $r_{t}$ 进行回应。强化学习中的数据由不同时间步的状态、动作以及奖励组成。强化学习的目标是学习一个能够最大化累计奖励 $\sum_t r_t$ 的策略 $\pi_\theta$:
$$
\text{goal: maximize }\sum_t r_t \text{with } \pi_\theta: s_t \rightarrow a_t
$$
因此强化学习能够找到更好地解决问题的方法。
Lecture 2: Supervised Learning of Behaviors
Reference
【Berkeley CS285】Deep Reinforcement Learning 学习笔记
https://blog.iks-ran.com/2025/04/15/cs285/