1.研究动机是什么

?在许多强化学习任务中，当面临新的挑战时，智能体往往从“零”开始学习，忽略了许多可以从领域专家那里获得的丰富的现成知识。这些知识可以帮助智能体快速启动学习过程，减少不必要的探索，加速智能体训练，缩短训练时间。

2.主要解决了什么问题

??使用专家知识构造决策树策略来初始化神经网络，通过这种方式对智能体进行指导，起到warm-start的作用；同时，随着训练的进行，决策树会不断生长，增加新知识，最终超过用来初始化的专家知识。

3.所提方法是什么

?作者提出了一种新的强化学习技术，通过人工初始化神经网络权重和结构。将领域知识直接编码进入神经网络决策树，并通过策略梯度更新对该知识进行改进。同时，随着训练的进行，神经网络决策树不断生长，发现新知识，最终超过专家知识。

3.1总体流程

?总体流程如图所示：1.需要提供分层形式的决策规则集合。这些策略是通过简单的用户交互来指定指令的。2.每条规则被转换为网络参数，每条规则的表达式为权重和判断条件为偏差，形成初始化的决策树神经网络。3.利用初始化网络与环境进行交互收集数据，更新网络参数，对知识改进。4.每次迭代更新，检查决策树纯度，当纯度过低，增长树，原来的树节点复制网络参数，新的节点随机初始化参数，形成新的决策树神经网络。重复3-4，直至训练结束。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q3kaZQsY-1627224464469)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image017.png)]

3.2初始化决策树网络

?首先用户需要提供分层形式的决策过程。随后用户的决策过程被转换为神经网络，每条规则由网络权重 $\overrightarrow{\omega_n}\in W$ ?和比较值（偏差） $c_n \in C$ ??表示。如图传统的决策树和PROLONET。决策节点变成线性层，叶子节点变成动作概率，最终的输出是路径概率加权的叶子之和。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tYHx0Jr7-1627224464470)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image002.png)]

?对于每一个决策节点 $D_n$ 来说，整个网络被表示为 $D_{n}=\sigma\left[\alpha\left(\vec{w}_{n}^{T} * \vec{X}-c_{n}\right)\right.$ ，其中， $\overrightarrow{X}$ 是输入数据，为环境状态， $\sigma$ 是sigmoid函数， $\alpha$ 是用于抑制决策节点的置信度，对树的置信度越低，决策的不确定性就越大，从而导致更多的探索。 $\alpha$ 值大强调比较器和加权输入之间的差异，从而推动树更布尔。 $\alpha$ 值越低，树越平滑，而 $\alpha=0$ 则产生一致的随机决策。

?接下来将以Cartpole为例，对文章提出的方法详细解读。Cartpole的状态空间是4维向量{cart position, cart velocity, pole angle, pole velocity}；动作空间是2维向量{left, right}。现有一条规则：如果小车的位置在中心的右边，向左移动；否则，向右移动，中心为0。用户指明位置是输入4维状态特征的第一个元素。初始化决策节点 $D_0$ ?，权重和偏差为 $\overrightarrow{w_{0}}=[1,0,0,0]$ ?， $c_{0}=0$ ?如Alg1的5-8。接下来的11-13创造一个新的叶节点 $\overrightarrow{l_{0}}=[1,0]$ ?表示向左， $\overrightarrow{l_{1}}=[0,1]$ ?表示向右。最后，初始化路 $Z\left(\overrightarrow{l_{0}}\right)=D_{0}$ ?和 $\left(\overrightarrow{l_{1}}\right)=\left(\neg D_{0}\right)$ ?。由此产生的智能体动作的概率分布是一个softmax函数 $\left(D_{0} * \overrightarrow{l_{0}}+\left(1-D_{0}\right) * \overrightarrow{l_{1}}\right)$ ?。处理完所有决策节点后，每个节点 $D_n$ ???的值表示该条件为TRUE的可能性， $1-D_n)$ ???为FALSE。有了这些可能性，然后乘出不同路径到所有叶节点的概率。每个叶节点包含了一条路 $\in Z$ ???，这是一组决策节点，应该是TRUE或FALSE，以便达到叶节点 $l$ ，计算每个输出动作的先验权值。例如，在上图中， $z_1=D_1*D_2$ , $z_3=(1-D_1)*D_3$ ????.在叶子节点中，通过将到达的概率乘以在叶节点内的输出的先验权重来确定。在计算每一个叶子的输出后，这些叶子被求和并通过一个softmax函数传递，以提供最终的输出分布。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2P3l9QOg-1627224464471)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image003.gif)]

文章我们使用一套简单的启发式方法来解决车杆问题，如图7所示。如果车离中心足够近，我们就朝着与车杆倾斜方向相反的方向移动，只要这个移动不会把我们推得离中心太远。如果购物车接近边缘，智能体尝试解释购物车的速度和中心，尽管这对启发式通常是不可恢复的情况。在没有训练的情况下，我们看到的最长的PROLONET大约是80个时间步。
$KaTeX parse error: Undefined control sequence: \ at position 382: … 0\\ 2& 2& 0& 2\? ?\end{bmatrix}=\…$
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mTHi4iFE-1627224464473)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image012.png.png)]

4.关键结果及结论是什么

我们在两个OpenAl Gym任务和两个改进的星际争霸2任务中验证了我们的方法，表明我们的新架构优于多层感知器和循环架构。与基于模仿学习和基于先验知识的方法相比，我们的基于知识的框架发现了更好的策略。重要的是，我们证明，未经训练的人可以使用我们的方法在训练前提供相对于基线的预期奖励> 80%的初始增加(p < 0.001)，这导致在政策优化后>的预期奖励增加60% (p = 0.011)。

4.1实验环境

1.Cart Pole

Cartpole
状态空间	cart position, cart velocity, pole angle, pole velocity
动作空间	left, right
参数设置	算法：PPO 优化器：RMSProp γ=0.99* * lr=“0.01”* * parallels=2* * “batch”_size=" 4" PROLONET Forward Pass 9个决策节点和11个叶子

2.Lunar Lander

状态空间	8D:X_position, Y_position, velocity, angle, angular velocity, whether the left leg have touched down, whether the left leg have touched down
动作空间	4D:do nothing, left engine, main engine,right engine
参数设置	算法：PPO 优化器：RMSProp γ=0.99* * lr=“0.01”* * concurrent processes=4* * “batch”_“size”=" 4" 网络结构7-layer network 193x193 – LSTM(193x193) – 193x193 – 193x193 – 193x193 –193x193 – 193x44 PROLONET Forward Pass α=1* * ε=0.1 10个节点和11个叶子

3.FindAndDefeatZerglings

状态空间	37D: 3 allied units{x_position, y_position, health,weapon_cooldown} 5 nearest visible enemy units{x_position, y_position, health,weapon_cooldown, is_baneling}
动作空间	10D:north, east, south, west, attack1, attack2, attack3, attack4, attack5, do nothing for every allied units
参数设置	算法：PPO 优化器：RMSProp γ=0.99* * lr=“0.001”* * concurrent processes=2* * “batch”_“size”=" 4" 网络结构 PROLONET Forward Pass α=1* * ε=0.1 10个节点和11个叶子

4.SC2LE（神族）

状态空间

联合单位数:36x1向量，其中每个索引对应于一种联合单位类型，值对应于这些单位的数量
等待单位数:如上所述，但用于当前正在生产中且还不存在的单元。
敌方单位数:112x1向量，其中每个索引对应于一种单位类型，值对应于这些类型中有多少是可见的。
玩家状态:9x1向量，玩家状态信息，包括矿物，瓦斯，供应等。

动作空间

如果考虑到每个单位动作数量可以达到数千个。简单地将动作抽象为44个可用的动作：包括35个建筑和单位生产命令，4个研究命令，5个攻击、防御、收获资源、侦察和什么都不做的命令。

参数设置

算法：PPO 优化器：RMSProp γ=0.99* * lr=“0001” “batch”_“size”=" 4" 网络结构7-layer network 193x193 – LSTM(193x193) – 193x193 – 193x193 – 193x193 –193x193 – 193x44
PROLONET Forward Pass α=1* * ε=0.1 10个节点和11个叶子

4.1实验结果

??cart pole、lunar lander和FindAndDefeatZerglings的架构比较。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1ouBhl9X-1627224464474)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image007.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LpsU5HEd-1627224464475)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image008.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RFqKdOZf-1627224464475)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image009.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rmrX5DFf-1627224464476)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image010.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oFvorQs0-1627224464476)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image011.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RYohr6bN-1627224464477)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image016.png.png)]

5.创新点在哪里

?1.提出一种在可训练的RL框架中捕获人类领域的专业知识的方法PROLoNETS。2. 我们将动态知识增长引入到PROLoNETS中，随着时间的推移，使其具有更强的表达能力，超过最初的初始化，并在月球着陆器领域产生两倍的平均回报。

7.综合评价又如何？

文章提出了一种新的DRL代理体系结构PROLONETS，它允许智能体的智能初始化。PROLONETS赋予智能体在必要时增长网络容量的能力。PROLONETS允许普通用户初始化，并通过人工指令和RL的混合实现了高性能的策略。首先，该方法直接利用现有专家知识，优于在传统架构上的模仿和强化学习，更像人类学习方式。其次，智能初始化允许深度RL智能体在对随机初始化智能体来说过于复杂的环境中探索和学习，为Fast reinforcement learning提供了一条可用之路。

?文章提出了一种新的DRL智能体体系结构PROLONETS，它允许智能体的智能初始化。PROLONETS赋予智能体在必要时增长网络容量的能力。首先，该方法直接利用现有专家知识，优于在传统架构上的模仿和强化学习，其次，智能初始化允许深度RL智能体在对随机初始化智能体来说过于复杂的环境中探索和学习。为强化学习成为跨各种复杂领域的更具有协作性的企业铺平道路。

参考链接

参考
[1]: http://baijiahao.baidu.com/s?id=1693377816234538595&wfr=spider&for=pc
[2]: https://blog.csdn.net/deeprl/article/details/114529629
[3]: https://arxiv.org/pdf/1809.04474.pdf