| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Encoding Human Domain Knowledge to Warm Start Reinforcement Learning -> 正文阅读 |
|
[人工智能]Encoding Human Domain Knowledge to Warm Start Reinforcement Learning |
Encoding Human Domain Knowledge to Warm Start Reinforcement Learning相关资料 1.研究动机是什么?在许多强化学习任务中,当面临新的挑战时,智能体往往从“零”开始学习,忽略了许多可以从领域专家那里获得的丰富的现成知识。这些知识可以帮助智能体快速启动学习过程,减少不必要的探索,加速智能体训练,缩短训练时间。 2.主要解决了什么问题??使用专家知识构造决策树策略来初始化神经网络,通过这种方式对智能体进行指导,起到warm-start的作用;同时,随着训练的进行,决策树会不断生长,增加新知识,最终超过用来初始化的专家知识。 3.所提方法是什么?作者提出了一种新的强化学习技术,通过人工初始化神经网络权重和结构。将领域知识直接编码进入神经网络决策树,并通过策略梯度更新对该知识进行改进。同时,随着训练的进行,神经网络决策树不断生长,发现新知识,最终超过专家知识。 3.1总体流程?总体流程如图所示:1.需要提供分层形式的决策规则集合。这些策略是通过简单的用户交互来指定指令的。2.每条规则被转换为网络参数,每条规则的表达式为权重和判断条件为偏差,形成初始化的决策树神经网络。3.利用初始化网络与环境进行交互收集数据,更新网络参数,对知识改进。4.每次迭代更新,检查决策树纯度,当纯度过低,增长树,原来的树节点复制网络参数,新的节点随机初始化参数,形成新的决策树神经网络。重复3-4,直至训练结束。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q3kaZQsY-1627224464469)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image017.png)] 3.2初始化决策树网络?首先用户需要提供分层形式的决策过程。随后用户的决策过程被转换为神经网络,每条规则由网络权重 ω n → ∈ W \overrightarrow{\omega_n}\in W ωn??∈W?和比较值(偏差) c n ∈ C c_n \in C cn?∈C??表示。如图传统的决策树和PROLONET。决策节点变成线性层,叶子节点变成动作概率,最终的输出是路径概率加权的叶子之和。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tYHx0Jr7-1627224464470)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image002.png)] ?对于每一个决策节点 D n D_n Dn?来说,整个网络被表示为 D n = σ [ α ( w ? n T ? X ? ? c n ) D_{n}=\sigma\left[\alpha\left(\vec{w}_{n}^{T} * \vec{X}-c_{n}\right)\right. Dn?=σ[α(wnT??X?cn?),其中, X → \overrightarrow{X} X是输入数据,为环境状态, σ \sigma σ是sigmoid函数, α \alpha α是用于抑制决策节点的置信度,对树的置信度越低,决策的不确定性就越大,从而导致更多的探索。 α \alpha α值大强调比较器和加权输入之间的差异,从而推动树更布尔。 α \alpha α值越低,树越平滑,而 α = 0 \alpha=0 α=0则产生一致的随机决策。 ?接下来将以Cartpole为例,对文章提出的方法详细解读。Cartpole的状态空间是4维向量{cart position, cart velocity, pole angle, pole velocity};动作空间是2维向量{left, right}。现有一条规则:如果小车的位置在中心的右边,向左移动;否则,向右移动,中心为0。用户指明位置是输入4维状态特征的第一个元素。初始化决策节点 D 0 D_0 D0??,权重和偏差为 w 0 → = [ 1 , 0 , 0 , 0 ] \overrightarrow{w_{0}}=[1,0,0,0] w0??=[1,0,0,0]?, c 0 = 0 c_{0}=0 c0?=0?如Alg1的5-8。接下来的11-13创造一个新的叶节点 l 0 → = [ 1 , 0 ] \overrightarrow{l_{0}}=[1,0] l0??=[1,0]?表示向左, l 1 → = [ 0 , 1 ] \overrightarrow{l_{1}}=[0,1] l1??=[0,1]?表示向右。最后,初始化路 Z ( l 0 → ) = D 0 Z\left(\overrightarrow{l_{0}}\right)=D_{0} Z(l0??)=D0??和 ( l 1 → ) = ( ? D 0 ) \left(\overrightarrow{l_{1}}\right)=\left(\neg D_{0}\right) (l1??)=(?D0?)?。由此产生的智能体动作的概率分布是一个softmax函数 ( D 0 ? l 0 → + ( 1 ? D 0 ) ? l 1 → ) \left(D_{0} * \overrightarrow{l_{0}}+\left(1-D_{0}\right) * \overrightarrow{l_{1}}\right) (D0??l0??+(1?D0?)?l1??)?。处理完所有决策节点后,每个节点 D n D_n Dn????的值表示该条件为TRUE的可能性, ( 1 ? D n ) (1-D_n) (1?Dn?)???为FALSE。有了这些可能性,然后乘出不同路径到所有叶节点的概率。每个叶节点包含了一条路 z ∈ Z z \in Z z∈Z???,这是一组决策节点,应该是TRUE或FALSE,以便达到叶节点 l l l,计算每个输出动作的先验权值。例如,在上图中, z 1 = D 1 ? D 2 z_1=D_1*D_2 z1?=D1??D2?, z 3 = ( 1 ? D 1 ) ? D 3 z_3=(1-D_1)*D_3 z3?=(1?D1?)?D3?????.在叶子节点中,通过将到达的概率乘以在叶节点内的输出的先验权重来确定。在计算每一个叶子的输出后,这些叶子被求和并通过一个softmax函数传递,以提供最终的输出分布。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2P3l9QOg-1627224464471)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image003.gif)] 文章我们使用一套简单的启发式方法来解决车杆问题,如图7所示。如果车离中心足够近,我们就朝着与车杆倾斜方向相反的方向移动,只要这个移动不会把我们推得离中心太远。如果购物车接近边缘,智能体尝试解释购物车的速度和中心,尽管这对启发式通常是不可恢复的情况。在没有训练的情况下,我们看到的最长的PROLONET大约是80个时间步。 4.关键结果及结论是什么我们在两个OpenAl Gym任务和两个改进的星际争霸2任务中验证了我们的方法,表明我们的新架构优于多层感知器和循环架构。与基于模仿学习和基于先验知识的方法相比,我们的基于知识的框架发现了更好的策略。重要的是,我们证明,未经训练的人可以使用我们的方法在训练前提供相对于基线的预期奖励> 80%的初始增加(p < 0.001),这导致在政策优化后>的预期奖励增加60% (p = 0.011)。 4.1实验环境1.Cart Pole
2.Lunar Lander
3.FindAndDefeatZerglings
4.SC2LE(神族)
4.1实验结果??cart pole、lunar lander和FindAndDefeatZerglings的架构比较。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LpsU5HEd-1627224464475)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image008.png)] [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RFqKdOZf-1627224464475)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image009.png)] [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rmrX5DFf-1627224464476)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image010.png)] [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oFvorQs0-1627224464476)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image011.png)] [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RYohr6bN-1627224464477)(E:\文档\Typora\Encoding Human Domain Knowledge to Warm Start Reinforcement Learning\images\clip_image016.png.png)] 5.创新点在哪里?1.提出一种在可训练的RL框架中捕获人类领域的专业知识的方法PROLoNETS。2. 我们将动态知识增长引入到PROLoNETS中,随着时间的推移,使其具有更强的表达能力,超过最初的初始化,并在月球着陆器领域产生两倍的平均回报。 6.有值得阅读的相关文献吗??PopArt:https://arxiv.org/pdf/1809.04474.pdf 7.综合评价又如何?文章提出了一种新的DRL代理体系结构PROLONETS,它允许智能体的智能初始化。PROLONETS赋予智能体在必要时增长网络容量的能力。PROLONETS允许普通用户初始化,并通过人工指令和RL的混合实现了高性能的策略。首先,该方法直接利用现有专家知识,优于在传统架构上的模仿和强化学习,更像人类学习方式。其次,智能初始化允许深度RL智能体在对随机初始化智能体来说过于复杂的环境中探索和学习,为Fast reinforcement learning提供了一条可用之路。 ?文章提出了一种新的DRL智能体体系结构PROLONETS,它允许智能体的智能初始化。PROLONETS赋予智能体在必要时增长网络容量的能力。首先,该方法直接利用现有专家知识,优于在传统架构上的模仿和强化学习,其次,智能初始化允许深度RL智能体在对随机初始化智能体来说过于复杂的环境中探索和学习。为强化学习成为跨各种复杂领域的更具有协作性的企业铺平道路。 参考链接参考 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/22 11:14:01- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |