| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 深入浅出强化学习编程实战——第七章笔记2 -> 正文阅读 |
|
[人工智能]深入浅出强化学习编程实战——第七章笔记2 |
深入浅出强化学习编程实战(第7章) -- 策略梯度方法2算法实战一、回顾策略梯度基本思想详见:我的上一篇博客 这篇博客提到策略梯度的基本思想: 1、参数化策略 2、找到目标函数 3、通过优化目标函数找到最优策略 最终得到的目标函数的梯度为: 二、REINFORCE算法本篇博客的目标是介绍一个利用该梯度公式来找到最优策略的一个算法:REINFORCE算法 ?2.1? 梯度变形观察上面梯度公式,内层累加时,每个t对应的 ?需要乘以整条轨迹的累计奖励,然而当前t时刻的动作其实和过去的奖励是没有关系的,所以该公式可以改成: 这相当于引入了因果性。同时另一个好处是可以减小方差。 2.2? 算法详情分析:如图中算法所示,利用给定策略采样一条轨迹,?对每个时刻对应的 都乘以t时刻以后可以得到的奖励和,这里用Vt表示。 将第二层的for循环全部累加,可以得到 ?? ????????该算法和?2.1节的变形后的梯度公式是一样的。不同的是,这里只采样一条轨迹,即公式中的m=1。 所以引出了本书第二个算法。基于REINFORCE的批策略梯度算法 2.3??基于REINFORCE的批策略梯度算法算法详见课本,区别在于从采样一条轨迹变成了采样N条轨迹,使得其完全符合变形后的梯度公式 3、算法实现3.1 离散动作环境下的实现离散动作的实现依赖于softmax函数 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/17 20:17:34- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |