| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 深度强化学习-确定性策略梯度算法推导 -> 正文阅读 |
|
[人工智能]深度强化学习-确定性策略梯度算法推导 |
引言前面我们详细推导过策略梯度算法?,如果有小伙伴对这个算法的推导过程比较感兴趣的话,可以看一下我的这篇博文:深度强化学习-策略梯度算法推导。在连续的动作空间中,动作的个数是无穷大的。如果采用常规方法,需要计算 1 确定性策略梯度算法对于连续动作空间里的确定性策略, 当策略是一个连续动作空间上的确定性策略
2 确定性策略梯度算法推导??考虑Bellman期望方程:
以上两式对
将 对上式求关于 这样就得到了从 所以有 ? 从而得到和之前策略梯度定理类似的形式。 3 确定性策略梯度定理的常用形式对于连续动作空间中的确定性策略,更常用的是另外一种形式:
其中的期望是针对折扣的状态分布
而言的。 4?确定性策略梯度定理的常用形式推导?
5 总结?本文主要推导了确定性策略梯度算法及其常用形式,它是许多确定性算法的核心,例如DDPG和TD3等,所以希望大家能够理解(本文主要搬运于肖智清《强化学习原理与Python实现》)。如果本文存在错误的地方,欢迎各位怒斥! |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年3日历 | -2025/3/11 15:38:34- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |