| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 深度强化学习-确定性策略梯度算法推导 -> 正文阅读 |
|
[人工智能]深度强化学习-确定性策略梯度算法推导 |
引言前面我们详细推导过策略梯度算法?,如果有小伙伴对这个算法的推导过程比较感兴趣的话,可以看一下我的这篇博文:深度强化学习-策略梯度算法推导。在连续的动作空间中,动作的个数是无穷大的。如果采用常规方法,需要计算。而对于无穷多的动作,最大值往往很难求得。为此,D.Silver等人在文章《Deterministic Policy Gradient Algorithm》中提出了确定性策略的方法,用于处理连续动作空间问题。本文将针对连续动作空间,推导出确定性策略的策略梯度算法。 1 确定性策略梯度算法对于连续动作空间里的确定性策略,?并不是一个通常意义上的函数,它对策略参数的梯度也不复存在(因为在状态处动作是唯一确定的)。不过确定性策略可以表示为,这样就可以对策略参数正常求导。 当策略是一个连续动作空间上的确定性策略时,确定性策略梯度定理为
2 确定性策略梯度算法推导??考虑Bellman期望方程: ? 以上两式对求梯度,有 ? 将的表达式代入的表达式中,有 对上式求关于的期望,有 这样就得到了从到的递推式。注意,最终关注的梯度值为(因为我们需要最大化累积期望回报) 所以有 ? 从而得到和之前策略梯度定理类似的形式。 3 确定性策略梯度定理的常用形式对于连续动作空间中的确定性策略,更常用的是另外一种形式:
其中的期望是针对折扣的状态分布 ? 而言的。 4?确定性策略梯度定理的常用形式推导? ? 5 总结?本文主要推导了确定性策略梯度算法及其常用形式,它是许多确定性算法的核心,例如DDPG和TD3等,所以希望大家能够理解(本文主要搬运于肖智清《强化学习原理与Python实现》)。如果本文存在错误的地方,欢迎各位怒斥! |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 8:55:00- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |