| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 基于Pytorch的强化学习(DQN)之策略学习 -> 正文阅读 |
|
[人工智能]基于Pytorch的强化学习(DQN)之策略学习 |
目录 1. 引言我们上次讲到了价值学习,这次我们来看看基于策略的学习,我们状态价值函数??能够描述当前状态下局势的好坏,如果越大那局势不就会越好吗,所以我们得到了策略学习的基本思想:找到最优的action使达到最大。 2. 数学推导2.1 状态价值函数我们之前知道状态价值函数??,我们先用神经网络来近似?,这里的??是神经网络的参数,如果我们认为??与?无关,那么下面我们来求策略梯度。 2.2 策略梯度我们将称为策略梯度,由于我们的目标是使变大,所以我们使用梯度上升??来更新参数??,我们经过如下的公式推导: ?第三个等式处的变形就是为了利用使概率密度函数的性质将其写成期望的形式 上面是action为离散情况下的表达形式,那么如果是连续情况呢?这就需要使用蒙特卡罗近似了。 2.3 蒙特卡罗近似蒙特卡洛近似本质上是一种基于统计原理的近似方法,我们抽取多次动作,次数越多近似就越准确,这样将连续问题离散化,我们就仍可以使用上面的公式了,例如我从action中随机抽取了一个,我们便有,这里的我们称之为的一个无偏估计。 3. 算法这里我们还有第三步没有解决:对?进行估计,我们知道是return的期望,所以我们可以用期望的计算公式来近似??或者再用一个神经网络来拟合 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/9 1:48:54- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |