IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Actor-Critic -> 正文阅读

[人工智能]Actor-Critic

Actor-Critic

A3C相比DDQN,其可以支持更大的动作空间,甚至可以支持连续型的动作空间

将选取动作策略的步骤称为Actor,将评估动作的概率是变大还是变小的步骤称为Critic
在AC算法中,Actor和Critic一般采用神经网络来实现,因此称为策略网络(参数为θ)和评价网络(参数为w)

当评价函数为Q函数的时候,为最基础的AC算法,此时
Actor参数的更新方式:θ=θ-α▽logπ(at|st, θ)*Q(at,st)
Critic的损失函数:Loss=(Rt+γmaxQ(s’,a’)-Q(st,at))^2
PS:s’为st的下一个状态,Rt为st转移到s’的即时奖励,a’为取到最大Q值的动作
当评价函数为优势函数或者时序差分误差的时候,称为A2C(Advantage Actor-Critic)算法

应该是当优势函数的时候,但是如果直接计算优势函数A=Q-V的话,需要两个神经网络,因此我们将(Rt+V(s’))≈Q(st,at),因此A=Q(st,at)-V(st)就可以转化为A=Rt+V(s’)-V(st),这样会增加一定的方差,不过可以忽略不计
相比于基础的AC算法,A2C更好的表现了动作的优势,此时
Actor参数的更新方式:θ=θ-α▽logπ(at|st, θ)*(Rt+V(s’)-V(st))
Critic的损失函数:Loss=(Rt+V(s’)-V(st))^2

无论是AC还是A2C,其实应该说神经网络和强化学习结合的时候,都会存在一个问题,那就是神经网络会不稳定,主要是因为神经网络在训练的时候,是假设训练数据都是独立分布的,而实际在训练神经网络逼近值函数的时候,所采用的的数据往往存在相关性,一个有效的解决方法就是异步并发学习(就像我们之前提的APE-X),于是就有了A3C(Asynchronous Advantage Actor-Critic)方法,A3C包含一个主网络和多个子网络,子网络和主网络的结构相同(都是A2C的网络),各个子网络分布在不同的线程中,多个线程独立与环境进行交互当获取到一定数据后,就计算自己线程里面的神经网络损失函数的梯度,但是这些梯度并不更新自己线程里面的神经网络,而是去更新主网络,然后再从主网络获取参数更新本地网络,进而指导后面的环境交互
异步并发学习使A3C不止能够拿到优质训练数据帮助模型更好的收敛,而且充分利用了机器的计算性能,提高了训练效率

A3C框架图如下
在这里插入图片描述

学习记录–引用自学长的微信朋友圈笔记加上自己的理解

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-25 11:36:15  更:2022-05-25 11:37:06 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/1 22:32:34-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码