IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Sarsa算法与Q-learning在训练游戏时的思考 -> 正文阅读

[人工智能]Sarsa算法与Q-learning在训练游戏时的思考

Sarsa算法与Q-learning思考

Sarsa算法

它与Q-learning相当的相似,不同点在于Q-learning在现实值代入的是s2状态下的最大值,而Sarsa是选择在s2上实实在在走的动作a,这个a可能是所有动作里的最大值,也可能不是。

Sarsa算法我愿称之为说到做到型算法!
在这里插入图片描述
如果思考比较两种算法选择最大值与否对算法的后续影响的话,Sarsa训练学习到的孩子,更容易偏向获得更高利益的动作,比方说他通过一直执行a2学习动作最后得到了高回报,那么下一次他学习时,就更偏向一直做a2学习动作,即使学习10次看1次电视潜在回报更高,容易陷入“局部最优”

而Q-learning则更加的理性,能够执行理论上下一步的最优操作,消耗的资源可能更多,更容易达到全局最优吧。

但这里提到的“局部最优”其实并不是这么回事,因为只要迭代次数足够,算法基本上都会遍历每种情况,只是二者的学习过程有些不同而已。

Q-learning训练flappy bird的思考

本来学习完了Q学习算法就想要训练机器去玩flappy bird游戏(有点过于自信了hhh),但在游戏的开发中遇到了一些问题,在这里记录下来,日后如果能弄明白就继续来执行这个想法。
在这里插入图片描述
初步的想法是,这样的,首先Q表中的动作只有两种,一个是跳,一个是无操作,而这样的话,状态就有很多种了。我将状态取三个值来唯一的表示:

1.小鸟与天空的距离
2.小鸟与下一个障碍物的横向距离
3.障碍物的下边的高度(因为游戏中障碍的空隙相同,所以取一个高度就可以推断出障碍物全貌)
在这里插入图片描述
我用C++做了个简易的flappy bird游戏,并执行该策略,目前小鸟可以简单的通过学习自主控制是否按下space飞行。

但重要的问题是状态的选择,因为我这三个坐标的可选取值太多,导致状态s的数量呈爆发式增长(更何况我还简化了可选取值),所以电脑带的很慢,目前只训练到了第100代,小鸟能够自主学习的飞一飞,但还没能够越过第一个障碍物(这种情况越过障碍物基本就是靠蒙)

究其原因就是不能完全将所有可能的选区值录入,所以不能遍历全局情况,而如果遍历全局情况,算法的执行效率又会特别的慢!问题至此遇到瓶颈。
在这里插入图片描述

/-----------------------------手动分割线-----------------------------/
今天看了视频,发现可以通过深度学习的方法解决上述问题中状态数量爆炸的问题(这个问题也是Q学习普遍存在的算法瓶颈),具体原理就是通过输入当前情况下的三个值确定唯一状态,然后通过深度学习的一个"黑箱系统”得到一个简单的输出值,这个输出值作为当前状态,与Q学习算法进行配合,进行下一步的运算!

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-12 16:36:04  更:2021-08-12 16:37:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 20:20:23-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码