| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 入门强化学习(Q-learning→DQN→DDQN) -> 正文阅读 |
|
[人工智能]入门强化学习(Q-learning→DQN→DDQN) |
基础:
讲解内容:
学完收获:
备注:由于资料大多从PPT中截取出来,转成文章可能会有一些不理解的地方,如有细节疑问可以留言提出来。 0 应用背景《飞翔小鸟》是一款简单的手机游戏:
1 强化学习原理强化学习定义: ????????强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。 强化学习要素: ????????强化学习中有状态(state)、动作(action)、奖赏(reward)这三个要素。 强化学习如何发挥作用: ????????智能体(Agent)会根据当前状态来采取动作,并记录被反馈的奖赏,以便下次再到相同状态时能采取更优的动作。 Q-Learning算法怎么自己玩《飞翔小鸟》利用Q-Learning强化学习算法,我们可以让智能体程序去玩《小鸟飞翔》游戏。 Q-Learning是强化学习算法中value-based的算法,Q即为Q-table(一个价值表)就是在某一时刻的 s 状态下,采取动作 a 能够获得收益的期望,环境会根据agent的动作反馈相应的奖励 r,所以算法的主要思想就是将 State 与 Action 构建成一张 Q-table 来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。 针对《小鸟飞翔》游戏,我们对强化学习三要素建模如下:
探究1:Q-Learning强化学习是要训练什么东西?本质上, ?探究2:Q-Learning强化学习如何训练??2 深度强化学习原理Q-learning算法有个最大问题:高维等场景下,创建出来的Q-table会过于庞大,甚至无法穷尽。(因为很多场景下,状态无法穷尽、动作无法穷尽、所以它们两者形成的Q-table价值表也就无法穷尽) 2012年,当AlexNet深度学习刚在ImageNet比赛大获全胜时,2013年,DeepMind团队就想到把深度网络与强化学习结合起来(主要就是用CNN网络替换Q-table),巧妙地解决了状态维数爆炸的问题! 2015年《Nature》封面刊登了DeepMind 改进版DQN深度强化学习算法。 具体细节请详细看懂下面PPT,不然后面看不懂了: ?DQN算法结构和奖励函数DQN算法架构和奖励函数如下: 具体细节如下: ?Q-leaning和DQN训练流程对比?DQN算法如何进一步优化:Double-DQN算法?3 DDQN解决OpenLock任务OpenLock任务源自《人类因果迁移:深度强化学习的挑战》。 3.1 OpenLock规则介绍
1.
Agent
只有
3
个动作:推下杠杆、拉回杠杆、推门。
2.
Agent
每次
都只有
3
次动作机会,
3
次动作后,门没解锁,则场景恢复初始状态。
开门的四种方法:
3.2 DDQN如何设计来解决此任务?DDQN的设计方法如下: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/22 16:41:01- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |