开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 入门强化学习（Q-learning→DQN→DDQN） -> 正文阅读

[人工智能]入门强化学习（Q-learning→DQN→DDQN）

基础：

只要具备CNN分类算法的基本认识。

讲解内容：

内容主要通过《飞翔小鸟》游戏为例，探究如下2个问题：
- 强化学习原理：以Q-learning算法为例。
- 深度强化学习原理：以DQN、DDQN算法为例。
然后大概讲下DDQN算法，如何在更复杂的解锁任务中应用和设计。

学完收获：

认真看完所有细节内容，基本就能了解一种强化学习和一种深度强化学习的整个过程，其他算法可以举一反三。

备注：由于资料大多从PPT中截取出来，转成文章可能会有一些不理解的地方，如有细节疑问可以留言提出来。

0 应用背景

《飞翔小鸟》是一款简单的手机游戏：

操作：唯一的操作是手指点击屏幕。
操作效果：每点击一下，画面中小鸟就挥动一下翅膀往上突然蹬飞一下（非匀速运动！），如果不点击屏幕，小鸟就会做自由落体运动。小鸟不能前后移动，只能上下飞翔或自由落体，背景画面会匀速从左网友移动。
游戏得分：你唯一要做的就是让小鸟不撞上那些绿色的管道，每通过一个管道口，分数+1。
游戏操作难点：小鸟蹬飞速度是非匀速的，先快后慢。然后下降速度也是非匀速的自由落地。图中通道口每次出现位置随机，如果前后两个通道口高度差较大，那么就要在短时间内让小鸟快速爬升，并恰当好的下降回去。

1 强化学习原理

强化学习定义：

????????强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习要素：

????????强化学习中有状态（state）、动作（action）、奖赏（reward）这三个要素。

强化学习如何发挥作用：

????????智能体（Agent）会根据当前状态来采取动作，并记录被反馈的奖赏，以便下次再到相同状态时能采取更优的动作。

Q-Learning算法怎么自己玩《飞翔小鸟》

利用Q-Learning强化学习算法，我们可以让智能体程序去玩《小鸟飞翔》游戏。

Q-Learning是强化学习算法中value-based的算法，Q即为Q-table（一个价值表）就是在某一时刻的 s 状态下，采取动作 a 能够获得收益的期望，环境会根据agent的动作反馈相应的奖励 r，所以算法的主要思想就是将 State 与 Action 构建成一张 Q-table 来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。

针对《小鸟飞翔》游戏，我们对强化学习三要素建模如下：