[人工智能] 莫烦强化学习科普视频注解1:Q-learning

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 莫烦强化学习科普视频注解1:Q-learning -> 正文阅读

[人工智能]莫烦强化学习科普视频注解1:Q-learning

这篇文章是对莫烦python强化学习科普的注解

因为那个视频：

什么是 Q Learning (Reinforcement Learning 强化学习)_哔哩哔哩_bilibili

我是真的看不懂，于是去查CSDN

一，Q学习

Q学习是强化学习的经典算法，伪代码如下：

?但是吧，我相信像我这样对于英文不好又对算法不太熟悉的人第一眼看这个伪代码是一脸懵逼的

我一直相信图形语言是比文字语言更加易懂的，所以我根据算法画了个方块图：

?简单地说就是行动决策靠Q表，得到反馈靠环境，修正Q表靠优化器

Q表本身很简单：

在莫烦视频里环境很简单，两个行动，两个状态：

Q表的数值写明了所有状态下对应行动的期望收益（不是实际收益）?

二，我曾经看不懂的地方

那么Q学习的奥妙就在于这个优化器了：

?和所有的优化器一样，优化的终点的是收敛到一个平衡态。也就是说在Q表的最终状态是：

1.Q表的优化方法

1.视频中说是现实收益

和

2.视频中说是估计收益（s1表示未行动，要采取行动a2）

相等

?对于1来说：

R是这一步的收益，那么另一项是什么呢？

答案就是它的是一种期望收益，为啥有个最大值呢？因为Q表会选择收益最高的行动，所以默认智能体会按照收益最大行动，也就是说优化器的优化目标是：

这一步的期望收益=这一步的真实收益+后面所有步骤的期望收益

我曾经没看懂的第一个点就在这里，因为莫烦说（这一步的收益+后面所有步骤的期望收益）表示现实收益，其实我认为不完全是，而是我给出的等式

2.γ的意义

第二个看不懂的点就是后面的:
?

我看完的第一反应是：

这tmd是啥？本来只有s1，s2，为啥突然冒出来这么多s和r？

这个问题我是看了CSDN上的这个才明白的：

Q学习（Q-learning）入门小例子及python实现_葭月丶拾玖的博客-CSDN博客_q学习

也就是说类似于上面房间的例子：

这个Q表的1，2可以看作是空间尺度

而视频中的s1-s4-。。。。。

则是时间尺度的状态表征，表示以后会去的所有步骤，这个眼镜的作用是预测未来，或者说看到未来要去到的地方，而不是看向所处空间的其他地方。

三，声明（求放过）

声明：可能对于类似于我这种理解能力不太强的人需要看这个注解。如果原视频一看就看懂了，也可以把我当个笑话，但请别喷太狠

四，代码实现

等我实现完后我会写上我的代码复现

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-04-06 23:10:15 更:2022-04-06 23:13:31

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/29 3:23:54-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码