| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 莫烦强化学习科普视频注解1:Q-learning -> 正文阅读 |
|
[人工智能]莫烦强化学习科普视频注解1:Q-learning |
这篇文章是对莫烦python强化学习科普的注解 ? 因为那个视频: 什么是 Q Learning (Reinforcement Learning 强化学习)_哔哩哔哩_bilibili 我是真的看不懂,于是去查CSDN 一,Q学习Q学习是强化学习的经典算法,伪代码如下: ?但是吧,我相信像我这样对于英文不好又对算法不太熟悉的人第一眼看这个伪代码是一脸懵逼的 我一直相信图形语言是比文字语言更加易懂的,所以我根据算法画了个方块图: ?简单地说就是行动决策靠Q表,得到反馈靠环境,修正Q表靠优化器 Q表本身很简单: 在莫烦视频里环境很简单,两个行动,两个状态: Q表的数值写明了所有状态下对应行动的期望收益(不是实际收益)? 二,我曾经看不懂的地方那么Q学习的奥妙就在于这个优化器了: ?和所有的优化器一样,优化的终点的是收敛到一个平衡态。也就是说在Q表的最终状态是: 1.Q表的优化方法1.视频中说是现实收益 和 2.视频中说是估计收益(s1表示未行动,要采取行动a2) 相等 ?对于1来说: R是这一步的收益,那么另一项是什么呢? 答案就是它的是一种期望收益,为啥有个最大值呢?因为Q表会选择收益最高的行动,所以默认智能体会按照收益最大行动,也就是说优化器的优化目标是: 这一步的期望收益=这一步的真实收益+后面所有步骤的期望收益 我曾经没看懂的第一个点就在这里,因为莫烦说(这一步的收益+后面所有步骤的期望收益)表示现实收益,其实我认为不完全是,而是我给出的等式 2.γ的意义第二个看不懂的点就是后面的: 我看完的第一反应是: 这tmd是啥?本来只有s1,s2,为啥突然冒出来这么多s和r? 这个问题我是看了CSDN上的这个才明白的: Q学习(Q-learning)入门小例子及python实现_葭月丶拾玖的博客-CSDN博客_q学习 也就是说类似于上面房间的例子: 这个Q表的1,2可以看作是空间尺度 而视频中的s1-s4-。。。。。 则是时间尺度的状态表征,表示以后会去的所有步骤,这个眼镜的作用是预测未来,或者说看到未来要去到的地方,而不是看向所处空间的其他地方。 三,声明(求放过)声明:可能对于类似于我这种理解能力不太强的人需要看这个注解。如果原视频一看就看懂了,也可以把我当个笑话,但请别喷太狠 四,代码实现等我实现完后我会写上我的代码复现 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 11:56:23- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |