开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习（浙大课程b站）第五章 -> 正文阅读

[人工智能]机器学习（浙大课程b站）第五章

笔记

AlphaGo围棋规则
AlphaGo围棋有必胜策略的证明
博弈论(Game Theory)中提到：任意有限步结束的零和博弈有必胜策略
用数学归纳法证明:

围棋是有限步结束的游戏吗？
强化学习（Q-Learning和epsilon-greedy算法）
强化学习与监督学习之间的区别，监督学习中训练数据和标签一一对应。强化学习中训练数据中没有标签，只有一个奖励函数reward function。

一些定义：

并且假设t+1时刻的状态只与t时刻有关，与之前都无关。这是在内部的情况，如有有外部因素的话也要考虑在内。
一些假设：

以概率1到达下一个状态。

我们要学习这个函数

即Bellman Equation

对于不确定性，需要在Q-Learning算法中加入探索和利用(EXPLORATION AND EXPLOITATION)机制。
探索：稍微偏离目前的最好策略，以便达到搜索更好策略的目的。
利用：运用目前的最好策略获取较高的奖赏(Reward)。
基于探索和利用的epsilon-greedy算法是最常用的算法之一，概括的说，对于每一步以概率epsilon做探索，以概率1-epsilon做利用。

当状态数和行为数很多时，Q-Learning算法和EXPLORATION AND EXPLOITATION算法将会遇到困难。
深度强化学习方向DEEP REINFORCEMENT LEARNING

Deep Q-Network(DQN)

其中θ是代估计的量
policy gradient和actor-critic算法

即actor-critic算法，其主要思想是同时优化收益函数Q(s,a)和估值函数V(s)

Q是演员，V是评论家。Actor-Critic是一个演员和评论家互相促进，共同进步的算法。
增强学习(AlphaGo)

为了避免对局的网络过于相似而出现的过拟合，应用了如下策略：

测验

1单选
在强化学习的过程中，学习率越大，说明使用新的尝试得到的结果比例越（），保留的旧的结果比例越（）
A.小，小
B.小，大
C.大，大
D.大，小
正确答案：D

2单选
在强化学习的过程中，（）在稍微偏离目前最好的策略的基础上，能够尝试更多种的策略。（）是指运用目前最好的策略，获取更高的奖赏。
A.探索，利用
B.利用，输出
C.探索，输出
D.利用，探索
正确答案：A

3单选
?在epsilon-greedy算法中，epsilon的值越大，采用随机动作的概率越（），采用当前Q函数值代表的最大动作概率越（）
A.小，大
B.小，小
C.大，小
D.大，大
正确答案：C

4多选
?强化学习包含的元素有（）
A. Action
B. State
C. Agent
D.Reward
正确答案：A、B、C、D

5多选
?AlphaGo算法中，深度策略网络为了避免对局的网络过于相似出现的过拟合，采用下列那些策略（）
A.每500次迭代就复制当前网络参数到对手池中
B.将当前版本网络与之前随即版本对局，得到输赢结果
C.将监督学习的网络复制作为增强学习的初始网络
D.利用reinforce算法更新参数最大化结果
正确答案：A、B、C、D

咋说呢，这一章光听b站的课是有些难懂的，本身原理有些难懂再加之涉及到很多其他方面知识，还有就是画面和PPT不太统一，看起来特别散，所以结合了mooc上的PPT。想搞懂的话估计还是要看这方面的书。
在这里插入图片描述