IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习(浙大课程b站)第五章 -> 正文阅读

[人工智能]机器学习(浙大课程b站)第五章

机器学习(浙大课程b站)第五章:强化学习

笔记

  1. AlphaGo围棋规则
    在这里插入图片描述AlphaGo围棋有必胜策略的证明
    博弈论(Game Theory)中提到:任意有限步结束的零和博弈有必胜策略
    用数学归纳法证明:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    围棋是有限步结束的游戏吗?
    在这里插入图片描述
    在这里插入图片描述
  2. 强化学习(Q-Learning和epsilon-greedy算法)
    强化学习与监督学习之间的区别,监督学习中训练数据和标签一一对应。强化学习中训练数据中没有标签,只有一个奖励函数reward function。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    一些定义:
    在这里插入图片描述
    并且假设t+1时刻的状态只与t时刻有关,与之前都无关。这是在内部的情况,如有有外部因素的话也要考虑在内。
    一些假设:
    在这里插入图片描述
    在这里插入图片描述
    以概率1到达下一个状态。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    我们要学习这个函数在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    即Bellman Equation
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    对于不确定性,需要在Q-Learning算法中加入探索和利用(EXPLORATION AND EXPLOITATION)机制。
    探索:稍微偏离目前的最好策略,以便达到搜索更好策略的目的。
    利用:运用目前的最好策略获取较高的奖赏(Reward)。
    基于探索和利用的epsilon-greedy算法是最常用的算法之一,概括的说,对于每一步以概率epsilon做探索,以概率1-epsilon做利用。
    在这里插入图片描述
    当状态数和行为数很多时,Q-Learning算法和EXPLORATION AND EXPLOITATION算法将会遇到困难。
    深度强化学习方向DEEP REINFORCEMENT LEARNING
    在这里插入图片描述
    Deep Q-Network(DQN)
    在这里插入图片描述
    其中θ是代估计的量
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  3. policy gradient和actor-critic算法在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    即actor-critic算法,其主要思想是同时优化收益函数Q(s,a)和估值函数V(s)
    在这里插入图片描述
    Q是演员,V是评论家。Actor-Critic是一个演员和评论家互相促进,共同进步的算法。
    在这里插入图片描述
  4. 增强学习(AlphaGo)
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    为了避免对局的网络过于相似而出现的过拟合,应用了如下策略:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

测验

1单选
在强化学习的过程中,学习率越大,说明使用新的尝试得到的结果比例越(),保留的旧的结果比例越()
A.小,小
B.小,大
C.大,大
D.大,小
正确答案:D

2单选
在强化学习的过程中,()在稍微偏离目前最好的策略的基础上,能够尝试更多种的策略。()是指运用目前最好的策略,获取更高的奖赏。
A.探索,利用
B.利用,输出
C.探索,输出
D.利用,探索
正确答案:A

3单选
?在epsilon-greedy算法中,epsilon的值越大,采用随机动作的概率越(),采用当前Q函数值代表的最大动作概率越()
A.小,大
B.小,小
C.大,小
D.大,大
正确答案:C

4多选
?强化学习包含的元素有()
A. Action
B. State
C. Agent
D.Reward
正确答案:A、B、C、D

5多选
?AlphaGo算法中,深度策略网络为了避免对局的网络过于相似出现的过拟合,采用下列那些策略()
A.每500次迭代就复制当前网络参数到对手池中
B.将当前版本网络与之前随即版本对局,得到输赢结果
C.将监督学习的网络复制作为增强学习的初始网络
D.利用reinforce算法更新参数最大化结果
正确答案:A、B、C、D

咋说呢,这一章光听b站的课是有些难懂的,本身原理有些难懂再加之涉及到很多其他方面知识,还有就是画面和PPT不太统一,看起来特别散,所以结合了mooc上的PPT。想搞懂的话估计还是要看这方面的书。
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-29 11:38:10  更:2021-07-29 11:40:15 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/5 6:13:50-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码