IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 2021第一周周报 -> 正文阅读

[人工智能]2021第一周周报

背景介绍

Reinforcement Learning (RL)

假设环境是一个有限长度的折扣马尔可夫决策过程,可以用一个七元组来表示 M = ( S , A , ρ , P , r , γ , T ) \mathcal{M} = (\mathcal{S},\mathcal{A},\rho,\mathcal{P},r,\gamma,T) M=(S,A,ρ,P,r,γT),其中 T T T 是决策过程总长度; S \mathcal{S} S 是状态空间; A A A 是行为空间; r : S × A ? R r:\mathcal{S} \times \mathcal{A} \mapsto \mathbb{R} rS×A?R 是奖励函数用于衡量某个状态行为对 ( s , a ) , s ∈ S , a ∈ A (s,a),s \in \mathcal{S},a \in \mathcal{A} (s,a),sS,aA 的好坏; P : S × A ? [ 0 , 1 ] \mathcal{P}: \mathcal{S} \times \mathcal{A} \mapsto [0,1] P:S×A?[0,1] 表示环境的状态转移概率函数; ρ : S ? [ 01 ] \rho: \mathcal{S} \mapsto [01] ρ:S?[01] 表示环境的初始状态分布; γ ∈ ( 0 , 1 ) \gamma \in (0,1) γ(0,1)是折扣因子。

对于智能体的行为模式,用策略函数 π : S ? Δ ( A ) \pi : \mathcal{S} \mapsto \Delta (\mathcal{A}) π:S?Δ(A) 表示,即条件分布 π ( a ∣ s ) \pi(a\vert s) π(as) 表示改智能体在状态 s s s 处选择动作 a a a 的概率。则该策略在 M \mathcal{M} M 下的累计期望回报表示为值函数:
V ( π ) = E [ ∑ t = 0 T γ t r ( s t , a t ) ∣ s 0 ~ ρ ( ? ) , a t ~ π ( ? ∣ s t ) , s t + 1 ~ P ( s t + 1 ∣ s t , a t ) ] V(\pi)=\mathbb{E}\left[\sum_{t=0}^{T} \gamma^{t} r\left(s_{t}, a_{t}\right) \mid s_{0} \sim \rho(\cdot), a_{t} \sim \pi\left(\cdot \mid s_{t}\right), s_{t+1} \sim \mathcal{P} \left(s_{t+1} \mid s_{t}, a_{t}\right)\right] V(π)=E[t=0T?γtr(st?,at?)s0?ρ(?),at?π(?st?),st+1?P(st+1?st?,at?)]
对于强化学习问题,其目标是在 r r r 已知的情况下求 π ? ∈ argmax ? π V ( π ) \pi^{*} \in \underset{\pi}{\operatorname{argmax}} V(\pi) π?πargmax?V(π)

Imitation Learning (IL)

而在模仿学习中, r r r 是未知或非常稀疏的,但有一个专家策略 π E \pi^E πE,假设专家策略是最优的,已知 π E \pi ^E πE M \mathcal{M} M 下产生了一系列交互数据 D E = { t r 1 , t r 2 , … ? } \mathcal{D}^E = \{tr_1,tr_2,\dots\} DE={tr1?,tr2?,},其中 t r = { ( s 1 , a 1 ) , ( s 2 , a 2 ) , ? ? , ( s T , a T ) } tr = \{(s_1,a_1),(s_2,a_2),\cdots,(s_T,a_T)\} tr={(s1?,a1?),(s2?,a2?),?,(sT?,aT?)} 表示智能体在环境中的一次完整轨迹。则模仿学习问题的目标是求 argmin ? π V ( π E ) ? V ( π ) \underset{\pi}{\operatorname{argmin}} V\left(\pi^{\mathrm{E}}\right)-V(\pi) πargmin?V(πE)?V(π)

为了反映状态行为对 ( s , a ) (s,a) (s,a) 的访问频率,令策略 π \pi π 对于状态 s s s 和行为 a a a 的状态动作访问分布表示为 d π ( s , a ) = ( 1 ? γ ) ∑ t = 0 T γ t P π ( s t = s , a t = a ) d^{\pi}(s,a)=(1-\gamma) \sum_{t=0}^{T} \gamma^{t} \mathbb{P}^\pi\left(s_{t}=s,a_t=a\right) dπ(s,a)=(1?γ)t=0T?γtPπ(st?=s,at?=a),其中 P π ( s t = s , a t = a ) \mathbb{P}^\pi\left(s_{t}=s,a_t=a\right) Pπ(st?=s,at?=a) 表示 t t t 时刻策略 π \pi π 对状态行为对 ( s , a ) (s,a) (s,a) 的访问概率。根据对偶分析,状态访问分布与值函数的联系为:
V ( π ) = 1 1 ? γ ∑ ( s , a ) ∈ S × A d π ( s , a ) r ( s , a ) V(\pi)=\frac{1}{1-\gamma} \sum_{(s, a) \in \mathcal{S} \times \mathcal{A}} d^{\pi}(s, a) r(s, a) V(π)=1?γ1?(s,a)S×A?dπ(s,a)r(s,a)
则当策略 π \pi π 的状态动作分布 d π d^\pi dπ 和专家策略的状态动作分布 d π E d^{\pi^E} dπE 距离很小时, V ( π E ) ? V ( π ) V\left(\pi^{\mathrm{E}}\right)-V(\pi) V(πE)?V(π) 也会很小,因此生成对抗式模仿学习试图通过最小化状态动作分布来求出专家策略:

min ? π ∈ Π ψ ( d π , d π E ) \min _{\pi \in \Pi} \psi\left(d^{\pi}, d^{\pi^{\mathrm{E}}}\right) πΠmin?ψ(dπ,dπE)

其中 ψ \psi ψ 是距离度量函数。

Generative Adversarial Imitation Learning (GAIL)

在生成对抗式模仿学习算法中,使用Jesen-Shannon距离进行度量,即:
min ? π ∈ Π D J S ( d π , d ^ π E ) \min _{\pi \in \Pi} D_{\mathrm{JS}}\left(d^{\pi}, \widehat{d}^{\pi^{\mathrm{E}}}\right) πΠmin?DJS?(dπ,d πE)
其中 h ^ π E \hat{h}^{\pi^E} h^πE 是专家的状态动作分布估计器,则该算法的目标与GAN类似:
min ? π ∈ Π max ? D : S × A → R E ( s , a ) ~ d ^ π E [ log ? ( D ( s , a ) ) ] + E ( s , a ) ~ d π [ log ? ( 1 ? D ( s , a ) ) ] \min _{\pi \in \Pi} \max _{D: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}} \mathbb{E}_{(s, a) \sim \widehat{d}^{\pi} \mathrm{E}}[\log (D(s, a))]+\mathbb{E}_{(s, a) \sim d^{\pi}}[\log (1-D(s, a))] πΠmin?D:S×ARmax?E(s,a)d πE?[log(D(s,a))]+E(s,a)dπ?[log(1?D(s,a))]
其中 D D D 是判别器,用于区分某个状态动作对 ( s , a ) (s,a) (s,a) 是由专家策略 π E \pi^E πE 还是模仿策略 π \pi π 产生,使用 Adam算法进行优化。

π \pi π 是生成器,目标是产生与专家数据相似度状态行为对,混淆判别器,使用 TRPO 等强化学习算法进行优化。

最后,根据因果熵理论,GAIL 使用 λ H ( π ) = E π [ ? log ? π ( s ∣ a ) ] \lambda H(\pi) = \mathbb{E}_\pi[-\log \pi(s|a)] λH(π)=Eπ?[?logπ(sa)] 作为正则化项对策略进行限制,使得到的策略唯一:
min ? π ∈ Π max ? D : S × A → R ( E ( s , a ) ~ d ^ π E [ log ? ( D ( s , a ) ) ] + E ( s , a ) ~ d π [ log ? ( 1 ? D ( s , a ) ) ] ) ? λ H ( π ) \min _{\pi \in \Pi} \max _{D: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}}\left( \mathbb{E}_{(s, a) \sim \widehat{d}^{\pi} \mathrm{E}}[\log (D(s, a))]+\mathbb{E}_{(s, a) \sim d^{\pi}}[\log (1-D(s, a))]\right) - \lambda H(\pi) πΠmin?D:S×ARmax?(E(s,a)d πE?[log(D(s,a))]+E(s,a)dπ?[log(1?D(s,a))])?λH(π)GAIL算法

Model-Agnostic Meta-Learning (MAML)

元学习上一种利用任务结构的相似性,使学习模型快速适应新环境的方法。与模型无关的元学习框架(MAML)通过二次梯度下降来获得一个较好的模型初始参数。具体来说是先让模型在多个子任务上进行梯度下降,然后利用这些梯度信息对原模型进行梯度下降。
MAM 更新

问题与方案

对于黑白棋问题,我们有 m m m 个各不同级别风格的玩家数据,即 D = { D E i } i = 1 m \mathcal{D} = \{\mathcal{D}^{E_i}\}_{i=1}^m D={DEi?}i=1m?,目的是求每个玩家在黑白棋环境下的累计期望回报 { V ( π E i ) } i = 1 m \{V(\pi^{E_i})\}_{i=1}^m {V(πEi?)}i=1m?。由于环境相同,因此假设每个玩家基本策略具有相似性,同时拥有相似的状态访问概率。

在元学习的框架下使用生成对抗模仿学习算法学习各个玩家的策略,先在多个 D E i \mathcal{D}^{E_i} DEi? 上使用 GAIL ,通过自博弈的方式采样数据,并获得策略 π E i \pi^{E_i} πEi? 的策略梯度和鉴别器 D i D_i Di? 的梯度,利用这些梯度信息更新元模型的策略 π m e t a \pi^{meta} πmeta 和鉴别器 D m e t a D^{meta} Dmeta 的梯度。训练完成后 π m e t a \pi^{meta} πmeta 只需要少量数据即可学习到 π E i \pi^{E_i} πEi?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-20 15:47:40  更:2021-09-20 15:49:22 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/22 10:11:23-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码