| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 离线强化学习(Offline RL)系列5: (模型参数) 离线强化学习中的超参数选择(Offline Hyperparameters Selection) -> 正文阅读 |
|
[人工智能]离线强化学习(Offline RL)系列5: (模型参数) 离线强化学习中的超参数选择(Offline Hyperparameters Selection) |
论文信息: Tom Le Paine, Cosmin Paduraru, Andrea Michi, Caglar Gulcehre, Konrad Zolna, Alexander Novikov, Ziyu Wang, Nando de Freitas: “Hyperparameter Selection for Offline Reinforcement Learning”, 2020; arXiv:2007.09055. 本文由DeepMind和Google合作,由Tom Le Paine以第一作者完成并被NeurIPS2021 接收为Accept (Poster),评审意见是:The manuscript examines the question of how to improve policy selection in the off-line RL setting. Typically offline policy selection is approached via off-policy evaluation (OPE), aimed at estimating the expected return of candidate policies. OPE is itself a difficult problem that typical requires hyperparameter tuning and selection itself. The paper develops moves closer to a hyperparameter-free method and demonstrates the effectiveness of the algorithm in the context of standardized offline datasets (e.g. RLUnplugged for Atari). The algorithm for policy selection is built using insights from the recently published Batch Value-Function Tournament (BVFT) approach to estimating the best value function from among a set of candidates. They make comparisons to well developed OPE style methods such as fitted Q-evaluation and show clear advantages in data efficiency and the policy selection. The manuscript examines applying the approach to a wide range of settings (from Atari to continuous control) and to a range of policies produced by a variety of algorithms. The ideas, theory, and experiments are well motivated by the text. Taken together, the manuscript provides a promising look at a fundamental and open problem in RL.
1. 问题描述1.1 监督学习超参数选择与调优在监督学习中,常见的学习率、网络结构等超参数对模型的收敛都有非常大的影响,Google了一下,在监督学习领域目前比较常见的叫法不是hyperparameter selection, 普遍是hyperparameter tuning/optimization, 典型的优化过程定义了可能的超参数集以及针对该特定问题要最大化或最小化的度量, 实践中遵循以下步骤: (1)将数据集拆分为训练和测试子集
(3)比较所有度量值并选择产生最佳度量值的超参数集 而常见的方法主要包括以下四种
比如针对函数
f
(
x
)
=
s
i
n
(
x
/
2
)
+
0.5
?
s
i
n
(
2
?
x
)
+
0.25
?
c
o
s
(
4.5
?
x
)
f(x) = sin(x/2) + 0.5?sin(2?x) +0.25?cos(4.5?x)
f(x)=sin(x/2)+0.5?sin(2?x)+0.25?cos(4.5?x) 问题,求解过程如图: 上述方法各有区别,各有特点,搜索空间大的耗时耗算力,但准确,因此都是一个tradeoff问题,同时目前有很多超参数调试工具(AutoML技术、 Optuna工具等)可以解决问题。 1.2 强化学习超参数选择与调优这一块的工作目相对不太多,其中A3C算法中提到了针对learning rate的网格搜索。 另外一个比较扎实的工作就是由Peter Henderson发表的Deep Reinforcement Learning that Matters, 详细分析了不同超参数对算法效率的影响,但具体的也没谈多少关于超参的选择。 1.3 OPE(off-policy & Offline Evaluation)方法在离线强化学习中,函数优化的目标被定义为最小化
M
S
E
(
V
)
MSE(V)
MSE(V) 过程,表示为: 图中很明确的指出了off-policy E和offline policy E的区别,off-policy是从一个policy中找到最有的 π ? \pi^{*} π? , 而offline中则是从 n n n 中找到一个最优的 π ? \pi^{*} π? 此外, off-policy evaluation通常包括Inverse Propensity Scoring (IPS) Methods、Doubly-Robust Methods (DRM)、Direct Methods (DM)三种方法,如图所示: 2. Offline Rl 超参数选择方法在解释具体的算法之前,首先阐述一下两个概念:
2.1 超参数选择原理我们从图中可以看到online和offline hyperparameter的区别,offline不像online那样可以直接在智能体中调整超参数,而是多了一条黑线,问题可以简化为下面的如何从策略空间中找到一个最有策略,使得 ∫ s ∈ S 0 V π ^ ( s , D ) d s \int_{s \in S_{0}} \hat{V^{\pi}}(s, \mathcal{D}) d s ∫s∈S0??Vπ^(s,D)ds 最大化。 本质就是不断地去policy optimization使得policy evaluation最佳。 2.2 Offline Statistics for Policy Ranking2.2.1 OHS流程
作者通过计算基于评论家
Q
θ
Q_{\theta}
Qθ? 和数据集
D
D
D 的统计量来计算标量值,以便对策略进行排序,主要通过以下两种方式: 2.2.2 OPE质量2.3 评估OHS的指标
2.4 FQE(Fitted Q Evaluation)算法2.4.1 原理
2.4.2 实验环境本文作者在DM Control Suite、Manipulation tasks和DM Locomotion环境上进行实验。 2.4.3 实验对比算法2.4.4 代码实践3. 实验及结果分析3.1 过估计(Overestimation)作者发现一个明显的高估趋势——statistics对D4PG的估计最多,其次是CRR,其次是BC。且BC和CRR试图产生类似于行为策略的策略,而D4PG则没有。这可能会更容易估计它们生成的策略的价值。在任务领域方面,statistics往往对DM运动的估计最多,其次是Manipulation,其次是DM控制套件。 3.2 排名质量(Ranking Quality)
3.3 FQE 对其自身超参数的敏感性( FQE Sensitivity to Its Own Hyperparameters)参考文献[1]. Tom Le Paine, Cosmin Paduraru, Andrea Michi, Caglar Gulcehre, Konrad Zolna, Alexander Novikov, Ziyu Wang, Nando de Freitas: “Hyperparameter Selection for Offline Reinforcement Learning”, 2020; arXiv:2007.09055. OfflineRL推荐阅读离线强化学习(Offline RL)系列4:(数据集) 经验样本复杂度(Sample Complexity)对模型收敛的影响分析 |
|
|
上一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 7:41:04- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |