1.
o
t
o_t
ot?与
s
t
s_t
st?的区别:state一般视作马尔科夫状态,而observation则result from state。使用state一般要求更为严格。一般来讲,observation更为低层,如图像;state则可以是抽象的更上一层,例如图像中的实体状态。 “States are the true configuration of the system, and the observation is something results from that state which may or may not be enough to deduce the state.”
这里其实很像隐马尔科夫(HMM)了。 最关键的在于,observation一般不满足马尔科夫性质;而state可以结合pre observation,使之能够包含之前的信息,从而满足马尔科夫性质。这里感觉和RNN很像了。 2.Imitation Learning 2.1 Behavior Cloning
这种方法的问题在于,直接对observation到action进行了监督学习,而由observation到state往往是有误差的,但这种方法并几乎没有考虑到pre observation的前后关系,从而使误差扩大,在实际的trojectory中,最终得到较大误差。忽略时序关系导致了误差扩大。但其实有时每一步的observation很可能也与pre action相关,而pre action与pre observation相关,这从某种程度上是修正了误差。 2.2 误差产生的本质原因 通常
p
d
a
t
a
(
o
t
)
≠
p
π
θ
(
o
t
)
p_{data}(o_t) \neq p_{\pi_{\theta}}(o_t)
pdata?(ot?)?=pπθ??(ot?) distributional shift 使用数据集增强(DAgger, Dataset Aggregation)
2.3 马尔科夫性质的重要性 从本质上来说,它降低了模型结果的随机性,使用了关键性的假设,使结果趋近于确定。感觉从本质上看,是使用更广泛的信息,增强了数据预测的确定性。 2.4 问题所在 非马尔科夫性,这个可以通过RNN来解决。 2.5 casual confusion 有时而外的信息会使因果分析更为confusion,反而不利于策略推断。 2.6 多模型的混合可能会带来一定的误差。 2.6.1 高斯混合模型 2.6.2 隐变量模型 2.6.3 Autogressive discretization 类似action分解搜索 3.模仿学习的另一问题在于数据 人类难以给出大量的最优的数据供模型训练。 既然如此,agent能否具有自主得到最优解数据的能力。
4.模仿学习如果发生distributional shift,则误差是
O
(
?
T
2
)
O(\epsilon T^2)
O(?T2)的。 5.Goal-conditioned behavioral cloning
|