1.单任务学习VS多任务学习

1.单任务学习
一次只学习一个任务（task），大部分的机器学习任务都属于单任务学习。
2.多任务学习
把多个相关（related）的任务放在一起学习，同时学习多个任务。

多任务学习的提出

现在大多数机器学习任务都是单任务学习。对于复杂的问题，也可以分解为简单且相互独立的子问题来单独解决，然后再合并结果，得到最初复杂问题的结果。这样做看似合理，其实是不正确的，因为现实世界中很多问题不能分解为一个一个独立的子问题，即使可以分解，各个子问题之间也是相互关联的，通过一些共享因素或共享表示（share representation）联系在一起。把现实问题当做一个个独立的单任务处理，忽略了问题之间所富含的丰富的关联信息。多任务学习就是为了解决这个问题而诞生的。把多个相关（related）的任务（task）放在一起学习。这样做真的有效吗？答案是肯定的。多个任务之间共享一些因素，它们可以在学习过程中，共享它们所学到的信息，这是单任务学习所具备的。相关联的多任务学习比单任务学习能去的更好的泛化（generalization）效果。

多任务学习和单任务学习对比

图1 单任务学习与多任务学习对比
从图1中可以发现，单任务学习时，各个任务之间的模型空间（Trained Model）是相互独立的（图1上）。多任务学习时，多个任务之间的模型空间（Trained Model）是共享的（图1下）。

2.多任务学习

多任务学习（Multitask learning）定义：基于共享表示（shared representation），把多个相关的任务放在一起学习的一种机器学习方法。

多任务学习涉及多个相关的任务同时并行学习，梯度同时反向传播，多个任务通过底层的共享表示（shared representation）来互相帮助学习，提升泛化效果。简单来说：多任务学习把多个相关的任务放在一起学习（注意，一定要是相关的任务），学习过程（training）中通过一个在浅层的共享（shared representation）表示来互相分享、互相补充学习到的领域相关的信息（domain information），互相促进学习，提升泛化的效果。

共享表示shared representation：

共享表示的目的是为了提高泛化（improving generalization），图2中给出了多任务学习最简单的共享方式，多个任务在浅层共享参数。MTL中共享表示有两种方式：

（1）、基于参数的共享（Parameter based）：比如基于神经网络的MTL
在这里插入图片描述

（2）、基于约束的共享（regularization based）：比如均值，联合特征（Joint feature）学习（创建一个常见的特征集合）。
在这里插入图片描述

多任务学习的优点

1）、提高泛化能力，多人相关任务放在一起学习，有相关的部分，但也有不相关的部分。当学习一个任务（Main task）时，与该任务不相关的部分，在学习过程中相当于是噪声，因此，引入噪声可以提高学习的泛化（generalization）效果。

（2）、防止陷入局部最优，单任务学习时，梯度的反向传播倾向于陷入局部极小值。多任务学习中不同任务的局部极小值处于不同的位置，通过相互作用，可以帮助隐含层逃离局部极小值。

（3）、提高学习速率和效果，添加的任务可以改变权值更新的动态特性，可能使网络更适合多任务学习。

（4）、防止过拟合，多个任务在浅层共享表示，可能削弱了网络的能力，降低网络过拟合，提升了泛化效果。

（5）、学习能力提升，某些特征可能在主任务不好学习（比如只存在很高阶的相关性，或被其他因素抑制），但在辅助任务上好学习。可以通过辅助任务来学习这些特征

还有很多潜在的解释，为什么多任务并行学习可以提升学习效果（performance）。

那么如何衡量两个任务是否相关呢？

一些理论研究：

使用相同的特征做决策
相关的任务共享同一个最优假设空间（having the same inductive bias)
F-related: 如果两个任务的数据是通过一个固定分布经过一些变换得到
分类边界（parameter vectors）接近

任务是否相似不是非0即1的，越相似的任务，收益越大。l即使相关性不好的任务之间也能有所收益。

当任务之间相关性弱

当任务之间相关性较弱，使用上述方法可能导致negative transfer（也就是负向效果）。在此情景下，我们假设某些任务之间是相关的，但是某些任务之间是相关性较差。可以通过引入任务集合来约束模型。可以通过动态的约束不同任务的参数向量和降低他们的方差。限制不同模型趋向于不同的各自任务参数向量。

前面提到的某些特征在某些任务不好学，提出主任务和辅助任务概念，（NLP中主任务为情感预测，辅助任务为inputs是否包含积极或消极的词；）。辅助任务应该在一定程度上与主任务相关，利于主任务的学习。

多任务MLP特点总结

紧凑分布均匀的label的辅助任务更好（from POS in NLP）
主任务训练曲线更快平稳，辅助任务平稳慢（还未平稳）
不同任务尺度不一样，任务最优学习率可能不同
某个任务的输出可以作为某些任务的输入
某些任务的迭代周期不同，可能需要异步训练（后验信息；特征选择，特征衍生任务等）
整体loss函数可能被某些任务主导，需要整个周期对参数进行动态调整
「一个目标函数的多任务」：很多任务中把loss加到一起回传，实质优化的是一个目标函数, 但过程是多个任务，loss相加是多任务学习的一种正则策略

多任务学习与其他学习算法之间的关系

多任务学习（Multitask learning）是迁移学习算法的一种，迁移学习之前介绍过。定义一个一个源领域source domain和一个目标领域（target domain），在source domain学习，并把学习到的知识迁移到target domain，提升target domain的学习效果（performance）。归纳迁移

个人理解：归纳迁移的结果是归纳偏执它使得模型更偏向于那些稀疏的解，这样做会使得模型的泛化性能更好。

多标签学习（Multilabel learning）是多任务学习中的一种，建模多个label之间的相关性，同时对多个label进行建模，多个类别之间共享相同的数据/特征。

多类别学习（Multiclass learning）是多标签学习任务中的一种，对多个相互独立的类别（classes）进行建模。这几个学习之间的关系如图5所示：
图5 多任务学习与其他机器学习方法之间的关系