机器学习分类
从学习目标角度
主要差别在于机器学习模型输出的格式,以及如何衡量输出的准确程度
- 回归问题:模型的输出值一般是一个连续的标量(通常用模型输出与真值之间的最小平方误差来衡量模型的准确程度)
- 分类问题:模型的输出是一个或多个类别标签(通常使用0-1误差及其损失函数来衡量模型的准确程度)
- 排序问题:模型输出是一个经过排序的对象列表(通常用序对级别或列表级别的损失函数来衡量模型的准确程度)
- 有结构预测问题:具体问题具体分析,利用领域知识定义合适的输出格式和模型准确程度的判别准则
从训练数据特性角度
- 有监督学习:每个训练数据都拥有标签,在每个训练样本上都可以精准计算损失,并根据损失对模型进行优化
- 半监督学习:训练集里同时存在有标签数据和无标签数据。对无标签数据进行一些预处理(比如根据它们和有标签数据的相似性来预测其伪标签,或者计算它们彼此之间的相似性以获取对整个数据集分布的先验知识),然后利用他们协助原有的训练过程(比如把伪标签当作真实标签使用,或把数据集分布作为正则项来增强模型的泛化能力)
- 无监督学习:处理的数据全是无标签的。学习的目的是从数据中发掘关联规则,或利用数据在输入空间中的相互关系(相似性、距离、偏序关系)对数据进行聚类和影响力排序
- 弱监督学习:存在某种形式的奖励信号,该信号可以用于模型训练,但没有样本标签那么直接、完全、确切或者准确。学习的目标是寻找一个合适的动作选择策略,使产生的动作序列获得最优的累计奖励。
从模型复杂程度角度
- 线性模型:包括线性回归、逻辑回归、线性支持向量机等。这些模型可以通过核化进行非线性变换,从而获得更加强大的表达能力
- 非线性模型:包括决策树、深层神经网络(包括全连接神经网络、卷积神经网络、循环神经网络)。它们具有很强的表达能力,可以更好地拟合训练数据。
从模型的功能角度
- 生成模型:在学习中通常以最大化训练数据的似然为目的,关注的是输入样本的标签的联合概率分布。生成模型要学习的概率分布比较复杂,但适用场合很丰富,既可以用来完成分类任务,也可以实现概率密度估计或样本的随机生成。
- 判别模型:通常最大化的是条件似然,也就是关注在给定输入样本的前提下标签的条件概率。判别模型单刀直入,解决的事一个判别问题,不需要对联合分布做不必要的刻画,学习效率比较高,但适用场景也因此受到了一定程度的限制。
|