1.参数模型
参数模型(parametric models)与非参数模型(Nonparametric models)的主要区别在于:对于数据分布的假设不同。 参数模型对于数据分布(data distribution)是有假设的,而非参数模型对于数据分布是假设自由的(distribution free)。因此,所谓参数模型与非参数模型中的参数,是指数据分布的参数。
常见的参数模型包括: 逻辑回归 线性回归 其中,逻辑回归我们假设一个样本数据符合伯努利分布,而线性回归我们假设响应变量是服从正态分布的。
根据上面的介绍,很容易看出来参数模型有如下优点: 1.简单明了,具有较强的可解释性,实际上工程中常用的逻辑回归很重要的一个优点就是可解释性强。 2.训练速度快。因为我们已经假设了数据分布的参数,因此参数学习与训练过程都会比较快。 3.需要的数据量小:只需要比较少的样本就能对数据拟合做得比较好。
2.非参数模型
与参数模型相比,自然非参数模型就是对数据分布的参数不做假设。 像我们常用的树模型,naive bayes, svm等,都是非参数模型。
因为非参数模型不对目标函数做假设,或者假设很小,所以模型的表达能力会比较强。而且由于模型形式的局限性比较小,所以对数据有更良好的拟合性。但同样缺点也比较明显,往往需要更多的数据量,而且训练速度慢,同时有比较高的可能发生overfitting。
3.生成模型与判别模型
对于观测变量X与目标变量Y,判别模型是给定观测变量X只有Y的条件概率分布,即P(Y|X=x);而生成模型是获取X与Y的联合概率分布P(X, Y)。 图片来自网络
对于判别模型来说,是求P(Y|X)。比如我们常见的LR,SVM等算法,都是判别模型。当输入X确定以后,输出Y就可以确定。 而生成模型的典型例子是Naive Bayes。贝叶斯公式的基本推导过程就是由联合概率公式而来:
p
(
x
,
y
)
=
p
(
x
)
?
p
(
y
∣
x
)
=
p
(
y
)
?
p
(
x
∣
y
)
p(x, y) = p(x) \cdot p(y|x) = p(y) \cdot p(x|y)
p(x,y)=p(x)?p(y∣x)=p(y)?p(x∣y)
比如我们用贝叶斯进行分类,最核心的其实就是算出联合概率p(x,y)再去反推后验概率p(y|x)。 像隐马尔可夫模型HMM也是常见的生成模型。
|