统计学习概述
前言
随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
1.1、统计学习
1.统计学习的特点 统计学习:计算机基于数据来构建概率统计模型并用模型对未知的数据进行预测与分析。
2.统计学习的对象 统计学习的对象是数据,它从数据出发,提取数据中的特征,抽象出数据的模型,发现数据的知识,又对新的数据去预测和分析。 统计学习关于数据的基本假设是数据具有一定的统计规律性。
3.统计学习的目的 统计学习的目的是对数据进行预测和分析。 它是怎么实现的呢? 对数据的预测和分析是通过构建概率统计模型实现的。统计学习的总目标就是学习什么样的模型以及如何去学习模型,以使这个模型能对数据进行预测和分析,并且还要考虑到它的学习效率。
4.统计学习的方法 什么叫做方法?在我的理解中方法就是你去实现这个目标的过程、步骤或思维。 统计学习的方法是在数据的基础上构建一个概率统计模型并运用这个模型对数据进行预测和分析。 统计学习方法的步骤如下: (1)得到一个有限的训练数据集合; (2)确定包含所有可能的模型的假设空间,即学习模型的集合; (3)确定模型选择的准则,即学习的策略; (4)实现求解最优模型的算法,即学习的算法; (5)通过学习方法选择最优模型; (6)通过模型对数据进行预测和分析;
1.2 统计学习的分类
1.2.1 基本分类
1.监督学习 监督学习是指在有标注的数据中学习预测模型的机器学习问题。 标注数据表示的是输入与输出的对应关系,预测模型对给定的输入产生相对应的输出。 监督学习的本质是学习输入到输出的映射的概率统计规律。 在监督学习中,假设训练数据与测试数据是独立同分布产生的。
输入空间:所有输入可能取值的集合。 输出空间:所有输出可能取值的集合。 特征空间:每个输入都是一个实例,由特征向量组成,所有特征向量的集合就是特征空间 假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。 模型实际上都是定义在特征空间上的。 假设空间:模型属于输入到输出的映射的集合。
2.无监督学习 无监督学习是指从未标注的数据中学习预测模型的问题 无监督学习的本质是学习数据中的统计规律或潜在结构 3.强化学习
1.2.2 按模型分类
1.概率模型与非概率模型 在监督学习中,概率模型取条件概率分布形式P(y|x),非概率模型取函数形式为y=f(x),其中x是输入,y是输出。概率模型是生成模型,非概率模型是判别模型。 常见的非概率模型有:感知机、支持向量机、k近邻、AdaBoost、k均值等。 概率模型有:决策树、朴素贝叶斯、隐马尔可夫、条件随机场、概率潜在语义分析等。
2.线性模型与非线性模型 线性模型:感知机、线性支持向量机、k近邻、k均值等。 非线性模型:AdaBoost、神经网络、核函数支持向量机。
3.参数模型与非参数模型
1.3 统计学习方法三要素
方法=模型+策略+算法
1.3.1 模型
统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包括了所有可能的决策函数或条件概率分布。例如决策函数是输入变量的线性函数,那么模型的假设空间就是所有线性函数构成的函数集合。
假设空间用F表示。假设空间可以定义为决策函数的集合: 其中X,Y是定义在输入空间和输出空间上的变量。这时F通常由一个参数向量决定的函数族: 参数向量
Θ
\Theta
Θ取值于n维空间
R
n
R^n
Rn,称为参数空间。
假设空间也可以定义为条件概率的集合: 它的参数空间为: 参数向量
Θ
\Theta
Θ取值于n维空间
R
n
R^n
Rn,称为参数空间。
1.3.2 策略
统计学习方法想好了学习什么样的模型,就该去想如何去学习模型了,是以怎样一个准则去学习最优的模型。 这里就要引入两个概念了,损失函数和风险函数。 损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。 1.损失函数 监督学习问题是在假设空间
F
F
F中选取模型
f
f
f作为决策函数,给定输入X 就会由
f
(
x
)
f(x)
f(x)给出相对应的输出Y,这个预测输出值
f
(
x
)
f(x)
f(x)与真实值Y可能相同也可能不相同,它们之间的差值的绝对值就表示模型预测错误的程度。损失函数是非负实值函数,记作
L
(
Y
,
f
(
X
)
)
L(Y,f(X))
L(Y,f(X)). 常用的损失函数有:
(1)0-1损失函数: (2)平方损失函数: (3) 对数损失函数 (4)对数损失函数: 损失函数值越小,模型就越好。
给定一个数据集T=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
?
(
x
n
,
y
n
)
}
\left \{ (x_{1},y_{1}),(x_{2},y_{2}),\cdots (x_{n},y_{n}) \right \}
{(x1?,y1?),(x2?,y2?),?(xn?,yn?)} 模型关于训练集T的经验风险为:
经验风险是模型关于训练数据集的平均损失。 经验风险可能会给模型带来过拟合的问题
结构风险:
J
(
f
)
J(f)
J(f)为模型的复杂度,
λ
?
0
\lambda \geqslant0
λ?0是系数,用来权衡经验风险和模型复杂度。 结构风险相对于经验风险来说加入一个正则化项,可以防止模型过拟合,结构风险小的模型往往对训练数据和未知数据都有较好的预测。
经验风险最小化策略认为经验风险最小的模型是最优的模型,结构风险最小化策略认为结构风险最小的模型是最优模型。
1.3.2 算法
算法就是你用什么计算方法去求解最优模型
|