学习内容:统计学习分类
监督学习:
概述:从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。 本质:学习输入到输出的映射的统计规律
输入空间、特征空间和输出空间
输入空间与输出空间可以是有限的元素集合,也可以是不同的空间但。但通常输出空间远远小于输入空间。
- 实例:每个具体输入。通常由特征向量(feature vector)表示
- 特征空间: 所有特征向量存在的空间(每一个维度对应一个特征)这里可以想象成数据的(列)
字母表示
-
X
X
X:输入变量
-
Y
Y
Y:输出变量
-
x
x
x :输入变量的取值 记作:
x
=
(
x
(
1
)
,
x
(
2
)
,
?
?
,
x
(
i
)
,
?
?
,
x
(
n
)
)
T
x = \left(x^{(1)}, x^{(2)}, \cdots, x^{(i)}, \cdots, x^{(n)}\right)^{\mathrm{T}}
x=(x(1),x(2),?,x(i),?,x(n))T
x
(
i
)
x^{(i)}
x(i)表示
x
x
x的第
i
i
i个特征 注:
x
(
i
)
x^{(i)}
x(i)与
x
i
x_{i}
xi?不同,常用
x
i
x_{i}
xi?表示多个输入变量中第
i
i
i个变量 即:
x
i
=
(
x
i
(
1
)
,
x
i
(
2
)
,
?
?
,
x
i
(
n
)
)
T
x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}
xi?=(xi(1)?,xi(2)?,?,xi(n)?)T - 训练集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
?
?
,
(
x
N
,
y
N
)
}
T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}
T={(x1?,y1?),(x2?,y2?),?,(xN?,yN?)} - 输入与输出变量均为连续的预测问题称为:回归问题
- 输出变量为有限个离散变量的预测问题称为:分类问题
- 输入与输出变量均为变量序列的预测问题称为:标注问题
监督学习形式化
- 标注训练数据集往往是由人工给出
1.通过给定数据集进行训练得到一个模型 2.预测系统对于给定的测试集样本中被输入
x
N
+
1
x_{N+1}
xN+1? 3.由模型
y
N
+
1
y_{N+1}
yN+1?给出对应的输出值
无监督学习
概述:从无标注的数据中学习预测模型的机器学习问题。预测模型表示数据的类别、转换或概率。
- 本质:学习数据中的统计规律或者潜在结构
- 无标注数据:自然得到的数据
在这里可以简单想象一下模型的预测结果是没有数据进行对照的。
按模型分类
- 概率模型与非概率模型
监督学习中概率模型是生成模型,非概率模型是判别模型 - 线性模型与非线性模型
- 参数化与非参数化模型
参数化模型假设模型参数维度固定,模型可以由有限的参数完全刻画 非参数模型维度不固定
按算法分类
按技巧分类
|