Machine Learning Handbook
video+book:
-
吴恩达老师 ML视频课 -
《Neural Networks and Deep Learning》(US)Michael Nielsen 中文版地址 -
datawhale pumpkin-book
0 机器学习是什么?
- 类人角度:机器学习使得计算机在没有明确程序指令的情况下,自主学习某项技能的能力
- 算法角度:机器学习就是计算机在面对一个通过测试性能P,可以积累经验E,从而提高性能P,最终达到某一标准Pstandard , 最终完成任务T的过程
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3oeVBdHB-1629209894007)(D:\MachineL\MachineL_Foundation\1 week\images\机器学习简介.png)]
0.1.1 Supervised Learning (监督学习)
特点:
- 已知样本结果, 即label , 样本格式:
{
(
x
1
(
i
)
,
.
.
.
,
x
n
(
i
)
)
,
y
(
i
)
}
\lbrace(x_1^{(i)},...,x_n^{(i)}),y^{(i)}\rbrace
{(x1(i)?,...,xn(i)?),y(i)}
- n 为样本维数,即特征数量
- 找到输入空间X到输出空间Y的映射f
0.1.2 Regression 回归问题
预测:连续值
如:从1000个已知房价的房屋信息中,总结出房价和房子面积的连续函数关系
P
r
i
c
e
(
A
r
e
a
)
Price(Area)
Price(Area),从而预测一个新房子的价格
T:预测一个新房子的价格Price
E:总结Price(Area)函数
P:预测1000个已知真实房价的房屋的虚拟房价,虚拟房价和真实房价的误差
0.1.3 classification 分类问题
预测:离散值
如从1000个已知肿瘤结果的样本中,总结出肿瘤大小和肿瘤结果的离散函数关系
R
e
s
u
l
t
(
s
i
z
e
)
Result(size)
Result(size),从而预测一个新肿瘤样本的结果
T:预测一个新肿瘤样本的结果
E:总结Result(size)函数
P:预测1000个已知诊断结果的样本的虚拟结果,虚拟结果和真实结果的误差
0.2 Unsupervised Learning (无监督学习)
特点:未知样本结果
0.2.1 clustering聚类问题
如:谷歌新闻分类
T:把关联的新闻分到不同的组
E:类型函数Type
P:
如:录音分离问题
有两个同时数1~10且分别用英语的人A和法语的人B,在A面前放microphone 1 记录下录音 microphone 1#,在B面前放microphone 2 记录下录音 microphone 2#. microphone 1# 和 microphone 2#中都是A、B混杂的声音,但是A、B声音分贝明显不同,想要得到只有英语和法语的两个录音output 1# 和output 2#
T:把混合录音根据语言拆分
E:SVD算法(内置Octave中)
P:录音中只有一种语言且内容完整
学习算法
学习算法可理解为在假设空间H内找version space的算法
特点:
-
有一定的归纳偏好,比如version space内有
h
(
θ
1
,
x
)
h(\theta_1,x)
h(θ1?,x)和
h
(
θ
2
,
x
)
h(\theta_2,x)
h(θ2?,x), 但算法只找到了
h
(
θ
1
,
x
)
h(\theta_1,x)
h(θ1?,x) -
version space内不同的h 的泛化能力不同,即对于训练集之外的数据预测准确性不同
黑点为训练集数据,白点为测试集数据,左图
h
A
h_A
hA?优于
h
B
h_B
hB?, 右图
h
B
h_B
hB?优于
h
A
h_A
hA?,
注解:
- version space: 基于训练集的假设空间H内,对于训练集中任意
(
x
(
i
)
,
y
(
i
)
)
(x^{(i)}, y^{(i)})
(x(i),y(i)), 假设
h
(
θ
,
x
(
i
)
)
=
y
(
i
)
h(\theta,x^{(i)})=y^{(i)}
h(θ,x(i))=y(i),
θ
\theta
θ为模型参数, 则所有
h
(
θ
,
x
)
h(\theta, x)
h(θ,x) 组成version space
相关学术会议和期刊
|