第一节课(Overview)
本系列文章记录在大学里面学习的Foundation of Machine Learning课程,自己的经验和理解。
一、机器学习
机器学习是一种数据驱动模型。流程如下:
数据Data: 有监督学习supervised Learning: 数据
x
n
x_n
xn?,目标target:
t
n
t_n
tn?,一共N个记录在数据集里面。 无监督学习unsupervised Learning: 数据
X
n
X_n
Xn?,没有目标。需要自己聚类,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。
函数迫近(Function Approximator数据x和target之间的关系):
t
=
f
(
x
,
θ
)
+
v
t = f(x,\theta) +v
t=f(x,θ)+v。这个function被parameterized by some parameter. 所以
θ
\theta
θ是参数。然后
v
v
v是noise噪声。
参数估计(Parameter Estimation): 想得到最好的parameter。那就等误差最小的时候.误差:
E
0
=
∑
n
=
1
N
(
∣
∣
t
n
?
f
(
x
n
,
θ
)
∣
∣
)
2
E_0 = \sum_{n=1}^N(||t_n-f(x_n,\theta)||)^2
E0?=n=1∑N?(∣∣tn??f(xn?,θ)∣∣)2.
预测prediction:
t
^
N
+
1
=
f
(
x
N
+
1
,
θ
^
)
\hat{t}_{N+1}=f(x_{N+1},\hat{\theta})
t^N+1?=f(xN+1?,θ^). hat符号表示预测值。意思讲的是用建立好的模型去预测unseen value。
正则化Regularization: 在简历模型的时候,你给我有限的data,那设计一个非常复杂的模型去fit这些data perfectly。Error 可以变成0.但这样不利于预测。其实这些function不一定要非常复杂。
E
1
=
∑
n
=
1
N
(
∣
∣
t
n
?
f
(
x
)
∣
∣
)
2
+
r
(
∣
∣
θ
∣
∣
)
E_1=\sum_{n=1}^N(||t_n-f(x)||)^2+r(||\theta||)
E1?=n=1∑N?(∣∣tn??f(x)∣∣)2+r(∣∣θ∣∣) r是在参数上的惩罚项。以此来控制负责度。有时候,关于data有一些先验知识(prior knowledge).r就是注入这些知识在fitting process。
模型不确定(Model uncertainty): 预测的不准确性。捕获不准确,不是知道一些特定的值,而是了解参数的概率分布。
p
(
θ
∣
(
x
n
,
t
n
)
n
=
1
N
)
p(\theta| (x_n,t_n)_{n=1}^N)
p(θ∣(xn?,tn?)n=1N?)。
概率推理Probabilistic Inference:
E
[
g
(
θ
)
]
=
∫
g
(
θ
)
p
(
θ
)
d
θ
=
1
N
s
∑
n
=
1
N
s
g
(
θ
(
n
)
)
E[g(\theta)]=\int g(\theta)p(\theta)d\theta = \frac{1}{N_s} \sum_{n=1}^{N_s}g(\theta^{(n)})
E[g(θ)]=∫g(θ)p(θ)dθ=Ns?1?n=1∑Ns??g(θ(n))
序列估计Sequential Estimation:
θ
(
n
?
1
∣
n
?
1
)
?
>
θ
(
n
∣
n
?
1
)
?
>
θ
(
n
∣
n
)
\theta(n-1|n-1) ->\theta(n|n-1)-> \theta(n|n)
θ(n?1∣n?1)?>θ(n∣n?1)?>θ(n∣n)
总结
总体来说是机器学习的流程。
|