【这是我第一次阅读统计学习方法这本书,就目前的情况来看由于知识储备的限制我这一次可能只能止步于理解而难以撑得过进一步追问,希望我在数理和编程能力上去之后会变的好一些吧】 【原本想把第一章全部写在一篇里,但是上次写数字设计的第一章也是抱着这种想法结果写了一万多字实在是望而生畏很打击积极性,所以这篇就写第一章的第一二小节(九月27日)】
一、统计学习
1.1
- 学习:
如果一个系统能够执行某个过程,改进它的性能,这就是学习; - 统计学习(statistical learning ):
利用计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析; - 统计学习概述:
从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同步产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则(evaluation criterion),从假设空间(hypothesis space)中选出一个最优模型,使它对已知的训练数据(training data)和未知的测试数据(test data)在给定的评价准则下有最优的预测;最优模型选取由算法实现。 这样,统计学习方法包括模型的假设空间,模型选择的准则,以及模型学习的算法;简称为模型(model),策略(strategy),算法(algorithm)。
1.2
- 数据:
前提:假设同类数据具有一定的统计规律; 分类:数据以变量或者变量组表示,分为连续变量和离散变量;本书讨论离散变量为主; PS:本书对数据的收集和观测不做讨论; - 统计学习的目的:
构建概率统计模型来实现数据的预测和分析;
1.3
实现统计学习的步骤:
- 得到一个有限的训练数据集合;
- 确定包含所有可能的模型的假设空间,即学习模型的集合;
- 确定模型选择的准则,即学习的策略;
- 实现求解最优模型的算法,即学习的算法;
- 通过学习方法选择最优模型;
- 利用学习的最优模型对新数据进行预测或者分析;
【让我觉得有点意外的是,假设空间竟然是第二步就要确定的,不是很懂怎么在第二步就确定所有方法的集合】
二、统计学习的分类
2.1:分类
监督学习、无监督学习、强化学习; 以及半监督学习,主动学习;
2.2:监督学习
定义:从标注数据中学习预测模型的机器学习问题;
- 标注数据:表示输入与输出关系的数据;
- 预测模型:对给定的输入产生相应的输出;
- 学习本质:学习输入到输出的映射关系;
空间:输入空间,特征空间,输出空间;
- 输入空间:输入的集合;
- 特征空间:每个输入都是一个实例,通常表示为特征向量;则特征向量的集合为特征空间;模型实际定义在特征空间上;
- 输出空间:输出的集合;
- 输入变量记作X,输出变量记作Y;输入变量取值记作x,输出变量记作y;
- 输入格式:xi=(xi(1),xi(2),……xi(n))T,下标为变量序号,上标为变量特征序号;
- 训练集:T={(x1,y1),(x2,y2),……(xN,yN)};
联合概率分布:P(X,Y)
- P(X,Y):分布函数/分布密度函数;
- 监督学习关于数据的基本假设:数据具有一定的统计规律,X与Y具有联合概率分布;
假设空间: 监督学习的目的在于学习从输入到输出的映射,这一映射的体现形式为模型,即学习的目的就是找到最好的模型; 此模型属于输入空间到输出空间的映射的集合,这个集合就是假设空间; 此模型可以为概率模型或者非概率模型; 概率模型:P(X|Y); 非概率模型:Y=F(X);
注意监督学习是有学习和预测两个过程的;
【写的都快断气了……还是感觉自己快把整本书搬上来了,可能是这本书我新学的东西太多了吧;而且有的概念不打打也不是很清楚;这一段还是留下了不少疑问,不过本来就只是一个概论,所以唯一值得提问的大概就是利用概率模型预测那里yN+1=
a
r
g
m
a
x
y
\underset {y}{arg max}
yargmax?
P
^
\widehat{P}
P
(
y
∣
x
N
+
1
)
(y|x_{N+1})
(y∣xN+1?)是个什么玩意,查了查好像是概率中的某种取值手段,但是……不懂怎么算;还有就是我忘记联合概率分布是怎么一回事了;先去写点别的了,日期已经改了两遍了,期待今天能把这篇写完。(九月二十五日)】
2.3:无监督学习
定义: 从无标注数据中学习预测模型;
- 无标注数据: 自然得到的数据;
- 预测模型: 数据的类型,转换或概率;
- 无监督本质: 学习数据中的潜在规律或者结构
- 【在我的理解中是在给数据分类或者来一个高一层次的抽象】
输入空间、输出空间、假设空间等不再多说; 隐式结构空间:
Z
Z
Z; 学习函数或者条件概率分布; 对数据进行聚类或者降维;
2.4:强化学习
【这一段看的是异常的艰难(比昨天锻炼时连续好几组释手俯卧撑难多了),就是每个名词我都看不懂它是什么意思,在大脑的处理器里属于是“暂存在问题区域”的状态,然后名词组到一起就更加看不懂了,问题组成的问题组成的问题……情不自禁想要骂街;但是骂街解决不了问题,痛定思痛之下我决定尽量简化的把原文中的重点突出出来然后挨个挨个提出自己的问题】
强化学习:智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。 假设智能系统与环境的互动基于马尔科夫决策过程,智能系统观测到的是与环境互动得到的数据序列。 强化学习的本质是学习最优的序贯决策。
智能系统与环境的互动如图1.3所示: 每一步t: 智能系统: 从环境中观测到:一个状态(state)st,一个奖励(reward)rt, 反应:采取一个动作(action)at。 环境: 根据采取的动作决定下一步t+1的状态st+1与奖励rt+1。
要学习的策略表示为给定的状态下采取的动作。 智能系统的目标不是短期奖励的最大化,而是长期积累奖励的最大化。强化学习过程中,系统不断试错,以达到学习最优策略的目的。
【目前存在的名词还不太懂的有,环境,马尔科夫决策,状态,奖励】
马尔科夫过程: 状态、奖励、动作序列上的随机过程,由五元组{
S
S
S,
A
A
A,
P
P
P,
r
r
r,
γ
\gamma
γ}组成。
-
S
S
S:有限状态(state)的集合;
-
A
A
A:有限动作(action)的集合;
-
P
P
P:状态转移概率函数:
P
(
s
′
∣
s
,
a
)
=
P
(
s
t
+
1
=
s
′
∣
s
t
=
s
,
a
t
=
a
)
P(s'|s,a)=P(s_{t+1}=s'|s_t=s,a_t=a)
P(s′∣s,a)=P(st+1?=s′∣st?=s,at?=a) -
r
r
r:奖励函数:
r
(
s
,
a
)
=
E
(
r
t
+
1
∣
s
t
=
s
,
a
t
=
a
)
r(s,a)=E(r_{t+1}|s_t=s,a_t=a)
r(s,a)=E(rt+1?∣st?=s,at?=a) -
γ
\gamma
γ:衰减系数:
γ
\gamma
γ
∈
[
0
,
1
]
\in[0,1]
∈[0,1]
马尔可夫决策过程具有马尔可夫性,下一个状态仅仅依赖于前一个状态与动作,由状态转移概率函数
P
(
s
′
∣
s
,
a
)
P(s'|s,a)
P(s′∣s,a)表示。下一个奖励依赖于前一个状态与动作,由奖励函数
r
(
s
,
a
)
r(s,a)
r(s,a)表示。
策略
π
π
π定义为给定状态下的动作的函数
a
=
f
(
s
)
a=f(s)
a=f(s)或者条件概率函数
P
(
a
∣
s
)
P(a|s)
P(a∣s)。 当策略
π
π
π给定时,智能系统与环境互动的行为就已经确定(广义上的确定,或是确定性的或是随机性的);
价值函数(value function)或状态价值函数(state value function)定义为策略
π
π
π从某一种状态
s
s
s开始的长期积累奖励的数学期望:
u
π
(
s
)
=
E
π
u_π(s)=E_π
uπ?(s)=Eπ?
[
r
t
+
1
+
[r_{t+1}+
[rt+1?+
γ
\gamma
γ
r
t
+
2
+
r_{t+2}+
rt+2?+
γ
2
{\gamma}^2
γ2
r
t
+
3
+
…
…
∣
s
t
=
s
]
r_{t+3}+……|s_t=s]
rt+3?+……∣st?=s]
动作价值函数(action value function)定义为策略
π
π
π的从某一个状态
s
s
s和动作
a
a
a开始的长期积累奖励的数学期望:
q
π
(
s
,
a
)
=
E
π
q_π(s,a)=E_π
qπ?(s,a)=Eπ?
[
r
t
+
1
+
[r_{t+1}+
[rt+1?+
γ
\gamma
γ
r
t
+
2
+
r_{t+2}+
rt+2?+
γ
2
{\gamma}^2
γ2
r
t
+
3
+
…
…
∣
s
t
=
s
,
a
t
=
a
]
r_{t+3}+……|s_t=s,a_t=a]
rt+3?+……∣st?=s,at?=a]
强化函数的目标就是在所有的可能的策略中选出价值函数最大的策略
π
?
π^*
π?,而在实际的学习中往往从具体的策略出发,不断优化已有策略。此处
γ
\gamma
γ表示未来的奖励会有衰减。
强化学习的分类:
- 无模型的:基于策略的,基于价值的;
- 有模型的:直接学习马尔科夫决策过程的模型,包括转移概率函数或者奖励函数。这样可以通过模型对环境的反馈进行预测,求出价值函数最大的策略
π
?
π^*
π?;
总的来说自己打了一遍虽然很花时间但是对于理解的好处还是很大的,更多地细节明天会在修改中给出,作为一个合(hua)格(shui)的程序员,现在应该把勉强能用的第一版上线了。
2.5:其他种类的学习
半监督学习(偏向于无监督); 主动学习(自己给出数据进行标注);
|