IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【统计学习方法】2021-10-01-统计学习方法学习记录(一)(统计学习与监督学习概论【1】)) -> 正文阅读

[人工智能]【统计学习方法】2021-10-01-统计学习方法学习记录(一)(统计学习与监督学习概论【1】))

【这是我第一次阅读统计学习方法这本书,就目前的情况来看由于知识储备的限制我这一次可能只能止步于理解而难以撑得过进一步追问,希望我在数理和编程能力上去之后会变的好一些吧】
【原本想把第一章全部写在一篇里,但是上次写数字设计的第一章也是抱着这种想法结果写了一万多字实在是望而生畏很打击积极性,所以这篇就写第一章的第一二小节(九月27日)】

一、统计学习

1.1

  1. 学习:
    如果一个系统能够执行某个过程,改进它的性能,这就是学习;
  2. 统计学习(statistical learning ):
    利用计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析
  3. 统计学习概述:
    从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同步产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则(evaluation criterion),从假设空间(hypothesis space)中选出一个最优模型,使它对已知的训练数据(training data)和未知的测试数据(test data)在给定的评价准则下有最优的预测;最优模型选取由算法实现。
    这样,统计学习方法包括模型的假设空间,模型选择的准则,以及模型学习的算法;简称为模型(model),策略(strategy),算法(algorithm)。

1.2

  1. 数据:
    前提:假设同类数据具有一定的统计规律;
    分类:数据以变量或者变量组表示,分为连续变量和离散变量;本书讨论离散变量为主;
    PS:本书对数据的收集和观测不做讨论;
  2. 统计学习的目的:
    构建概率统计模型来实现数据的预测和分析;

1.3

实现统计学习的步骤:

  1. 得到一个有限的训练数据集合
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或者分析;

【让我觉得有点意外的是,假设空间竟然是第二步就要确定的,不是很懂怎么在第二步就确定所有方法的集合】

二、统计学习的分类

2.1:分类

监督学习、无监督学习、强化学习;
以及半监督学习,主动学习;

2.2:监督学习

定义:从标注数据中学习预测模型的机器学习问题;

  1. 标注数据:表示输入与输出关系的数据;
  2. 预测模型:对给定的输入产生相应的输出;
  3. 学习本质:学习输入到输出的映射关系;

空间:输入空间,特征空间,输出空间;

  1. 输入空间:输入的集合;
  2. 特征空间:每个输入都是一个实例,通常表示为特征向量;则特征向量的集合为特征空间;模型实际定义在特征空间上;
  3. 输出空间:输出的集合;
  4. 输入变量记作X,输出变量记作Y;输入变量取值记作x,输出变量记作y;
  5. 输入格式:xi=(xi(1),xi(2),……xi(n))T,下标为变量序号,上标为变量特征序号;
  6. 训练集:T={(x1,y1),(x2,y2),……(xN,yN)}

联合概率分布:P(X,Y)

  1. P(X,Y):分布函数/分布密度函数;
  2. 监督学习关于数据的基本假设:数据具有一定的统计规律,X与Y具有联合概率分布;

假设空间:
监督学习的目的在于学习从输入到输出的映射,这一映射的体现形式为模型,即学习的目的就是找到最好的模型;
此模型属于输入空间到输出空间的映射的集合,这个集合就是假设空间;
此模型可以为概率模型或者非概率模型;
概率模型:P(X|Y);
非概率模型:Y=F(X);

注意监督学习是有学习预测两个过程的;

【写的都快断气了……还是感觉自己快把整本书搬上来了,可能是这本书我新学的东西太多了吧;而且有的概念不打打也不是很清楚;这一段还是留下了不少疑问,不过本来就只是一个概论,所以唯一值得提问的大概就是利用概率模型预测那里yN+1= a r g m a x y \underset {y}{arg max} yargmax? P ^ \widehat{P} P ( y ∣ x N + 1 ) (y|x_{N+1}) yxN+1?是个什么玩意,查了查好像是概率中的某种取值手段,但是……不懂怎么算;还有就是我忘记联合概率分布是怎么一回事了;先去写点别的了,日期已经改了两遍了,期待今天能把这篇写完。(九月二十五日)】

2.3:无监督学习

定义:无标注数据中学习预测模型;

  1. 无标注数据: 自然得到的数据;
  2. 预测模型: 数据的类型,转换或概率;
  3. 无监督本质: 学习数据中的潜在规律或者结构
  4. 【在我的理解中是在给数据分类或者来一个高一层次的抽象】

输入空间、输出空间、假设空间等不再多说;
隐式结构空间: Z Z Z;
学习函数或者条件概率分布;
对数据进行聚类或者降维;

2.4:强化学习

【这一段看的是异常的艰难(比昨天锻炼时连续好几组释手俯卧撑难多了),就是每个名词我都看不懂它是什么意思,在大脑的处理器里属于是“暂存在问题区域”的状态,然后名词组到一起就更加看不懂了,问题组成的问题组成的问题……情不自禁想要骂街;但是骂街解决不了问题,痛定思痛之下我决定尽量简化的把原文中的重点突出出来然后挨个挨个提出自己的问题】

强化学习:智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
假设智能系统与环境的互动基于马尔科夫决策过程,智能系统观测到的是与环境互动得到的数据序列
强化学习的本质是学习最优的序贯决策

智能系统与环境的互动如图1.3所示:
请添加图片描述
每一步t:
智能系统:
从环境中观测到:一个状态(state)st,一个奖励(reward)rt
反应:采取一个动作(action)at
环境
根据采取的动作决定下一步t+1的状态st+1与奖励rt+1

要学习的策略表示为给定的状态下采取的动作
智能系统的目标不是短期奖励的最大化,而是长期积累奖励的最大化。强化学习过程中,系统不断试错,以达到学习最优策略的目的。

【目前存在的名词还不太懂的有,环境,马尔科夫决策,状态,奖励

马尔科夫过程: 状态、奖励、动作序列上的随机过程,由五元组{ S S S, A A A, P P P, r r r, γ \gamma γ}组成。

  1. S S S:有限状态(state)的集合;
  2. A A A:有限动作(action)的集合;
  3. P P P:状态转移概率函数:
    P ( s ′ ∣ s , a ) = P ( s t + 1 = s ′ ∣ s t = s , a t = a ) P(s'|s,a)=P(s_{t+1}=s'|s_t=s,a_t=a) P(ss,a)=P(st+1?=sst?=s,at?=a)
  4. r r r:奖励函数:
    r ( s , a ) = E ( r t + 1 ∣ s t = s , a t = a ) r(s,a)=E(r_{t+1}|s_t=s,a_t=a) r(s,a)=E(rt+1?st?=s,at?=a)
  5. γ \gamma γ:衰减系数: γ \gamma γ ∈ [ 0 , 1 ] \in[0,1] [0,1]

马尔可夫决策过程具有马尔可夫性,下一个状态仅仅依赖于前一个状态与动作,由状态转移概率函数 P ( s ′ ∣ s , a ) P(s'|s,a) P(ss,a)表示。下一个奖励依赖于前一个状态与动作,由奖励函数 r ( s , a ) r(s,a) r(s,a)表示。

策略 π π π定义为给定状态下的动作的函数 a = f ( s ) a=f(s) a=f(s)或者条件概率函数 P ( a ∣ s ) P(a|s) P(as)
当策略 π π π给定时,智能系统与环境互动的行为就已经确定(广义上的确定,或是确定性的或是随机性的);

价值函数(value function)或状态价值函数(state value function)定义为策略 π π π从某一种状态 s s s开始的长期积累奖励的数学期望:

u π ( s ) = E π u_π(s)=E_π uπ?s=Eπ? [ r t + 1 + [r_{t+1}+ [rt+1?+ γ \gamma γ r t + 2 + r_{t+2}+ rt+2?+ γ 2 {\gamma}^2 γ2 r t + 3 + … … ∣ s t = s ] r_{t+3}+……|s_t=s] rt+3?+st?=s]

动作价值函数(action value function)定义为策略 π π π的从某一个状态 s s s和动作 a a a开始的长期积累奖励的数学期望:

q π ( s , a ) = E π q_π(s,a)=E_π qπ?s,a=Eπ? [ r t + 1 + [r_{t+1}+ [rt+1?+ γ \gamma γ r t + 2 + r_{t+2}+ rt+2?+ γ 2 {\gamma}^2 γ2 r t + 3 + … … ∣ s t = s , a t = a ] r_{t+3}+……|s_t=s,a_t=a] rt+3?+st?=sat?=a]

强化函数的目标就是在所有的可能的策略中选出价值函数最大的策略 π ? π^* π?,而在实际的学习中往往从具体的策略出发,不断优化已有策略。此处 γ \gamma γ表示未来的奖励会有衰减。

强化学习的分类:

  1. 无模型的:基于策略的,基于价值的;
  2. 有模型的:直接学习马尔科夫决策过程的模型,包括转移概率函数或者奖励函数。这样可以通过模型对环境的反馈进行预测,求出价值函数最大的策略 π ? π^* π?

总的来说自己打了一遍虽然很花时间但是对于理解的好处还是很大的,更多地细节明天会在修改中给出,作为一个合(hua)格(shui)的程序员,现在应该把勉强能用的第一版上线了。

2.5:其他种类的学习

半监督学习(偏向于无监督);
主动学习(自己给出数据进行标注);

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-02 14:40:58  更:2021-10-02 14:42:11 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 12:42:17-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码