IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 统计学习概述 -> 正文阅读

[Python知识库]统计学习概述

统计学习概述


前言

随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。

1.1、统计学习

1.统计学习的特点
统计学习:计算机基于数据来构建概率统计模型并用模型对未知的数据进行预测与分析。

2.统计学习的对象
统计学习的对象是数据,它从数据出发,提取数据中的特征,抽象出数据的模型,发现数据的知识,又对新的数据去预测和分析。
统计学习关于数据的基本假设是数据具有一定的统计规律性。

3.统计学习的目的
统计学习的目的是对数据进行预测和分析。
它是怎么实现的呢?
对数据的预测和分析是通过构建概率统计模型实现的。统计学习的总目标就是学习什么样的模型以及如何去学习模型,以使这个模型能对数据进行预测和分析,并且还要考虑到它的学习效率。

4.统计学习的方法
什么叫做方法?在我的理解中方法就是你去实现这个目标的过程、步骤或思维。
统计学习的方法是在数据的基础上构建一个概率统计模型并运用这个模型对数据进行预测和分析。
统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)通过模型对数据进行预测和分析;

1.2 统计学习的分类

1.2.1 基本分类

1.监督学习
监督学习是指在有标注的数据中学习预测模型的机器学习问题。
标注数据表示的是输入与输出的对应关系,预测模型对给定的输入产生相对应的输出。
监督学习的本质是学习输入到输出的映射的概率统计规律。
在监督学习中,假设训练数据与测试数据是独立同分布产生的。

输入空间:所有输入可能取值的集合。
输出空间:所有输出可能取值的集合。
特征空间:每个输入都是一个实例,由特征向量组成,所有特征向量的集合就是特征空间
假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。
模型实际上都是定义在特征空间上的。
假设空间:模型属于输入到输出的映射的集合。

2.无监督学习
无监督学习是指从未标注的数据中学习预测模型的问题
无监督学习的本质是学习数据中的统计规律或潜在结构
3.强化学习

1.2.2 按模型分类

1.概率模型与非概率模型
在监督学习中,概率模型取条件概率分布形式P(y|x),非概率模型取函数形式为y=f(x),其中x是输入,y是输出。概率模型是生成模型,非概率模型是判别模型。
常见的非概率模型有:感知机、支持向量机、k近邻、AdaBoost、k均值等。
概率模型有:决策树、朴素贝叶斯、隐马尔可夫、条件随机场、概率潜在语义分析等。

2.线性模型与非线性模型
线性模型:感知机、线性支持向量机、k近邻、k均值等。
非线性模型:AdaBoost、神经网络、核函数支持向量机。

3.参数模型与非参数模型

1.3 统计学习方法三要素

方法=模型+策略+算法

1.3.1 模型

统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包括了所有可能的决策函数或条件概率分布。例如决策函数是输入变量的线性函数,那么模型的假设空间就是所有线性函数构成的函数集合。

假设空间用F表示。假设空间可以定义为决策函数的集合:
在这里插入图片描述
其中X,Y是定义在输入空间和输出空间上的变量。这时F通常由一个参数向量决定的函数族:
在这里插入图片描述
参数向量 Θ \Theta Θ取值于n维空间 R n R^n Rn,称为参数空间。

假设空间也可以定义为条件概率的集合:
在这里插入图片描述
它的参数空间为:
在这里插入图片描述
参数向量 Θ \Theta Θ取值于n维空间 R n R^n Rn,称为参数空间。

1.3.2 策略

统计学习方法想好了学习什么样的模型,就该去想如何去学习模型了,是以怎样一个准则去学习最优的模型。
这里就要引入两个概念了,损失函数和风险函数。
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
1.损失函数
监督学习问题是在假设空间 F F F中选取模型 f f f作为决策函数,给定输入X
就会由 f ( x ) f(x) f(x)给出相对应的输出Y,这个预测输出值 f ( x ) f(x) f(x)与真实值Y可能相同也可能不相同,它们之间的差值的绝对值就表示模型预测错误的程度。损失函数是非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X)).
常用的损失函数有:

(1)0-1损失函数:在这里插入图片描述
(2)平方损失函数:
在这里插入图片描述
(3) 对数损失函数
在这里插入图片描述
(4)对数损失函数:
在这里插入图片描述
损失函数值越小,模型就越好。

给定一个数据集T= { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ? ( x n , y n ) } \left \{ (x_{1},y_{1}),(x_{2},y_{2}),\cdots (x_{n},y_{n}) \right \} {(x1?,y1?),(x2?,y2?),?(xn?,yn?)}
模型关于训练集T的经验风险为:
在这里插入图片描述

经验风险是模型关于训练数据集的平均损失。
经验风险可能会给模型带来过拟合的问题

结构风险:在这里插入图片描述
J ( f ) J(f) J(f)为模型的复杂度, λ ? 0 \lambda \geqslant0 λ?0是系数,用来权衡经验风险和模型复杂度。
结构风险相对于经验风险来说加入一个正则化项,可以防止模型过拟合,结构风险小的模型往往对训练数据和未知数据都有较好的预测。

经验风险最小化策略认为经验风险最小的模型是最优的模型,结构风险最小化策略认为结构风险最小的模型是最优模型。

1.3.2 算法

算法就是你用什么计算方法去求解最优模型

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-09-30 11:53:45  更:2021-09-30 11:55:19 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 17:43:51-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码