IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 统计学习方法自学笔记(这章属于绪论有点杂乱,后续补) -> 正文阅读

[人工智能]统计学习方法自学笔记(这章属于绪论有点杂乱,后续补)

一、分类

基本分类:

监督学习:从标注数据中学习预测模型的机器学习问题。换句话说,就是使用训练数据集训练好一个模型,再使用该模型对测试样本进行预测,训练集是已知的。由学习系统和预测系统两部分组成。(样本有标签)

无监督学习:从无标注数据中学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构。简而言之,就是对于一堆数据,我们预先并不知道如何分类,通过数据本身的特征对数据进行分类统计。

强化学习:智能系统在于环境的持续互动中学习最优行为策略的机器学习问题。(阿尔法狗)

半监督学习和主动学习:半监督学习:利用少量标注数据、大量未标注数据学习预测模型的机器学习问题。主动学习:机器不断主动给出实例让教师进行批注,然后利用标注数据学习预测模型的机器学习问题。

按模型分类

概率模型和非概率模型

概率模型:决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型

非概率模型:感知机、支持向量机、k近邻、AdaBoost、k均值、神经网络。

线性和非线性

参数化和非参数化

按算法分

在线学习

批量学习

二、三要素

方法=模型+策略+算法

策略:损失函数和风险函数

损失函数:(1)0-1损失函数

L(Y,f(x))=\left\{\begin{} & &1,Y\neq f(X)) \\ & & 0,Y= f(X)) \end{matrix}\right.

? ? ? ? ? ? ? ? ? (2)平方损失函数

L(Y,f(x))=(Y-f(X))^{2}

? ? ? ? ? ? ? ? ? (3)绝对损失函数

L(Y,f(x))= \begin{vmatrix} Y-f(x) \end{vmatrix}

? ? ? ? ? ? ? ? ? (4)对数损失函数

L(Y,f(x))=-logP(Y|X)

损失函数值越小,模型越优。由于输入输出是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是

R_{exp}(f)=E_{p}[L(Y,f(X))] =\int_{x*y}^{}L(y,f(x))P(x,y)dxdy

由于P(X,Y)不可知,所以一般使用经验风险,经验风险是模型关于训练样本集的平均损失

R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y{_{i},f(x{_{i}})})

由于训练样本有限,所以监督学习一般考虑经验风险最小化和结构风险最小化,经验最小化,就是上面式子取最小,如果样本过少,经验最小化就会过拟合,这时候就考虑结构最小化。结构最小化等价于正则化,就是加表示模型复杂度的正则化项或者罚项。

R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y{_{i},f(x{_{i}})})+\lambda J(f)

?算法:挑选合适算法,求解最优模型

训练误差,测试误差

正则化:减小模型复杂性,防止过拟合

交叉验证:数据小的时候用,数据集随机划分为训练集、训练集、验证集三部分

泛化误差上界:期望风险会小于经验风险加\varepsilon

R(f)\leqslant \hat{R}(f)+\varepsilon (d,N,\delta )

P[E(\bar{X})-\bar{X}\geqslant t]\leqslant exp\(\frac{2N^2t^2}{\sum_{i=1}^{N}(b_{i}-a_{i})^{2}})

P(R(f)-\hat{R}(f))\geq \varepsilon\leq exp (-2N \varepsilon^{2} )

生成式模型和判别式模型

生成方法:(一般复杂但准确)

P(Y|X)=\frac{P(X,Y)}{P(X)}

判别方法:

P(Y|X)f(X)

监督学习的相关应用:

分类问题(在二分类法常用,关注类为正类,其他类为负类)

TP——将正类预测为正类数

FN——将正类预测为负类数

FP——将负类预测为负类数

TN——将负类预测为负类数

这里主要有两个评价指标:精确率和召回率

精确率(预测为正类的样本多少被分对,可以说为查准率):

P=\frac{TP}{TP+FP}

召回率(在实际正类中,多少正类被发现,可以说为查全率(宁可错杀,不放过一个)

R=\frac{TP}{TP+FN}

F1值:

\frac{2}{F1}=\frac{1}{P}+\frac{1}{R}

F1=\frac{2TP}{2TP+FP+FN}

标注问题:(NLP自然语言处理用的较多)

回归问题:预测,等价于函数拟合。最常用的损失函数是平方损失函数。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-02 14:40:59  更:2021-10-02 14:54:57 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 12:55:14-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码