| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 《西瓜书读书笔记》-第3章 线性模型 -> 正文阅读 |
|
[人工智能]《西瓜书读书笔记》-第3章 线性模型 |
目录 3 线性回归3.1 回归
回归模型是表示输入变量到输出变量之间映射的函数
基本的回归问题可以分为模型学习和预测两个过程。基于给定的训练数据集构建一个模型,根据新的输入数据预测相应的输出。
回归问题
分类:
按输入变量个数:一元回归和多元回归
按输入变量和输出变量之间关系的类型:线性回归和非线性回归
3.2 一元线性回归接上图,一元线性回归采用“最小二乘法”,使所有样本点与预测直线之间距离的平方之和最小,完成参数估计。
损失函数E(w,b)是关于w和b的凸函数,证明过程纯高数问题,西瓜书中对其有详细描述。
3.3 多元线性回归此时的损失函数:
接着求
对
的导数
3.4 对数几率回归
但阶跃函数不可导。一个近似替代函数就是对数几率函数:
对数几率函数如图:
这是一个“Sigmoid函数”:形似S形函数。将
z替换代入有:
将上式变换有:
左边是求y的几率并取对数,称为对数几率(
ogistic regression,简称LR
)。实际上是在用线性回归模型的预测结果,去逼近真实标记的对数几率。
3.5 线性判别分析(LDA)
线性判别分析(Linear Discriminant Analysis,简称LDA),二分类问题上最早由Fisher于1936年提出,亦称费舍尔判别分析,
是一种
数据降维
的方法。
LDA投影后,数据类内方差最小,类间方差最大,常用于监督学习数据预处理中的降唯、分类任务。
其基本思想是:将训练样本投影到一条直线上,使得同类的样例尽可能近,不同类的样例尽可能远。如图所示:
3.6 多分类学习
现实中我们经常遇到不只两个类别的分类问题,即多分类问题,在这种情形下,我们常常运用“拆分”的策略,通过多个二分类学习器来解决多分类问题,即将多分类问题拆解为多个二分类问题,训练出多个二分类学习器,最后将多个分类结果进行集成得出结论。
最为经典的拆分策略有三种:
一对一(one vs one,OvO)
一对多(one vs rest,OvR)
多对多(many vs many,MvM)
1.OvO:
思想:给定数据集D,假定其中有N个真实类别,将这N个类别进行两两配对(一个正类/一个反类),
产分类器个数:产生N(N-1)/2个二分类学习器
测试:将新样本放入所有的二分类学习器中测试,得出N(N-1)/2个结果,最终投票产生结果。
2.OvR:
思想:给定数据集D,假定其中有N个真实类别,每次取出一个类作为正类,剩余的作为反类,
产分类器个数:产生N个二分类学习器
测试:得出N个结果,若仅有一个分类器预测为0类,其余1类,则对应为0类。若有多个都是0类,则根据各个的预测置信度。置信度最大的类别标注为分类结果。
上图所示N=4,左边为OvO,右边为OvR
左边:N=4,则分类器有6个。新样本测试6次,然后投票。
右边:N=4,则分类器有4个。C3预测为正类,其余均负类,则最终为C3。
3.MvM:
思想:给定数据集D,假定其中有N个真实类别,每次取若干个类作为正类,若干个类作为反类(通过ECOC码即纠错输出码给出编码),若进行了M次划分,则生成了M个二分类学习器
测试:(解码),得出M个结果组成一个新的码,最终通过计算海明/欧式距离选择距离最小的类别作为最终分类结果。
对于左图,第一个分类器f1将C1,C3,C4为负类,C2为正类;其余依次设置,共M个分类器。每行是对应类别的编码,长度为M。新样本测试后得到M长度的码,与各类对比,距离最近的为该类。
为何叫做纠错输出码?
答:测试阶段,ECOC编码对分类器的错误有一定的容忍和修正能力。
例如左图中,对测试示例的正确预测编码是(-1,+1,+1,-1,+1),但若是f2分类器出错了,预测成了(-1,-1,+1,-1,+1),仍然可以得到正确的结果。
一般的,对于同一个任务,ECOC编码越长,纠错能力越强。然而编码长意味着分类器数目多了,开销增大。
3.7类别不平衡问题
类别不平衡(class-imbanlance)就是指分类问题中不同类别的训练样本相差悬殊的情况,例如正例有998个,而反例只有2个,则学习器永远只返回新样本为正例。这个时候我们就需要进行相应的处理来平衡这个问题。
常见的做法有三种(正例少,反例多为例):
(1)对反类样本降采样。
降采样,即抛弃一些反例使正反例的数目接近,再进行学习。由于抛弃反例,分类器的训练集远小于初始训练集,因此欠采样的时间开销通常远小于过采样。
? ? 代表性算法
EasyEnsemble
利用
集成学习机制
,将反例划分为若干个集合,供不同学习器使用。对每个学习器角度来看都进行了降采样了,但全局来看并不会丢失重要信息。
(2)对正例样本过采样。
上采样,即增加一些正例,使正反例数目接近。但不能对初始数据集中的正例进行简单重复采样,否则会导致过拟合严重。代表性算法
SMOTE
,通过对训练集的正例进行
插值
来产生额外的正例。
(3)直接基于原数据集进行学习,对预测值进行“再缩放”处理。
令
表示正例数目,m-
表示反例数目,则观测几率是
,在决策时,基于下式执行
这个过程也被称为
阈值移动
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/11 17:05:45- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |