IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> SVM 支持向量机 -> 正文阅读

[人工智能]SVM 支持向量机

SVM

SVMSupport Vector Machine;支持向量机

1. SVM分类:

  • hand-margin SVM 硬间隔
  • Soft-Margin SVM 软间隔
  • Kernel-Margin SVM

2. Hand-Margin SVM

硬间隔----最大间隔分类器

基本原理:

  • 基于训练集在样本空间中找到一个划分超平面,将不同类别的样本分来
    在这里插入图片描述
  • 希望找到最大间隔的划分超平面
    在这里插入图片描述
  • 在满足约束的条件下使得间隔最大
    在这里插入图片描述
  • 等价替换,目标函数(凸优化问题)

在这里插入图片描述

  • 以上支持向量机的基本型—硬向量

硬间隔特性

  • 认为数据本身是可分的
  • 存在所有样本必须划分正确的约束条件,
  • 缺点:硬间隔SVM对于异常点非常敏感
  • 由于噪声的因素,属于A类的点可能会分布在B类中(异常点),此时硬间隔将无法找到一个划分超平面。

目标函数求解:

  • 使用拉格朗日算子法求解(算子 α i > = 0 \alpha_i>=0 αi?>=0
    在这里插入图片描述
  • 对偶问题 m a x m i n L ( w , b , α ) maxminL(w,b,\alpha) maxminL(w,b,α)
  • 对w,b求偏导
    在这里插入图片描述
  • 带入、消除;得到关于 α \alpha α的目标函数
    在这里插入图片描述
    在这里插入图片描述
  • 得到模型
    -在这里插入图片描述

在这里插入图片描述

3.Soft-margin SVM

软间隔

特点:

  • 认为数据不可分、或者是存在噪声
  • 允许一些错误
  • 允许训练的模型中,部分样本(离群点或者噪音点)不必满足该约束,同时在最大化间隔时,不满足约束的样本应该尽可能的少。

目标函数:
在这里插入图片描述

  • 其中 C > 0 C>0 C>0是一个常数, l 0 / 1 l_0/1 l0?/1是"0/1损失函数"

在这里插入图片描述

  • 当C为无穷大时,为了保证目标函数取得最小值,需要要求l_0/1?=0,即所有样本严格满足硬间隔约束条件;
  • 当C取有限值时,允许部分样本不满足约束条件。

进一步求解:

由于 l 0 / 1 l_0/1 l0?/1非凸、非连续的数学特性,导致目标函数不易求解,一般是采用以下的"替代损失"函数来进行代替 l 0 / 1 l_0/1 l0?/1

在这里插入图片描述
在这里插入图片描述

  • hinge损失
    在这里插入图片描述
    在这里插入图片描述

总结:

  • 与硬间隔对比,看到唯一的区别就是拉格朗日乘子a多了一个上限C。
  • C的意义:
  • C是分割区域的带宽长度,C值越大带宽越窄,越不允许中间的分隔地带存在出错的样本;
  • C越小带宽越大,越允许有较多出错的样本出现在分割区域内。

4. Kernel-Margin SVM

前提:

  • 硬间隔和软间隔都是在样本线性可分的基础上进行的
  • 现实情况却是,并不是所有的样本集都是线性可分的

在这里插入图片描述
在这里插入图片描述
思想:

  • 寻找办法将线性不可分的样本空间转变为线性可分的样本空间
  • 将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。
  • 将线性不可分(非线性)的样本空间映射到高维空间,我们就可以利用高维特征向量进行线性分类,即将非线性问题转化为线性问题

目标函数:
在这里插入图片描述
在这里插入图片描述

4.1 核方法

定义:

  • 在低维空间中不能线性分割的点集,通过转化为高维空间中的点集时,从而变为线性可分的,这就是核方法
  • 核函数方法
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
  • 常用核函数
    在这里插入图片描述
    线性核:
  • 主要用于线性可分的情况,我们可以看到特征空间到输入空间的维度是一样的,其参数少速度快,对于线性可分数据,其分类效果很理想
  • 通常首先尝试用线性核函数来做分类,看看效果如何,如果不行再换别的
  • 优点:方案首选、简单、可解释性强:可以轻易知道哪些feature是重要的
  • 缺点:只能解决线性可分的问题

高斯核:
在这里插入图片描述

  • 通过调控参数,高斯核实际上具有相当高的灵活性,也是使用最广泛的核函数之一。
  • 如果 σ \sigma σ选得很大的话,高次特征上的权重实际上衰减得非常快,所以实际上(数值上近似一下)相当于一个低维的子空间;
  • 如果 σ \sigma σ选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。
  • 优点:可以映射到无限维、决策边界更为多维、只有一个参数
  • 缺点:可解释性差、计算速度慢、容易过拟合

在这里插入图片描述
多项式核

  • 多项式核函数可以实现将低维的输入空间映射到高纬的特征空间,
  • 但是多项式核函数的参数多
  • 当多项式的阶数比较高的时候,核矩阵的元素值将趋于无穷大或者无穷小,计算复杂度会大到无法计算。
  • 优点:可解决非线性问题、主观设置
  • 缺点:多参数选择、计算量大

sigmoid核

  • 采用sigmoid核函数,支持向量机实现的就是只包含一个隐层,激活函数为 Sigmoid 函数的神经网络。
  • 应用SVM方法,隐含层节点数目(它确定神经网络的结构)、隐含层节点对输入节点的权值都是在设计(训练)的过程中自动确定的。
  • 而且支持向量机的理论基础决定了它最终求得的是全局最优值而不是局部最小值,也保证了它对于未知样本的良好泛化能力而不会出现过学习现象。
  • 如图, 输入层->隐藏层之间的权重是每个支撑向量,隐藏层的计算结果是支撑向量和输入向量的内积,隐藏层->输出层之间的权重是支撑向量对应的

在这里插入图片描述
小结

  • 因此,在选用核函数的时候,如果我们对我们的数据有一定的先验知识,就利用先验来选择符合数据分布的核函数;
  • 如果不知道的话,通常使用交叉验证的方法,来试用不同的核函数,误差最下的即为效果最好的核函数,或者也可以将多个核函数结合起来,形成混合核函数。

在吴恩达的课上,也曾经给出过一系列的选择核函数的方法:

  • 如果特征的数量大到和样本数量差不多,则选用LR或者线性核的SVM;
  • 如果特征的数量小,样本的数量正常,则选用SVM+高斯核函数;
    如果特征的数量小,而样本的数量很大,则需要手工添加一些特征从而变成第一种情况。

5.其他

关于SVM?

数学原理:

  • 监督学习
  • 线性分类器

分类间隔:

  • 尽可能保证分类的正确性
  • 尽可能加大两个类别间的距离,使他们更容易区分

SVM目的:

  • 找到适合的 β \beta β
  • 来描述决策分界面和边界分界面(也叫超平面)

优点:

  • 强分类器,能保证最大化区分两个类别

缺点:

  • 对大规模训练样本难以实施
  • 解决多分类问题存在困难
  • 对缺失数据敏感,对参数和核函数的选择敏感

SVM对偶?

  • 目的
    方便求解

  • 为什么使用
    一是方便核函数的引入,
    二是原问题的求解复杂度与特征的维数相关,而转成对偶问题后只与问题的变量个数有关,由于SVM的变量个数为支持向量的个数,相较于特征位数较少,因此转对偶问题,通过拉格朗日算子法使带约束的优化目标转化为不带约束的优化函数,使得w和b 的偏导数等于零,带入原来的式子,再转为对偶问题。

SVM核技巧?

  • 核函数作用
  1. SVM中什么时候用线性核什么时候用高斯核?
    参考:线性和高斯的选择
  2. 为什么高斯核能够拟合无穷维度?

SVM的物理意义是什么?

  • 构造一个最优化的超平面在空间中分割数据

SVM和全部数据有关还是和局部数据有关?

  • 局部数据

SVM与LR的区别?

参考
相同点:

  • LR和SVM都是分类算法。
  • 如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的。
  • LR和SVM都是监督学习算法。
  • LR和SVM都是判别模型。

不同点:

  • 本质上是其loss function不同。
  • 支持向量机只考虑局部的边界线附近的点,而逻辑回归考虑全局(远离的点对边界线的确定也起作用)。
  • 在解决非线性问题时,支持向量机采用核函数的机制,而LR通常不采用核函数的方法。
  • ?线性SVM依赖数据表达的距离测度,所以需要对数据先做normalization,LR不受其影响。
  • LR可以给出每个点属于每一类的概率,而SVM是非概率的。
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-01 00:02:58  更:2022-04-01 00:03:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/9 1:21:15-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码