分类和聚类
![在这里插入图片描述](https://img-blog.csdnimg.cn/fc2386cabd1842cdb8067ba1b562cd73.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_18,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/0bd85176a6414b49b8f943071fe42865.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_16,color_FFFFFF,t_70,g_se,x_16)
| 聚类 | 分类 |
---|
核心 | 将数据分成簇 | 从已经分组好的数据中训练得出目标函数,把新数据放到已经分好的组中 | 学习类型 | 无监督学习 | 有监督学习 | 典型算法 | K-means,DBSCAN ,层次聚类,光谱聚类 | 决策树,贝叶斯,逻辑回归 | 算法输出 | 聚类结果并不确定,不一定能够反映数据的真实分类,同样的聚类,对于不同的需求,可能好也可能坏 | 分类结果是确定的,分类的优劣是客观的,不根据业务或算法需求而定 |
聚类(无监督学习)
- 不需要手工标注的训练数据
- 文档中所有单词都具有同等的重要性
- 很难保证固定的向量划分
分类(有监督学习)
- 需要手工标注的训练数据
- 对于分类任务挑选重要的单词
- 使用模型参数来定义空间划分
Support Vector Machine(SVM)
Linear separability(线性可分性)
超平面:高维向量空间中的线性形状
线性可分:标记点具有超平面来分离边界
线性分类器:准确性和复杂性之间的平衡
SVM模型的定义
![在这里插入图片描述](https://img-blog.csdnimg.cn/958c7587ea3f43f088e3baa0cdfc0251.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) 定义:向量空间中二元分类的线性模型 支持向量的定义:距离分类的超平面最近的标记点 距离的定义:支持向量与超平面之间的距离 训练目标:寻找最大化距离的超平面
SVM建模
![在这里插入图片描述](https://img-blog.csdnimg.cn/14991b9b4a1f4e159eb12b671aa51be9.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/189f799f59ae451496360c61777ffc11.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/0142a89c7a9440e188deabc9e9c7bb2b.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) 对于任何一个支持向量而言,SVM要求
∣
w
?
T
v
?
(
x
i
)
+
b
∣
=
1
|\vec{w}^T\vec{v}(x_i)+b| = 1
∣w
Tv
(xi?)+b∣=1,这样可以使计算变得简便 ![在这里插入图片描述](https://img-blog.csdnimg.cn/ba0ad9bb1a544bd38b2995882dbe6b9c.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) 约束条件可以这样理解:对于任何一个训练样本而言,它到超平面的距离都要大于等于边际距离 ![在这里插入图片描述](https://img-blog.csdnimg.cn/f4b6a296ea8e45f1b16292e6a3177d13.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_17,color_FFFFFF,t_70,g_se,x_16)
Perceptron(感知机)
The perceptron algorithm
![在这里插入图片描述](https://img-blog.csdnimg.cn/83216bc432c045ffa2a5800819a38bd9.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/664666b6e6704ba488f8370758de1d53.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16)
Perceptron update
![在这里插入图片描述](https://img-blog.csdnimg.cn/3928635e4baf4f5c88aab72c8a32fab3.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16)
Numerical Interpretation(代数解释)
![在这里插入图片描述](https://img-blog.csdnimg.cn/37b57aeea5a14ee9a4ddb7e981255af5.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16)
SVM和感知机区别
![在这里插入图片描述](https://img-blog.csdnimg.cn/9881766a030f42618c276ca7ea2590ce.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) Batch learning是针对整个训练集而言来训练的,简称批学习 Online learning是对每个样本迭代更新参数
多分类问题
如何把二分类问题应用到多分类问题上?
两种思路:
- 将所有样本分成1类和其他类
- 针对每一组couple,训练一个分类器,判断样本属于哪一类
![在这里插入图片描述](https://img-blog.csdnimg.cn/8182be5b50eb472e936db5b7ee2ddcf5.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/db3e724726f843aa9469a64d9803e28e.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) 正负样本的引入
Output-based features
![在这里插入图片描述](https://img-blog.csdnimg.cn/384e99b70e7d410fb665a1b8cc9b53d5.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/a8f810f361d346f7b8a22f962321f621.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16)
Multi-class SVM
![在这里插入图片描述](https://img-blog.csdnimg.cn/19ca33a41c2e40ae8acb89355f9d2b01.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/ef6db997fdf4465fb489935c8ce6a748.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) ![](https://img-blog.csdnimg.cn/7fbe73c8dfba42b89b1dbae6b2461598.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16)
Multi-class perceptron
![在这里插入图片描述](https://img-blog.csdnimg.cn/85de0f93e658487197742e9647f83b24.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16) ![在这里插入图片描述](https://img-blog.csdnimg.cn/01718b3b233542d887d43833743c4ab2.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmFzb24uV3VU,size_20,color_FFFFFF,t_70,g_se,x_16)
|