[人工智能] 传统机器学习

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 传统机器学习 -> 正文阅读

[人工智能]传统机器学习

SVM（二分类模型）
主要思想：找到空间中一个更够将所有数据样本划分开的超平面，并且使得数据集中的所有数据到这个超平面的距离最短。
决策树（分类回归）
构建过程：
1、构建根节点，将所有训练数据都放在根节点
2、选择一个最优特征，按照这一特征将训练数据集分割成子集，是的各个子集有一个在当前条件下最好的分类
3、如果子集非空，或子集容量未小于最少数量，递归1，2步骤，直到所有训练数据子集都被正确分类或没有合适的特征为止

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据
缺点：可能会产生过度匹配的问题。

二叉树
1 每个节点最多两颗子树
2 二叉树的字数有左右之分，其子树的次序不能颠倒

Random Forest 随机森林
一、训练样本有效地随机采样
二、训练特征随机选择
优点：
1 模型随机性强，不易overfit ，抗噪性强，对异常点outline不敏感
2 处理高维数据相对更快
3 树状结构，模型可解释度高，可以体现每个特征的重要性
缺点：
模型过于General，不具备处理过于困难的样本的能力

K-Nearest Neighbor, KNN (分类)“近朱者赤近墨者黑”
实现原理：为了判别未知样本的类别，以所有已知类别的样本作为参照，计算未知样本与所有已知样本的距离，从中选取与未知样本距离最近的k个已知样本，根据少数服从多数的原则，将未知样本与K个最邻近样本中所属类别占比较多的归为一类。

KNN的优点：

简单，易于理解，易于实现，无需估计参数，无需训练
适合对稀有事件进行分类
适合于多分类问题，KNN表现要比SVM好
缺点：
当样本不平衡时，如一个类的样本容量很大，而其它类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。
计算量较大，因为对每个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点
算法实现：
1、算距离：给定待分类样本，计算它与已分类样本中的每个样本的距离
2、找邻居：圈定与待分类样本距离最近的K个已分类样本，作为待分类样本的邻近
3、做分类：根据这K个近邻中的大部分样本所属的类别来决定待分类样本该属于哪个分类

K-means（聚类）
通过计算样本之间的距离（相似程度）将较近的样本聚为同一类别。

使用K-means时主要关注的两个问题：