| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Python机器学习--分类算法--朴素贝叶斯算法 -> 正文阅读 |
|
[人工智能]Python机器学习--分类算法--朴素贝叶斯算法 |
朴素贝叶斯算法的类型有监督学习的分类算法 朴素贝叶斯算法的原理
?朴素贝叶斯算法第一站:概率公式条件概率公式:为(即在事件B发生的情况下,事件A发生的概率): ?当A,B相互独立时?P(AB) = P(A)?P(B) 全概率公式:贝叶斯公式:?? ?朴素贝叶斯算法第二站:朴素贝叶斯计算步骤1.一个数据集中有两个样本(B1,B2, B3)、(C1,C2,C3)和一个标签的两组(A1,A2) ?3.由于两式分母都是相同的,所以只需要考虑分子就可以了 4.这时遇到一个问题,如果所选特征在训练集中不存在P(测 试特征∣A1)?将会等于0,最终的概率也会等于0,显然这样的结果不是我们想要的 6.根据在训练集数据就可以计算出A1的概率以及A1的条件下D1、D2、D3发生的概率了 7.虽然是能计算出来,但是可能会出现D1这个特征没有出现在训练集特征的情况,比如D1=高,恰好A1组相应类型特征对应的数据低,它的概率也会变成0 8.这是就出现了一个拉普拉斯系数,当测试集特征不存在(为0次)时,给它变成1,相应的分母也要加一。例如,测试集某个特征不存在,概率本应该是 0 \ n? ,使用拉普拉斯系数后就变成了1\(n+1) 伯努利朴素贝叶斯伯努利分布又称0-1分布,也叫二项分布,所以伯努利朴素贝叶斯只能对符合二分类数据的特征 和上面朴素贝叶斯计算步骤有所不同的是,拉普拉斯系数不同。伯努利中的拉普拉斯,分母计算方法是符合计算标签结果的特征条数加上标签类别数,分子还是加1。比如,标签是下雨和没雨,现在判断的是下雨的条件下特征发生的概率,符合条件的训练集特征有4条,分母就是4+2=6 何种情况使用伯努利朴素贝叶斯伯努利分布:比如正面或反面,成功或失败,有缺陷或没有缺陷,病人康复或未康复。为方便起见,记这两个可能的结果为0和1. 适用于特征和标签呈现伯努利分布时使用,也适用于文本数据(此时特征表示的是是否出现,例如某个词语的出现为1,不出现为0) 绝大多数情况下表现不如多项式分布,但有的时候伯努利分布表现得要比多项式分布要好,尤其是对于小数量级的文本数据 ?sklearn中代码实现
高斯朴素贝叶斯?高斯朴素贝叶斯主要是用来处理连续数据类型的特征 何种情况使用高斯朴素贝叶斯当数据的特征呈现为高斯分布进行分类时使用(生活中绝大部分数据) sklearn中代码实现
?多项式朴素贝叶斯多项式朴素贝叶斯多用于出现次数作为特征的数据,特征数据值必须是非负的。对于文本数据的处理,就非常适合用多项式朴素贝叶斯计算原理:
何时使用多项式朴素贝叶斯算法1.适用于文本数据(特征表示的是次数,例如某个词语的出现次数 sklearn中代码实现
使用多项式朴素贝叶斯进行文本词频统计以评论数据为例 1.使用jieba库,并定义切分汉语词汇的函数?
2.词频向量化词频向量化,是对分词后的数据进行统计样本中出现的次数,分为普通词频向量化和 TF-IDF词频向量化 普通词频向量化是统计出现次数,下面是普通词频向量化的代码实现
?3.TF-IDF词频向量化词频:TF,指的是某一个给定的词语在该文件中出现的频率 ? TF-IDF = TF*IDF
?4.TD-IDF的计算方法
增量学习增量学习:不断增加数据进行学习,分批加入训练样本进行训练,大多数情况下是数据量太大,需要分批训练时使用 sklearn实现
朴素贝叶斯算法总结
? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 16:37:43- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |