| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 数据挖掘第三周 -> 正文阅读 |
|
[人工智能]数据挖掘第三周 |
贝叶斯? ? ? ? 分类是有监督的学习,需要有人打上标签,有输入有输出 ?贝叶斯公式: ? ? ? ?? ?????????贝叶斯公式描述的是后验概率如何由先验概率和以及实验数据得出的 朴素贝叶斯 ????????????????????????????????? ?????????由于不好求所以假设条件α1,α2...αn之间条件独立就可得到朴素贝叶斯公式 ?????????AB条件独立 ?????????例如男性B抽烟G得肺癌A的概率=抽烟G得肺癌A的概率,是男性B和得肺癌A是条件独立的 ????????条件独立≠独立 如下图 ???????????????? ?拉普拉斯平滑 ???????????????? ?????????因为朴素贝叶斯公式分子都是相乘的若有一项为零则结果为零,但样本的概率为零不代表实际不会出现比如长头发男性,所以每一项都加上1保证概率都不为零 决策树? ? ????????????????? ? ? ? ? ? 每一个节点都是一个属性,根据节点进行判断,一层一层去做决策的模型 ? ? ? ? 优点:具有一个清晰的结构,能够模仿人类思维的流程 ????????决策树不唯一,简单的就是好的。奥卡姆剃刀:如无必要勿增实体 ??????? ????????决策树算法ID3(Iterative Dichotomizer 3) ????????重点:根据度量,选择属性。把比较强大区分度大的的属性放在上面,把精确的放在下面 ????????熵(entropy)S:衡量系统的不确定性或者变量取值的不确定性,最大值是1表示最不确定。? ? ? ? ? ? ? 引入A的信息增益:?当加入一个属性A后 用原熵减去个属性子集所占比(如男性占几成)乘以引入新属性后算得新熵的乘积和 ????????? ????????如何建树:先从所有属性中跳出一个可以分的最好的属性(如收入),如果按照该属性分完后的各子集(如高、中、低)有子集是纯的(如都买了或都没买)该子集就不用再分了,如果不纯则需要再选个属性继续分(如居住区域)如果所有属性都用完了还是不纯则少数服从多数 ? ? ? ? 过学习:A再训练集的表现比B好,B在测试集的表现比A好,则称A过学习了。? ? ?? ????????决策树预防过学习 ????????????????1、限制树的长度 ????????????????2、对树进行剪枝:合并然后少数服从多数,剪枝时观察Validation Set误差值会先减小后增大在拐点附近停止 ???????????????????????? ?????????有些属性虽然会分的很细但是没有意义如生日所以引入惩罚量,第一个式子属性把样本分的越细值越大,用原来的informationGain去除以它所得值越大越好 ????????连续型数据进行离散化 ???????? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 8:32:14- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |