| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 利用weka进行数据挖掘——基于Apriori算法的关联规则挖掘实例 -> 正文阅读 |
|
[人工智能]利用weka进行数据挖掘——基于Apriori算法的关联规则挖掘实例 |
作者:recommend-item-box type_blog clearfix |
首先,如果不熟悉weka的使用的话,可以从我的git仓库里面拉取一下weka的相关教程,仓库里面还有包含此次实例的所有资源 1. weka安装我们可以在weka的官网上下载weka软件:weka官网 如果下载速度慢的话也可以直接从我的git仓库里面拉取这个软件,软件是win64位的weka-3-8-6 然后找到对应版本: 点击就可以开始下载了,一路安装就好了,因为weka是基于Java开发,所以如果你的电脑没有Java环境的话,可能在安装的过程中会提示你安装Java,选择安装即可。这里我们需要记住一下我们安装的路径,因为我们后面还需要进入到安装目录中来 2. 先分析一个Apriori算法的关联规则挖掘实例先打开这个文档,这个文档里面有一个基于Apriori算法的关联规则挖掘实例 可以先看一遍,看能不能用笔自己算出来,计算的步骤可以看下笔者的上一篇文章:数据挖掘十大算法之Apriori算法
这里我们需要对下表中数据进行数据挖掘,寻找这些疾病之间的关系:
我们可以从上表中知道这些病在事物中出现的次数为:
为方便起见,将糖尿病标记为T,尿毒症标记为N,肾功能衰竭标记为S。总结出部分关联规则。
根据以上关联规则可得出一下结论: (1)糖尿病、尿毒症、肾功能衰竭三种疾病之间有一定的关联关系。 (2)对于同时患有糖尿病和尿毒症的44%的疾病人群而言,有68.7%的糖尿病患者会并发尿毒症。 (3)对于同时患有糖尿病和肾功能衰竭的44%的疾病人群而言,有68.7%的糖尿病患者会并发肾功能衰竭。 (4)有40%的患者同时患有糖尿病、尿毒症、肾功能衰竭,其中有62.5%的糖尿病患者会并发尿毒症和肾功能衰竭,有90%的糖尿病和尿毒症患者会并发肾功能衰竭。 3. 利用weka进行数据挖掘如果数据量很大,例如数据库里有几十万条数据,那我们手算肯定是不行的,所以我们就需要借助 首先我们要知道:WEKA存储数据的格式是 我们可以在weka安装目录的data目录下找到一些默认的 使用WEKA作数据挖掘,面临的第一个问题往往是我们的数据不是ARFF格式的。 幸好,WEKA还提供了对CSV文件的支持,而这种格式是被很多其他软件所支持的。此外,WEKA还提供了通过JDBC访问数据库的功能。 3.1 将数据转为ARFF格式首先我先以Excel为例,说明如何获得CSV文件。然后我们将知道CSV文件如何转化成ARFF文件,毕竟后者才是WEKA支持得最好的文件格式。面对一个ARFF文件,我们仍有一些预处理要做,才能进行挖掘任务。 Excel的XLS文件可以让多个二维表格放到不同的工作表(Sheet)中,我们只能把每个工作表存成不同的CSV文件。打开一个XLS文件并切换到需要转换的工作表,另存为CSV类型,点“确定”、“是”忽略提示即可完成操作。
我们再填Excel表的时候要注意的是:
当然还有很多值得注意的点,请看参考文章的第一篇 填好的Excel长这样,这里我用行数代替患者编号了,因为编号没有什么意义
打开我们的CSV格式的文件,长这样
我这里采取命令行的形式,程序员吗,肯定还是喜欢用命令行一点
查看一下我们转换好的 3.2 利用weka进行分析接下来我们就利用weka对这些数据进行分析,来查找这些数据之间的关系 那些面板的具体含义看一下我仓库里面WEKA中文详细教程ppt,写的很清楚 这里直接上手 当然weka的功能非常强大,我们这里仅仅这是做一个演示,来加深我们对 上面提供的git仓库里面也有weka的API和一个demo,读者可以编写代码来对数据库的数据进行挖掘 4. 参考文章
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/9 1:58:02- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |