大数据挖掘与分析
1.什么是数据挖掘,有什么功能
- 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。
- 功能
- 数据分类
- 数据估计
- 数据预测
- 数据关联分组
- 数据聚类
- 数据循序样式采矿
2.数据挖掘与数据库、数据仓库、知识发现以及机器学习之间的区别和联系
数据库
- 数据库是一个长期存储在计算机内的、有组织的、有共享的、统一管理的数据集合。
- 它是一个按数据结构来存储和管理数据的计算机软件系统
数据仓库
- 数据仓库为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合
- 为数据挖掘提供了更好、更广泛的数据源
- 数据挖掘为数据仓库提供了更好的决策支持
知识发现
- 用数据库管理系统来存储数据,用机器学习的方法的方法来分析数据,挖掘大量数据背后隐藏的知识
机器学习
- 致力于设计可以从数据中学习并做出预测的算法
- 数据挖掘致力于发现数据集的属性,有多种发现数据集属性的方法
3.数据挖掘的模型
-
三阶段模型、SEMMA模型、5A模型、CRISP-DM模型 -
三阶段模型(支持功能的角度) 强调数据挖掘步骤和过程的有序性和完整性 -
SEMMA模型 强调与数据挖掘工具的结合应用 -
5A模型 强调数据挖掘过程的工具应具有的功能和能力 -
CRISP-DM模型(方法论的角度) 强调实施数据挖掘项目的方法和步骤,它独立于具体的数据挖掘算法和数据挖掘系统
4.采用SEMMA过程方法达不到预期目标
? 重新返回上述步骤,依次进行调整和检查,对之前的步骤进行多次迭代,直到最终的结果满足预期值
5.更合理和实用的模型
? CRISP-DM模型更为实用,因为在生活当中更为常见的数据挖掘是一些具体的商业问题,而CRISP-DM模型中包含了商业理解的环节,在数据挖掘之前先对业务的目标和需求进行分析和理解,对结果和风险进行评估,经过这样的建模和数据挖掘后能帮助改善运营和提高效率,在应对不同业务需求时更实用
|