数据挖掘
知识:知识是从数据中有意义的部分。知识只是对你有用的部分。
知识层次结构(从上到下):Wisdom、Knowledge、Information、Data 数据挖掘动机
- 数据爆炸问题:自动化数据收集工具和成熟的数据库技术导致大量数据存储在数据库、数据仓库和其他信息存储库中。
- 我们被数据淹没,却渴求知识!
- 解决方法:数据仓库和数据挖掘
- 数据仓库和在线分析处理
- 从大型数据库中的数据中提取有趣的知识(规则、规律、模式、约束)
数据挖掘(数据库中的知识发现):从大型数据库中的数据中提取有趣的(非琐碎的、隐含的、以前未知的和可能有用的)信息或模式。
数据挖掘:一个KDD过程
KDD过程步骤
- 学习应用领域
- 创建目标数据集:数据选择
- 数据清洗和预处理
- 数据简化与转换
- 数据挖掘方法的选择
- 挖掘算法的选择
- 数据挖掘:搜索感兴趣的模式
- 模式评估和知识展示
- 知识的应用
挖掘可以在各种信息存储库中执行
数据挖掘:挖掘哪些类型数据?
- 关系型数据库
- 数据仓库
- 事务型数据库
- 高级数据库和信息存储库
有趣性度量:如果一个模式很容易被人类理解,在新的或测试数据上具有一定程度的确定性、潜在的有用性、新奇性,或者验证了用户想要确认的一些假设,那么这个模式就是有趣的。
- 客观有趣性:基于统计数据和模式结构,如支持度、可信度等。
- 主观性:基于用户对数据的信念,例如:突发性、新颖性、可操作性等。
数据挖掘方法
表征、判别、关联、分类、聚类、异常值和趋势分析等。
数据挖掘分类
- 按通用功能分:描述性数据挖掘、预测性数据挖掘。
- 按不同的视角分类:需要挖掘的数据库类型,需要发现的知识类型,需要利用的技术类型,需要适应的应用类型。
OLAP挖掘:数据挖掘和数据仓库的集成
- 数据挖掘系统,DBMS,数据仓库和系统耦合
- 在线分析挖掘数据
- 交互式多层次知识挖掘
- 集成多种挖掘方法
数据挖掘的主要问题
- 挖掘方法和用户交互
- 性能和可伸缩性
- 与数据类型的多样性有关的问题
- 与应用和社会影响有关的问题
|