第一章:绪论
1.数据挖掘
广义解释:数据挖掘是指从大量数据中挖掘有趣的模式和知识的过程。
数据源:数据库,数据仓库、web、其他信息存储库或动态地流入系统的数据。
文本数据挖掘:从自然语言文本中挖掘用户感兴趣的模式和知识的方法和技术,也称文本挖掘。
文本:TXT文件,doc/docx,PDF文件和HTML文件等各类以语言为主要内容的数据文件。
2.文本数据挖掘
文本数据挖掘的挑战:对非结构化自然语言文本内容的分析和理解。
- 文本内容都是非结构化的
- 文本内容是用自然语言描述的不是纯用数据描述的
因此,文本数据挖掘是自然语言处理(NLP)、模式分类(pattern classification)和机器学习(ML)等相关技术结合的综合技术。
文本挖掘类型:
- 目标问题明确具体,只是不知道答案。
- 有大概的目的,但是没有明确的问题。
两种类型并没有明确的界限。
3.文本挖掘任务
在实际应用中通常需要集中相关技术结合起来完成某个应用任务。 例如,一个问答系统(Q&A)系统通常需要问句解析、知识库搜索、候选答案推断和过滤、答案生成等几个环节。
典型的文本挖掘技术: 1)文本分类:将给定的文本划分到事先规定的文本类型。
2)文本聚类:将给定的文本集划分成不同的类别。与文本分类的算法和模型有很多交集。
3)主题模型:从文本中挖掘隐藏在文本背后的主题和概念。
4)情感分析与观点挖掘:根据文本所表达的观点和态度等主观信息对文本进行分类,或者判断某些文本的褒贬极性。
5)话题检测与跟踪:众多新闻事件中报道和评论中挖掘、筛选出文本的话题。
6)信息抽取:从非结构化、半结构化的自然语言文本中抽取实体、实体属性、实体间的关系以及事件等事实信息,并形成结构化输出的一种文本数据挖掘技术。
7)文本自动摘要:利用自然语言处理方法自动生成摘要的一种方法。
4.文本挖掘困难
- 文本噪声和非规范性表达
- 歧义表达与语义的隐蔽性
- 样本收集和标注困难
- 挖掘目标和结果的要求难以准确表达和理解
- 语义表示和计算模型不甚奏效
5.概要
- 文本挖掘方法大致分为知识工程和统计学习
- 网络大数据时代,统计机器学习成为主流,与深度学习,也就是基于神经网络的机器学习属于同一类方法,统称为数据驱动。
- 第二章介绍数据预处理,是后续所有模型和算法实现之前的准备阶段。
- 第三章文本表示是后续几章所用模型的基础,准确表示文本,运用数学模型。
- 第四章文本分类,第五章文本聚类,第六章是主题模型,是其他文本挖掘技术的理论基础,或者说是基础模型,有时候也被作为具体应用。
- 第七到十章可以看作是文本挖掘的应用技术。
|