挖掘是从大量的、不完全的、有噪声的、模糊的、随机的应用数据中,提取潜在且有用的信息的过程。 分析分析处理(On-Line Analytical Processing ,OLAP)
数据分析过程 确定知识发现的目标:确定知识发现的目的。 数据采集:数据采集可以是从网络爬取的数据,也可以是从数据库中直接导出的数据,还可以是常见的CSV文件等数据。数据质量决定挖掘的上限,而算法仅仅是逼近这个上限。 数据探索:可视画(画各种散点图);相关性。 数据预处理:数据处理主要包括数据清理、数据集成、数据规约、数据变换和离散化等几个部分。数据归约——维归约的含义是将原先高维的数据合理地压缩成低维数据,从而减少数据量常用的方法为特征的提取,如线性判别分析(LDA)和主成分分析(Principal Component Analysis,PCA)。LDA是基于有监督的降维,PCA是基于方差的聚类降维,都可以对高维数据进行降维。数据归约技术采用维归约和数据量归约等方式。数据的变换是将原始的特征数据进行归一化和标准化的操作。 数据挖掘(模型选择)算法 视频,骨膜,视频故事对数据挖掘结果的评价,常用的评价指标有精度、召回率等。 数据挖掘的功能与应用领域 电信行业:推荐系统 金融行业:信用卡勘测 医疗行业 社会网络:人的变迁情况
数据挖掘应用面临的问题 数据源的多样性 数据挖掘算法的改进:部分算法就需要基于分布式计算和云计算进行改进。 数据隐私保护:个人隐私被暴露 ? 数据挖掘的模型 数据挖掘任务可以分为描述和预测两大类。描述性挖掘任务描述数据中数据的一般性质;预测性挖掘任务对当前数据进行推断,以做出预测。数据挖掘的任务主要集中在回归、分类、预测、关联、聚类、异常检测六个方面。
回归 回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 按照回归分类中自变量的数量,可将回归分析分成一元回归和多元回归分析。 如果回归分析只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,则这种回归分析被称为一元线性回归分析。 常见的回归算法包括线性回归、逻辑回归(逻辑回归实际上做的是分类的任务)、多项式回归、逐步回归、岭回归、Lasso回归、ElasticNet回归。
分类 回归可用于预测连续的目标变量,分类可用于预测离散的目标变量。 常见的分类算法包括逻辑回归、决策树、神经网络、贝叶斯、K近邻算法、支持向量机(SCM)等。
预测 预测算法可分为定性预测和定量预测。 定量预测相对准确,因果关系分析法有回归方法、计量经济模型、神经网络预测法、灰色预测法、马尔科夫预测法等。
聚类 前提:没有先验知识 原则:较高的类内相似度和较低的类间相似度。 K-Means、层次聚类、神经网络聚类、DBSCAN聚类等。
异常检测 离群点检测的算法大致可分为以下几类:包括基于统计学或模型的方法、基于距离或邻近度的方法、基于偏差的方法、基于密度的方法和基于聚类的方法。
数据挖掘的数据类型 非结构化数据往往要经过数据预处理等环节转换成结构化数据。 数据库 联机事务处理(OLTP)数据库增、删、改、查、读、写,对象一般数据库管理员。 数据仓库 ET L:从外部数据抽取、转换、装载到DW中。
其他数据类型 数据流、空间数据、工厂设计数据、超文本和多媒体数据、图和网状数据和万维网。 数据挖掘不需要机器自动学习,机器学习需要机器自动学习。 数据挖掘的交叉学科 统计分析包括最大值、最小值、平均值、方差、四分位、个数、概率分配等。 数据库与数据仓库 ETL(提取-转换-加载) ?
|