| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 终于有人把数据挖掘讲明白了 -> 正文阅读 |
|
[人工智能]终于有人把数据挖掘讲明白了 |
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。 作者:赵仁乾 田建中 叶本华 常国珍 来源:大数据DT(ID:hzdashuju) 数据挖掘是一个多学科交叉的产物,涉及统计学、数据库、机器学习、人工智能及模式识别等多种学科,如图1-4所示。 ▲图1-4 数据挖掘 01 数据挖掘方法分类介绍 数据挖掘方法按照来源进行分类显得过于庞杂,而且不便于理解和记忆。按照其目的,将数据挖掘方法分为预测性和描述性两大类,如下所示。
1. 预测性——有监督学习 预测性分析指的是用一个或多个自变量预测因变量的值,以历史数据为训练集,从中学习并建立模型,然后将此模型运用到当前数据上,推测结果。以客户违约作为预测性分析的研究场景,客户是否会违约是一个因变量,我们可以根据客户的性别、年龄、收入、职位、经济状况、历史信用状况等进行预测。 根据SAS工程师总结的商业案例,分类模型可分为三大类。
有些数据挖掘算法在某类应用上表现得更好,如最近邻域法、支持向量机在决策类应用上表现良好,但是在解决排序类和估计类问题时表现一般。而有些数据挖掘算法的表现比较稳定,如决策树和逻辑回归对三类问题都适用,但是在决策类问题上没有在后两类问题上表现好。 2. 描述性——无监督学习 描述性分析指的是分析具有多个属性的数据集,找出潜在的模式并进行分类。描述性分析是一种无监督的学习过程。区别于有监督的学习,无监督学习算法没有参照指标,需要结合业务经验来判断数据分类是否正确。无监督学习比较耗时,而且对建模人员的业务素质要求较高。 描述性分析主要应用于以下两种场景:第一种是观察个体之间的相似程度,如根据年龄、性别、收入等进行客户细分;第二种是根据客户购买的多个产品发现产品之间的相关性,主要算法包括样本聚类、关联规则等。 02 数据挖掘方法论 下面讲解最为常用的CRISP-DM方法论和SEMMA方法论。 1. CRISP-DM方法论 CRISP-DM方法论由NCR、Clementine、OHRA和Daimler-Benz的数据挖掘项目总结而来,并被SPSS公司大力推广。CRISP-DM方法论将数据挖掘项目的生命周期分为6个阶段,分别是商业理解、数据理解、数据准备、建模、评估和准备工作,如图1-16所示。 ▲图1-16 CRISP-DM方法论 在实际项目进行过程中,由于使用者的目标背景和兴趣不同,有可能打乱各阶段顺承的关系。 图1-16呈现了CRISP-DM方法执行流程的6个阶段。各个阶段的顺序不是保持不变的,有时需要在某个阶段向前或向后移动,这取决于每个阶段的结果和下一个阶段的具体任务。箭头指出了各个阶段之间的关联。 在图1-16中,最外圈的循环表示数据挖掘本身的循环特征。数据挖掘是一项持续的工作。在上一个流程和解决方案中获得的经验与教训,可以给下一个项目提供指导。下面简要介绍每个阶段的特点。 1)商业理解 该阶段的特点是从商业角度理解项目的目标和要求,通过理论分析找出数据挖掘可操作问题,制订实现目标的初步计划。 2)数据理解 该阶段开始于原始数据的收集,然后是熟悉数据、标明数据质量问题、探索对数据的初步理解、发掘有趣的子集,以形成对探索关系的假设。 3)数据准备 该阶段包括所有从原始的、未加工的数据构造数据挖掘所需信息的活动。数据准备任务可能被实施多次,而且没有任何规定的顺序。这些任务的主要目的是从源系统根据维度分析的要求,获取所需要的信息,同时对数据进行转换和清洗。 4)建模 该阶段主要是选择和应用各种建模技术,同时对参数进行校准,以达到最优值。通常,同一类数据挖掘问题会有多种建模技术。一些技术对数据格式有特殊的要求,因此常常需要返回到数据准备阶段。 5)评估 在模型最后发布前,根据商业目标评估模型和检查模型建立的各个步骤。此阶段的关键目的是,确认重要的商业问题都得到充分考虑。 6)准备工作 模型完成后,由模型使用者(客户)根据当时的背景和目标完成情况,决定如何在现场使用模型。 2. SEMMA方法论 除了CRISP-DM方法论,SAS公司还提出了SEMMA方法论。其与CRISP-DM方法论内容十分相似,流程为定义业务问题、环境评估、数据准备、循环往复的挖掘过程、上线发布、检视。其中循环往复的挖掘过程包含探索、修改、建模、评估和抽样5个步骤,如图1-17所示。 ▲图1-17 SEMMA方法论 1)抽样 该步骤涉及数据采集、数据合并与抽样操作,目的是构造分析时用到的数据。分析人员将根据维度分析获得的结果作为分析的依据,将散落在公司内部与外部的数据进行整合。 2)探索 这个步骤有两个任务,第一个是对数据质量的探索。 变量质量方面涉及错误值(年龄=-30)、不恰当(客户的某些业务指标为缺失值,实际上是没有这个业务,值应该为“0”)、缺失值(没有客户的收入信息)、不一致(收入单位为人民币,而支出单位为美元)、不平稳(某些数据的均值变化过于剧烈)、重复(相同的交易被记录两次)和不及时(银行客户的财务数据更新滞后)等。 探索步骤主要解决错误的变量是否可以修改、是否可以使用的问题。比如,缺失值很多,平稳性、及时性很差的变量不能用于后续的数据分析,而缺失值较少的变量需要进行缺失值填补。 第二个是对变量分布形态的探索。 对变量分布形态的探索主要是对变量偏态和极端值进行探索。由于后续的统计分析大多是使用参数统计方法,这要求连续变量最好是对称分布的,这就需要我们了解每个连续变量的分布情况,并制定好变量修改的方案。 3)修改 根据变量探索的结论,对数据质量问题和分布问题涉及的变量分别做修改。数据质量问题涉及的修改包括错误编码改正、缺失值填补、单位统一等操作。变量分布问题涉及的修改包括函数转换和标准化,具体的修改方法需要与后续的统计建模方法相结合。 4)建模 根据分析的目的选取合适的模型,这部分内容在1.3节已经做了详细的阐述,这里不再赘述。 5)评估 这里指模型的样本内验证,即使用历史数据对模型表现的优劣进行评估。比如,对有监督学习使用ROC曲线和提升度等技术指标评估模型的预测能力。 03 数据挖掘建模框架的3个原则 笔者提出了数据挖掘建模框架的3个原则,即以成本-收益分析为单一分析框架、以分析主体和客体为视角构建全模型生命周期工作模板,将纷繁多样的数据挖掘应用主题归纳为3大分析范式和9大工作模板,如图1-18所示。 ▲图1-18 3大分析范式和9大工作模板 1. 以成本-收益分析为单一分析框架 世上万事万物都具有矛盾的两面性,金融数据挖掘建模力图通过数据反映行为背后的规律,紧抓主要矛盾就是找寻规律的捷径。大家都知道,挖掘有效的入模特征是数据建模的难点。一旦我们了解了分析课题的主要矛盾,这个难点就迎刃而解了。下面讲解如何使用这个框架进行分析。 首先举3个例子。
2. 以分析主体和客体为视角 在数据挖掘建模中,定义标签是主体视角。比如营销预测模型中客户是否响应,是建模人员自己定的规则,这个规则有可能是收到营销短信后三天内注册账号并产生订单。 在构建入模的特征集时需要采用客体视角,比如手机银行的营销响应模型中,入模的特征应该反映客体的成本-收益的变量,比如年龄反映的是使用手机银行和去实体渠道的成本。 当建模人员意识到标签是自己主观臆断的时候,便会对该标签的选择更用心;当意识到入模的特征来自客体时,才会从客体的视角出发更高效地构建特征集。 3. 构建全模型生命周期工作模板 我们在CRIP-DM和SEMMA的基础上提出“高质量数据挖掘模型开发七步法”,如图1-19所示。 前三步是蓄势阶段,更多的是从业务人员、数据中吸收经验并形成感知。制作特征、变量处理和建立模型阶段是丰富特征、寻找有效模型的阶段,需要通过各种手段探查到最有效的特征和精度最高的模型。最后是模型输出阶段,选出的模型不但精度高,还要稳定性强。 ▲图1-19 业务人员的业务表述 关于作者:赵仁乾,现就职于某知名500强外资企业的创新实验室,从事数据治理、数据平台开发、AI应用等工作,研究方向包括数字化运营、知识图谱等。 田建中,现就职于某大型商业银行大数据管理部,对数据挖掘在营销中的应用有深入研究。 叶本华,现某咨询公司大数据总监,主要从事企业级数据治理、数据仓库(大数据平台)建设、数据中台以及数据智能应用场景和模型设计相关工作。 常国珍,曾任毕马威咨询大数据总监,拥有近20年数据挖掘、精益数据治理、数字化运营咨询经验,是金融信用风险、反欺诈和反洗钱算法领域的专家。 本文摘编自《金融商业算法建模:基于Python和SAS》,经出版方授权发布。(ISBN:9787111692775) 《金融商业算法建模:基于Python和SAS》 点击上图了解及购买 转载请联系微信:DoctorData 推荐语:4位资深金融数据专家,面向金融业务经营全流程,针对3大主题9大模板,涵盖金融数据建模全闭环。 划重点👇 干货直达👇 更多精彩👇 在公众号对话框输入以下关键词 查看更多优质内容! 读书?|?书单?|?干货?|?讲明白?|?神操作?|?手把手 大数据?|?云计算?|?数据库?|?Python?|?爬虫?|?可视化 AI?|?人工智能?|?机器学习?|?深度学习?|?NLP 5G?|?中台?|?用户画像?|?数学?|?算法?|?数字孪生 据统计,99%的大咖都关注了这个公众号 👇 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 4:15:59- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |