数据分析与挖掘概述
1.什么是数据分析和挖掘
数据分析和挖掘都是基于搜集来的数据,应用数学、统计、计算机等技术抽取出数据中的有用信息,进而为决策提供依据和指导方向。 -应用漏斗分析法挖掘出用户体验过程中的不足之处,从而进一步改善产品的用户流程。 -利用AB测试法检验网页布局的变动对交易转化率的影响,从而确定这种变动是否有利。 -基于RFM模型实现用户的价值分析,进而针对不同价值等级的用户采用各自的营销方案,实现精准触达。
2.数据分析与挖掘的应用领域
应用领域的案例
2.1.企业经营管理
企业内部的经营交易信息、互联网中的商品物流信息、人与人交互信息、位置信息等数据是现代企业的重要资源,是企业运用科学管理、决策分析的基础。对于一般的企业而言,大数据的作用主要表现在两个方面: (1)帮助企业了解用户 大数据可以通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。比如,大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。 在电商领域,大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度,例如帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格; (2)帮助企业了解自己 企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。
2.2.智慧城市
众所周知,在疫情期间“健康码”的快速问世,为处于疫情之下的人们提供了出行的方便。AI测温设备的应用,避免了公共场所人员的聚集,同时也为工厂复工提供可靠的保障……以上都是大数据在智慧城市中的应用。除此以外,大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;电力企业会通过大数据实时做数据的监测和预测,让我们更好、更方便做这种电力的调度。 甚至如今的政务服务基于大数据运用开发的城市政务服务系统,真正实现了让市民足不出户办理各项政府管理事务。比如政务服务“指尖办理、秒批服务”就是利用大数据、人工智能等先进技术,实现网上申请、无人干预自动审批服务、审批结果主动及时送达的政务服务新模式。让政府在需要的时间、需要的地方出现,做实服务内容,进一步优化服务资源,给市民带来较强的获得感与幸福感。
2.3.智慧医疗
大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物。
3.数据分析与挖掘的区别
4.数据挖掘的流程
4.1明确目标
这是数据分析与挖掘的第一步,即明确数据分析的对象、目标、或任务。此环节应该跟业务需求方多次沟通与合作,把握最终要解决的问题。
4.2搜集数据
明确企业面临的痛点或工作中需要处理的问题后,下一步就得规划哪些数据可能会影响到这些问题的答案,这一步就称为数据的搜集过程。
4.3清洗数据
为确保数据分析或挖掘结果的准确性,往往需要对数据做一些基本的清洗和整理,如数据的一致性检验、缺失值和异常值的处理以及无量纲化处理等。
4.4构建模型
建模的目的主要是为了预测,例如使用线性回归模型预测产品的销售额;利用决策树模型预测用户是否具有欺诈行为;利用朴素贝叶斯模型预测邮件是否为垃圾邮件。
4.5模型评估
通常情况下,在模型搭建好后,并不意味着分析或挖掘任务的结束,还需要对模型的拟合效果做评估,其目的就是不断优化模型,使最终的模型能够更好地反映数据的真实性
4.6应用部署
挖掘出来的模式或规律是给真正的业务方或客户服务的,故需要将这些模式重新部署到系统中。这里的部署就是常说的“上线”,方便业务方或客户直接操作搭建的模型。
5.常用的数据分析与挖掘工具
5.1 R语言
R语言是由奥克兰大学统计系的Robert和Ross共同开发的,并在1993年首次亮相。其具备灵活的数据操作、高效的向量化运算、优秀的数据可视化等优点,受到用户的广泛欢迎。 它是一款优秀的数据挖掘工具,用户可以借助强大的第三方扩展包,实现各种数据挖掘算法的落地。
5.2 python
Pyhton是由荷兰人Guido van Rossum于1989年发明的,并在1991年首次公开发行。它是一款简单易学的编程类工具,同时,其编写的代码具有简洁性、易读性和易维护性等优点,也受到广大用户的青睐。 借助于pandas、statsmodels、scipy等模块用于数据处理和统计分析;matplotlib、seaborn、bokeh等模块实现数据的可视化功能;sklearn、PyML、keras、tensorflow等模块实现数据挖掘、深度学习等操作。
5.3 Weka
Weka由新西兰怀卡托大学计算机系Ian Written博士于1992年末发起开发,并在1996年公开发布Weka 2.1版本。它是一款公开的数据挖掘平台,包含数据预处理、数据可视化等功能,以及各种常用的回归、分类、聚类、关联规则等算法。 对于不擅长编程的用户,可以通过Weka的图形化界面完成数据分析或挖掘的工作内容。
5.4 SAS
SAS是由美国北卡罗来纳州大学开发的统计分析软件,当时主要是为了解决生物统计方面的数据分析。在1976年成立SAS软件研究所,经过多年的完善和发展,最终在国际上被誉为统计分析的标准软件,进而受到各个领域的广泛应用。
5.5 SPSS
SPSS是世界上最早的统计分析软件,最初由斯坦福大学的三个研究生在1968年研发成功,并成立SPSS公司,而且在1975年成立了SPSS芝加哥总部。用户通过SPSS的界面实现数据的统计分析和建模、数据可视化及报表输出,简单的操作受到了众多用户的喜爱。 除此之外,SPSS还有一款Modeler工具,其充分体现了数据挖掘的各个流程,例如数据的导入、清洗、探索性分析、模型选择、模型评估和结果输出,用户可基于界面化的操作完成数据挖掘的各个环节。
|