第一章 数据分析与挖掘引入
一.什么是数据分析与挖掘
数据分析说白了,就是基于搜集到的已有数据,应用数学、统计、计算机等各方面的知识抽取出数据所包含的信息的过程。
Tips:一般来说,广义的数据分析就包括了数据的分析和挖掘两个过程。
二.数据分析与挖掘的用途
1.比较常见的例子就是企业通过数据分析得到用户偏好等信息从而进一步改进销售方案。
2.当然也可以是利用AB测试法检验网页布局的变动对交易转化率的影响,从而确定这种变动是否有利。
等等等
三.数据分析的主要过程
1.明确目标
明确自己要解决什么问题。
就比如说,某一个公司中出现了员工工资积极性底下的情况,通过简单分析是下班时间和工资水平的问题,那么这两个方面就是痛点,则需要考虑这两个因素的调整问题。
2.数据搜集
分析哪些方面的数据可能会影响到这些问题。
3.数据清洗
数据清洗需要保证数据的质量,即需要去除无用数据、不准确数据等。
4.构建模型
基本上前三步就占用了数据分析的80%的时间,所以到这一步就需要考虑是用什么样的模型有利于数据的分析。
5.模型评估
一般来说,我们不会就只用一个模型,所以我们一般是多个模型使用,然后指定一个共同的评判标准,得出“loss”最小的模型。
6.应用部署
最后就可以将构建的模型、模式部署到实际应用中去。
四.常用的数据分析工具
1.python
2.SAS
3.Weka
4.SPSS
5.R语言
|