我理解的数据分析可以分成四个部分,除了老师说的数据采集、数据挖掘和数据可视化三个部分,还有一个数据分析结论部分,在进行数据可视化之后,给出结论通常也就是数据报表部分,并不只是简单地把数据进行统计然后进行展示,如何对可视化的数据给出正确的分析结论相当重要,这部分也会充分显示你对业务的理解,再进行数据分析之后再反哺业务,来更好地进行业务的开展。
1、数据采集
1、很重要的一点就是数据源,通常是一些专业的数据库,例如医学数据库、生物数据库、一些竞赛的案例数据,当然也可以通过爬虫技术获取一定的数据 2、有很多方法都可以实现爬虫,选择一种自己感觉简单舒适的方法就可,适当地学习一些反爬的机制,熟悉之后再了解一下分布式爬虫,很多时候爬虫需要大量的实践,需要清楚在解析页面中,我们需要爬取的是什么东西,所对应的标签是什么 3、实践,实践再实践
2、数据挖掘
1、描述性统计 2、挖掘算法包括机器学习、深度学习算法进行建模,从数据的角度来说如何进行特征选择也考验着我们对业务的理解(构造特征等),从模型的角度来说如何选择合适的模型而不是复杂的模型以及如何更好地进行调参来优化模 3、如果觉得算法原理(数学公式)难以理解,那就从项目实战入手,充分理解算法是如何解决的问题,结果是如何产生的,不能觉得难就不去思考算法原理,一回生两回熟
3、数据可视化
1、这部分不需要死记硬背,像matplotlib,seaborn两个可视化的库在官网上都有实现的案例代码,套用即可,真正需要思考的是如何结合业务或者是目标需求来选择正确的图形来呈现,从而更好地说明问题更重要 2、像一些其他的库pyechart、ploty等,很多时候也很好用,空余时间可以琢磨一下 3、一些工具也可以实现,例如微图,DataV等
4、数据分析结论
很多完成一个项目,并不是递上去一个模型就完事了,通过这个模型能够解决什么样的问题显得尤为重要,如何更好的将自己发现的事物本质或者暗含的规律简单明了地呈现出来,也是需要一定的积累的,一份好的PPT陈述给一个项目将画上一个完美的句号
|