数据分析介绍
数据分析概念及知识点
什么是数据分析:
数据分析是使用适当的统计分析方法对收集来的大量数据进行分析,提取用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的目的有多种,概括起来有三种:现状分析、原因分析、预测分析。现状分析简单来说就是告诉你过去发生了什么。原因分析简单来说就是告诉你某一现状为什么发生。预测分析简单来说就是预测未来会发生什么。
数据分析步骤:
数据分析主要有六个过程:
- 需求明确:明确数据分析的目标,为后面的过程做好铺垫
- 数据收集:通过爬虫、商务合作的方式,获取想要的数据
- 数据处理:对获取来的数据进行处理和清洗,把不需要的剔除掉,把需要的加工成我们想要的,方便后面的分析
- 数据分析:根据自己的目的,以及现有的数据确定好分析方法
- 数据展现:将数据按照确定好的分析方法进行展示出来。
- 撰写报告:将分析的结果通过图表和文字的方式形成报告文档。
数据分析的误区:
- 分析目的不明确,为分析而分析:一定要找准自己分析数据的目标而去分析,比如是要了解现状,还是找出原因,还是预测未来发展等,千万不要为了分析而分析这样就偏离了主题。
- 缺乏业务知识,分析结果偏离实际:分析数据的时候,一定要和公司的业务结合起来,如果脱离业务,即使数据分析方法在牛逼,图表再优美,也无济于事。
- 追求高级分析方法:一些人喜欢用一些高级的分析方法,认为只有这样才能体现专业性,其实高级的分析方法不一定是最好的,能够简单的有效的解决问题的方法才是最好的。
数据分析方法和工具:
数据分析可以通过工具,也可以通过代码实现,以下分别列出这些常用的:
- 工具:Excel、Tableau、SPSS、百度图说
- 编程:python语言、R语言、数据库的SQL语言、Excel的VBA语言等
工具和代码该怎么选:
两者没有好坏之分,只有合适之分,数据分析总体来讲有两个模块,一个是数据处理,一个是可视化。如果数据已经经过处理了,并且手头上的统计可以直接非常方便的做可视化处理,那么我们用软件来实现就可以。如果数据没有经过处理,那么最好用python或者R语言对数据进行一些处理,然后再通过软件可视化。或者软件的可视化无法满足我们的要求,那么可以通过代码来实现,总而言之,工具功能无法100%的满足你的要求,但效率高,代码数据处理比较好,但数据可视化比较繁琐,可DIY属性强。
Anaconda:
Anaconda(水蟒)是一个捆绑了Python、conda、其它相关依赖包的一个软件,包含了180多个可学计算包及其依赖。Anaconda3是集成了python3的环境,Anaconda2是集成了python2的环境。Anaconda默认集成的包,是属于内置的python包,并且支持绝大部分操作系统(比如:Windows、Mac、Linux等)。下载地址如下:https://www.anaconda.com/distribution/(如果官网下载太慢,可以在清华大学开源软件中载:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/)。根据自己的操作系统,下载相应的版本,因为Anaconda内置了许多包,所以安装过程需要耗费相当长的时间,大家安装的时候需要耐心等待,在安装完成以后,会有以下几个模块:Anaconda prompt、Anaconda Navigator、Spyder、jupyter notebook,以下分别做一些介绍:
Anaconda prompt:
Anaconda prompt是专门用来操作anaconda的终端,如果你安装了Anaconda后没有在环境变量的PATH中添加相关的环境变量,那么以后你想在终端使用anaconda相关命令,则必须要在Anaconda prompt中完成。
Anaconda Navigator:
这个相当于一个导航面板,上面组织了Anaconda相关的软件
Spyder:
一个专门开发python的软件,熟悉MATLAB的同学会比较有亲切感,后期不会使用这个工具写代码因为还有更好的可替代的工具。
jupyter notebook:
一个python编辑环境,可以实时的查看代码的运行效果
使用jupyter notebook的姿势:
- 先打开Anaconda prompt,然后进入到项目所在的目录。
- 输入命令jupyter notebook打开jupyter notebook浏览器
conda基本使用:
conda伴随着Anaconda安装而自动安装的。conda可以跟virtualenv一样管理不同的环境,也可以跟pip一样管理某个环境下的包
环境管理:
conda能跟virtualenv一样管理不同的python环境,不同的环境之间是互相隔离的,互不影响的,为什么需要创建不同的环境了?原因是有时候项目比较多,但是项目依赖的包不一样,比如A项目用的python2开发的,而B项目用的是python3开发的,那么我们在同一台电脑上就需要两套不同的环境来支撑他们运行了。
Jupyter notebook使用:
常用快捷键: 命令模式(按ESC键):
- Enter:转入编辑模式
- Shift+Enter:运行本单元,选中下一个单元
- Ctrl+Enter:运行本单元
- Alt+Enter:运行本单元,在其下插入新单元
- Y:单元转入代码状态
- M:单元转入Mardown状态
- R:单元转入raw状态
- 1:设定一级标题
- A:在上方插入新单元
- B:在下方插入新单元
- S:文件存盘
- H:显示快捷键帮助
- L:转换行号
- O:转换输出
- C:复制选中单元
- D:删除选中单元
注意事项:
jupyter notebook运行原理是把所有运行的变量存储在内存中,所以后面的cell中的代码块修改了之前cell中的值,那么重复运行cell,可能会得不到预期的结果,也有可能会报错。解决方案是点击一下>>两个箭头的按钮,让它重新从第一个cell运行一下。 比如:
a = 10
b = 20
c = a/b
b = 0
|