数据分析介绍

数据分析概念及知识点

什么是数据分析：

数据分析是使用适当的统计分析方法对收集来的大量数据进行分析，提取用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的目的有多种，概括起来有三种：现状分析、原因分析、预测分析。现状分析简单来说就是告诉你过去发生了什么。原因分析简单来说就是告诉你某一现状为什么发生。预测分析简单来说就是预测未来会发生什么。

数据分析步骤：

数据分析主要有六个过程：

需求明确：明确数据分析的目标，为后面的过程做好铺垫
数据收集：通过爬虫、商务合作的方式，获取想要的数据
数据处理：对获取来的数据进行处理和清洗，把不需要的剔除掉，把需要的加工成我们想要的，方便后面的分析
数据分析：根据自己的目的，以及现有的数据确定好分析方法
数据展现：将数据按照确定好的分析方法进行展示出来。
撰写报告：将分析的结果通过图表和文字的方式形成报告文档。

数据分析的误区：

分析目的不明确，为分析而分析:一定要找准自己分析数据的目标而去分析，比如是要了解现状，还是找出原因，还是预测未来发展等，千万不要为了分析而分析这样就偏离了主题。
缺乏业务知识，分析结果偏离实际:分析数据的时候，一定要和公司的业务结合起来，如果脱离业务，即使数据分析方法在牛逼，图表再优美，也无济于事。
追求高级分析方法:一些人喜欢用一些高级的分析方法，认为只有这样才能体现专业性，其实高级的分析方法不一定是最好的，能够简单的有效的解决问题的方法才是最好的。

数据分析方法和工具：

数据分析可以通过工具，也可以通过代码实现，以下分别列出这些常用的:

工具：Excel、Tableau、SPSS、百度图说
编程：python语言、R语言、数据库的SQL语言、Excel的VBA语言等

工具和代码该怎么选：

两者没有好坏之分，只有合适之分，数据分析总体来讲有两个模块，一个是数据处理，一个是可视化。如果数据已经经过处理了，并且手头上的统计可以直接非常方便的做可视化处理，那么我们用软件来实现就可以。如果数据没有经过处理，那么最好用python或者R语言对数据进行一些处理，然后再通过软件可视化。或者软件的可视化无法满足我们的要求，那么可以通过代码来实现，总而言之，工具功能无法100%的满足你的要求，但效率高，代码数据处理比较好，但数据可视化比较繁琐，可DIY属性强。

Anaconda:

Anaconda(水蟒）是一个捆绑了Python、conda、其它相关依赖包的一个软件，包含了180多个可学计算包及其依赖。Anaconda3是集成了python3的环境，Anaconda2是集成了python2的环境。Anaconda默认集成的包，是属于内置的python包，并且支持绝大部分操作系统(比如：Windows、Mac、Linux等)。下载地址如下：https://www.anaconda.com/distribution/(如果官网下载太慢，可以在清华大学开源软件中载：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/)。根据自己的操作系统，下载相应的版本，因为Anaconda内置了许多包，所以安装过程需要耗费相当长的时间，大家安装的时候需要耐心等待，在安装完成以后，会有以下几个模块：Anaconda prompt、Anaconda Navigator、Spyder、jupyter notebook，以下分别做一些介绍：

Anaconda prompt:

Anaconda prompt是专门用来操作anaconda的终端，如果你安装了Anaconda后没有在环境变量的PATH中添加相关的环境变量，那么以后你想在终端使用anaconda相关命令，则必须要在Anaconda prompt中完成。

Anaconda Navigator：

这个相当于一个导航面板，上面组织了Anaconda相关的软件

Spyder:

一个专门开发python的软件，熟悉MATLAB的同学会比较有亲切感，后期不会使用这个工具写代码因为还有更好的可替代的工具。

jupyter notebook:

一个python编辑环境，可以实时的查看代码的运行效果

使用jupyter notebook的姿势：

先打开Anaconda prompt,然后进入到项目所在的目录。
输入命令jupyter notebook打开jupyter notebook浏览器

conda基本使用：

conda伴随着Anaconda安装而自动安装的。conda可以跟virtualenv一样管理不同的环境，也可以跟pip一样管理某个环境下的包

环境管理：

conda能跟virtualenv一样管理不同的python环境，不同的环境之间是互相隔离的，互不影响的，为什么需要创建不同的环境了？原因是有时候项目比较多，但是项目依赖的包不一样，比如A项目用的python2开发的，而B项目用的是python3开发的，那么我们在同一台电脑上就需要两套不同的环境来支撑他们运行了。

Jupyter notebook使用:

常用快捷键：
命令模式(按ESC键):

Enter:转入编辑模式
Shift+Enter:运行本单元，选中下一个单元
Ctrl+Enter:运行本单元
Alt+Enter:运行本单元，在其下插入新单元
Y:单元转入代码状态
M:单元转入Mardown状态
R:单元转入raw状态
1:设定一级标题
A:在上方插入新单元
B:在下方插入新单元
S:文件存盘
H:显示快捷键帮助
L:转换行号
O:转换输出
C:复制选中单元
D:删除选中单元

注意事项：

jupyter notebook运行原理是把所有运行的变量存储在内存中，所以后面的cell中的代码块修改了之前cell中的值，那么重复运行cell，可能会得不到预期的结果，也有可能会报错。解决方案是点击一下>>两个箭头的按钮，让它重新从第一个cell运行一下。
比如：

# 第一个cell中的代码
a = 10
b = 20

# 第二个cell中的代码
c = a/b
b = 0
# 当第二次运行时会报错,会报除0的异常。

Python知识库最新文章

Python中String模块

【Python】 14-CVS文件操作

python的panda库读写文件

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

python变量

加:2021-07-24 00:06:18 更:2021-07-24 00:06:55

360图书馆购物三丰科技阅读网日历万年历 2025年8日历

-2025/8/25 4:17:40-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码