IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python数据分析 -> 正文阅读

[Python知识库]python数据分析

数据分析介绍

数据分析概念及知识点

什么是数据分析:

数据分析是使用适当的统计分析方法对收集来的大量数据进行分析,提取用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的目的有多种,概括起来有三种:现状分析、原因分析、预测分析。现状分析简单来说就是告诉你过去发生了什么。原因分析简单来说就是告诉你某一现状为什么发生。预测分析简单来说就是预测未来会发生什么。

数据分析步骤:

数据分析主要有六个过程:

  1. 需求明确:明确数据分析的目标,为后面的过程做好铺垫
  2. 数据收集:通过爬虫、商务合作的方式,获取想要的数据
  3. 数据处理:对获取来的数据进行处理和清洗,把不需要的剔除掉,把需要的加工成我们想要的,方便后面的分析
  4. 数据分析:根据自己的目的,以及现有的数据确定好分析方法
  5. 数据展现:将数据按照确定好的分析方法进行展示出来。
  6. 撰写报告:将分析的结果通过图表和文字的方式形成报告文档。

数据分析的误区:

  1. 分析目的不明确,为分析而分析:一定要找准自己分析数据的目标而去分析,比如是要了解现状,还是找出原因,还是预测未来发展等,千万不要为了分析而分析这样就偏离了主题。
  2. 缺乏业务知识,分析结果偏离实际:分析数据的时候,一定要和公司的业务结合起来,如果脱离业务,即使数据分析方法在牛逼,图表再优美,也无济于事。
  3. 追求高级分析方法:一些人喜欢用一些高级的分析方法,认为只有这样才能体现专业性,其实高级的分析方法不一定是最好的,能够简单的有效的解决问题的方法才是最好的。

数据分析方法和工具:

数据分析可以通过工具,也可以通过代码实现,以下分别列出这些常用的:

  1. 工具:Excel、Tableau、SPSS、百度图说
  2. 编程:python语言、R语言、数据库的SQL语言、Excel的VBA语言等

工具和代码该怎么选:

两者没有好坏之分,只有合适之分,数据分析总体来讲有两个模块,一个是数据处理,一个是可视化。如果数据已经经过处理了,并且手头上的统计可以直接非常方便的做可视化处理,那么我们用软件来实现就可以。如果数据没有经过处理,那么最好用python或者R语言对数据进行一些处理,然后再通过软件可视化。或者软件的可视化无法满足我们的要求,那么可以通过代码来实现,总而言之,工具功能无法100%的满足你的要求,但效率高,代码数据处理比较好,但数据可视化比较繁琐,可DIY属性强。

Anaconda:

Anaconda(水蟒)是一个捆绑了Python、conda、其它相关依赖包的一个软件,包含了180多个可学计算包及其依赖。Anaconda3是集成了python3的环境,Anaconda2是集成了python2的环境。Anaconda默认集成的包,是属于内置的python包,并且支持绝大部分操作系统(比如:Windows、Mac、Linux等)。下载地址如下:https://www.anaconda.com/distribution/(如果官网下载太慢,可以在清华大学开源软件中载:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/)。根据自己的操作系统,下载相应的版本,因为Anaconda内置了许多包,所以安装过程需要耗费相当长的时间,大家安装的时候需要耐心等待,在安装完成以后,会有以下几个模块:Anaconda prompt、Anaconda Navigator、Spyder、jupyter notebook,以下分别做一些介绍:

Anaconda prompt:

Anaconda prompt是专门用来操作anaconda的终端,如果你安装了Anaconda后没有在环境变量的PATH中添加相关的环境变量,那么以后你想在终端使用anaconda相关命令,则必须要在Anaconda prompt中完成。

Anaconda Navigator:

这个相当于一个导航面板,上面组织了Anaconda相关的软件

Spyder:

一个专门开发python的软件,熟悉MATLAB的同学会比较有亲切感,后期不会使用这个工具写代码因为还有更好的可替代的工具。

jupyter notebook:

一个python编辑环境,可以实时的查看代码的运行效果

使用jupyter notebook的姿势:

  1. 先打开Anaconda prompt,然后进入到项目所在的目录。
  2. 输入命令jupyter notebook打开jupyter notebook浏览器

conda基本使用:

conda伴随着Anaconda安装而自动安装的。conda可以跟virtualenv一样管理不同的环境,也可以跟pip一样管理某个环境下的包

环境管理:

conda能跟virtualenv一样管理不同的python环境,不同的环境之间是互相隔离的,互不影响的,为什么需要创建不同的环境了?原因是有时候项目比较多,但是项目依赖的包不一样,比如A项目用的python2开发的,而B项目用的是python3开发的,那么我们在同一台电脑上就需要两套不同的环境来支撑他们运行了。

Jupyter notebook使用:

常用快捷键:
命令模式(按ESC键):

  1. Enter:转入编辑模式
  2. Shift+Enter:运行本单元,选中下一个单元
  3. Ctrl+Enter:运行本单元
  4. Alt+Enter:运行本单元,在其下插入新单元
  5. Y:单元转入代码状态
  6. M:单元转入Mardown状态
  7. R:单元转入raw状态
  8. 1:设定一级标题
  9. A:在上方插入新单元
  10. B:在下方插入新单元
  11. S:文件存盘
  12. H:显示快捷键帮助
  13. L:转换行号
  14. O:转换输出
  15. C:复制选中单元
  16. D:删除选中单元

注意事项:

jupyter notebook运行原理是把所有运行的变量存储在内存中,所以后面的cell中的代码块修改了之前cell中的值,那么重复运行cell,可能会得不到预期的结果,也有可能会报错。解决方案是点击一下>>两个箭头的按钮,让它重新从第一个cell运行一下。
比如:

# 第一个cell中的代码
a = 10
b = 20

# 第二个cell中的代码
c = a/b
b = 0
# 当第二次运行时会报错,会报除0的异常。
  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-07-24 00:06:18  更:2021-07-24 00:06:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/25 14:48:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计