Python环境安装
注意:本文默认Python指3.0以上版本即Python3
下载软件:Anaconda
官方地址:https://www.anaconda.com
国内镜像地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
注意建议安装Anaconda3,win系统安装需要先关闭360安全卫士,安装过程中Advanced Options勾选Add Anaconda to my PATH…和Reuse Anaconda as my default Python
验证安装是否成功:MAC或win终端输入conda
启动方式1:点击软件图标–>jupyter
启动方式2:打开终端输入conda执行再输入jupyter notebook
关闭方式:在终端输入control + c
Python数据采集
爬虫工具
爬虫的一个基本架构:爬虫调度器 -> URL管理器 -> 网页下载器() -> 网页解析器() -> 价值数据
查找第三方库官方地址:https://pypi.org/project
数据存储
掌握SQL语句
数据分析在工作中会经常遇到数据采集的要求。数据的来源一般是公司建立的数据平台。公司一般需要的都是一些有个性化的数据需求,这种需求没有现成的数据,所以需要数据分析去采集。采集数据的一个非常高效的办法就是掌握SQL(Structured Query Language,结构化查询语言)语句,通过编写程序查询数据。
SQL并不是一门编程语言,而是一个数据库查询和程序设计语言。使用SQL语句现在逐渐成了一项职业必备技能。要想掌握SQL语句需要完成以下2步:
第一步:学会常用的SQL语句,如select、from、where等指令,之后进行结构化数据表导出
第二步:尽量全面地了解公司有哪些数据库和数据表,以便快速熟悉及熟练工作。
Python数据分析
数据分析工具
-
Pandas模块 Pandas 是 Python 语言的一个扩展程序库,用于数据分析。 Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。 Pandas 名字衍生自术语 “panel data”(面板数据)和 “Python data analysis”(Python 数据分析)。 Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。 Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。 Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。 Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。 Pandas提供了大量能使我们快速便捷地处理数据的函数和方法,使**表格化数据 **的工作快速、简单、有表现力。所以利用Pandas进行数据操作、预处理、清洗是Python数据分析中的重要技能。
Pandas点击学习
数据分析方法
数据采集过来之后,下一步就是做数据分析了,数据分析的方法论其实特别多,作为一个初学者,并不需要世界上所有的分析方法,都通通掌握,才能找工作。
我这里简单列举常用且简单的方法:对比分析法和目标锚定法。
-
对比分析法 数据分析的方法有很多种,最常见的是对比分析法 对比分析法的应用场景有很多种,常用的场景是做活动效果评价,以及通过数据对比找到数据波动的“诱因”。在数据报告中,我们最常看到的是同比、环比、均值对比、竞品对标等对比性数据。 同比:一年中相同时间周期内的数据对比,多用来与大促活动和销售类数据对比; 环比:指对比前一段时间的数据情况,通常用于用户增长、活跃度等维度的数据对比; 均值对比:是对比一定时间或一定范围内大盘的平均值,通常来看个别日期/渠道的数据情况; 对标:通常是指对标竞品的产品数据或销售数据,在电商行业做数据分析比较常用到。 做数据对比分析的最终目的是分析出导致数据异常背后的因素,这样才是有意义的。 -
目标“锚定”法 几乎我们通过互联网掌握的所有数据,都是对实际业务的映射,在实际业务中,我们通常会设定一个目标值。道理的确是这样,但我们在做数据运营工作时,时常会没有对比的对象,这个时候就需要设定一个对照数据,即给每个运营项目设定一个“锚定”值,这个值会让我们做数据分析时拥有目标感。对于一切偏离目标的数据,要保持警惕,对异常数据进行分析,研究其背后真实的业务情况。 在做目标值设定时,我常用到的SMART法则,如下: 通过SMART法则,制定的运营对照目标相对可实现、可拆解和可量化。
通过这两种数据分析方法可以看出,数据分析更考察新人的逻辑思维能力,而不是某项工具。有人问,“女生能学数据分析吗”“文科生能学数据分析吗”,明眼人一看便可以得出,数据分析对性别和文理科的几乎没有限制,可以说人人皆可学。
Python数据可视化
数据可视化工具
Matplotlib和Seaborn是最为常用的数据可视化的工具包,解决如何通过数据来绘制图表,来更好的展示数据。
Seaborn跟Matplotlib最大的区别就是它的默认绘图风格和色彩搭配都具有现代美感。
NumPy 通常与 SciPy和 Matplotlib一起使用, 这种组合广泛用于替代 MatLab,是一个强大的科学计算环境,有助于我们通过 Python 学习数据科学或者机器学习。
一般用Tableau绘制的图表和视频。
数据展示形式
类似的数据大屏、数据看板、驾驶舱也是可以做出来的。
数据分析师学习路线
- MySQL:数据库,主要是数据的存储。(取数)
- Hadoop:大数据平台
- HDFS:分布式存储
- MapReduce:分布式计算,比如1台机数据分给10台机同时进行。
- HiveSQL数据仓库:数据处理及提取。
- Python:语言实现自动化处理及可视化展示。
- 数据可视化:Excel和Tableau展示
- 数据分析方法论:统计学原理,知其然知其所然。
- 数据挖掘:数据挖掘常用算法,决策树,K-MEANS算法,K近邻算法, 逻辑回归,神经网络,朴素贝叶斯
外快网站
- 🔥一品威客 https://task.epwk.com/f1/o5.html?k=python
- 🔥猪八戒项目平台 https://tf.zbj.com/sem/pc/search/?kw=python%E5%BC%80%E5%8F%91&area=&local_city_path=beijing
- 🔥时间财富 https://www.680.com/
|