IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 数据分析师入门教程 -> 正文阅读

[人工智能]数据分析师入门教程

Python环境安装

注意:本文默认Python指3.0以上版本即Python3

下载软件:Anaconda

官方地址:https://www.anaconda.com

国内镜像地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

注意建议安装Anaconda3,win系统安装需要先关闭360安全卫士,安装过程中Advanced Options勾选Add Anaconda to my PATH…和Reuse Anaconda as my default Python

验证安装是否成功:MAC或win终端输入conda

启动方式1:点击软件图标–>jupyter

启动方式2:打开终端输入conda执行再输入jupyter notebook

关闭方式:在终端输入control + c

Python数据采集

爬虫工具

在这里插入图片描述

爬虫的一个基本架构:爬虫调度器 -> URL管理器 -> 网页下载器() -> 网页解析器() -> 价值数据

查找第三方库官方地址:https://pypi.org/project

  • requests模块(推荐使用)

    打开终端安装:

    pip3 install requests
    

    官方使用方式:点击查看

    #!/user/bin/env python3
    # -*- coding: utf-8 -*-
    import requests
    
  • BeautifulSoup模块

    打开终端安装:

    pip3 install beautifulsoup4
    

    官方使用方式:点击查看

    非官方使用方式:点击查看

    #!/user/bin/env python3
    # -*- coding: utf-8 -*-
    from bs4 import BeautifulSoup
    
  • html5lib模块(不推荐使用)

    打开终端安装:

    pip3 install html5lib
    

    官方使用方式:点击查看

数据存储

掌握SQL语句

数据分析在工作中会经常遇到数据采集的要求。数据的来源一般是公司建立的数据平台。公司一般需要的都是一些有个性化的数据需求,这种需求没有现成的数据,所以需要数据分析去采集。采集数据的一个非常高效的办法就是掌握SQL(Structured Query Language,结构化查询语言)语句,通过编写程序查询数据。

SQL并不是一门编程语言,而是一个数据库查询和程序设计语言。使用SQL语句现在逐渐成了一项职业必备技能。要想掌握SQL语句需要完成以下2步:

第一步:学会常用的SQL语句,如select、from、where等指令,之后进行结构化数据表导出

第二步:尽量全面地了解公司有哪些数据库和数据表,以便快速熟悉及熟练工作。

Python数据分析

数据分析工具

  • Pandas模块

    Pandas 是 Python 语言的一个扩展程序库,用于数据分析。

    Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。

    Pandas 名字衍生自术语 “panel data”(面板数据)和 “Python data analysis”(Python 数据分析)。

    Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。

    Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。

    Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。

    Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

    Pandas提供了大量能使我们快速便捷地处理数据的函数和方法,使**表格化数据 **的工作快速、简单、有表现力。所以利用Pandas进行数据操作、预处理、清洗是Python数据分析中的重要技能。

Pandas点击学习

数据分析方法

数据采集过来之后,下一步就是做数据分析了,数据分析的方法论其实特别多,作为一个初学者,并不需要世界上所有的分析方法,都通通掌握,才能找工作。

我这里简单列举常用且简单的方法:对比分析法和目标锚定法。

  • 对比分析法

    数据分析的方法有很多种,最常见的是对比分析法

    对比分析法的应用场景有很多种,常用的场景是做活动效果评价,以及通过数据对比找到数据波动的“诱因”。在数据报告中,我们最常看到的是同比、环比、均值对比、竞品对标等对比性数据。

    同比:一年中相同时间周期内的数据对比,多用来与大促活动和销售类数据对比;

    环比:指对比前一段时间的数据情况,通常用于用户增长、活跃度等维度的数据对比;

    均值对比:是对比一定时间或一定范围内大盘的平均值,通常来看个别日期/渠道的数据情况;

    对标:通常是指对标竞品的产品数据或销售数据,在电商行业做数据分析比较常用到。

    做数据对比分析的最终目的是分析出导致数据异常背后的因素,这样才是有意义的。

  • 目标“锚定”法
    几乎我们通过互联网掌握的所有数据,都是对实际业务的映射,在实际业务中,我们通常会设定一个目标值。道理的确是这样,但我们在做数据运营工作时,时常会没有对比的对象,这个时候就需要设定一个对照数据,即给每个运营项目设定一个“锚定”值,这个值会让我们做数据分析时拥有目标感。对于一切偏离目标的数据,要保持警惕,对异常数据进行分析,研究其背后真实的业务情况。

    在做目标值设定时,我常用到的SMART法则,如下:在这里插入图片描述

    通过SMART法则,制定的运营对照目标相对可实现、可拆解和可量化。

通过这两种数据分析方法可以看出,数据分析更考察新人的逻辑思维能力,而不是某项工具。有人问,“女生能学数据分析吗”“文科生能学数据分析吗”,明眼人一看便可以得出,数据分析对性别和文理科的几乎没有限制,可以说人人皆可学。

Python数据可视化

数据可视化工具

Matplotlib和Seaborn是最为常用的数据可视化的工具包,解决如何通过数据来绘制图表,来更好的展示数据。

Seaborn跟Matplotlib最大的区别就是它的默认绘图风格和色彩搭配都具有现代美感。

NumPy 通常与 SciPy和 Matplotlib一起使用, 这种组合广泛用于替代 MatLab,是一个强大的科学计算环境,有助于我们通过 Python 学习数据科学或者机器学习。

一般用Tableau绘制的图表和视频。

数据展示形式

  • 柱状图

    柱状图用于展示数据分布,如用户年龄分布、用户付费金额分布、流量来源渠道分布等。在这里插入图片描述

  • 折线图

    折线图用于展示数据的变化趋势,反映一段时间内用户相关指标的上升和下降趋势,适用于展示周期性数据,如关键词周期热度、日活跃用户数(Daily Active User,DAU)、月活跃用户数(Monthly Active User,MAU)、App月度下载量等。在这里插入图片描述

  • 环状图

    环状图用于展示各个数据在总数据中的占比,适用于看数据分布的比例,如渠道流量分布、各个应用商店App的下载量分布、预算渠道分配等。在这里插入图片描述

  • 其他图

    除了以上3种常见的数据展示形式,还有雷达图(体现多维度因素对数据的影响力,如在王者荣耀游戏结束后的战局数据)、饼图(反映各个组成部分在总数据中的占比)、地域图(体现用户在全国的地域分布)等。

    在这里插入图片描述

类似的数据大屏、数据看板、驾驶舱也是可以做出来的。

数据分析师学习路线

在这里插入图片描述

  • MySQL:数据库,主要是数据的存储。(取数)
  • Hadoop:大数据平台
  • HDFS:分布式存储
  • MapReduce:分布式计算,比如1台机数据分给10台机同时进行。
  • HiveSQL数据仓库:数据处理及提取。
  • Python:语言实现自动化处理及可视化展示。
  • 数据可视化:Excel和Tableau展示
  • 数据分析方法论:统计学原理,知其然知其所然。
  • 数据挖掘:数据挖掘常用算法,决策树,K-MEANS算法,K近邻算法, 逻辑回归,神经网络,朴素贝叶斯

外快网站

  • 🔥一品威客 https://task.epwk.com/f1/o5.html?k=python
  • 🔥猪八戒项目平台 https://tf.zbj.com/sem/pc/search/?kw=python%E5%BC%80%E5%8F%91&area=&local_city_path=beijing
  • 🔥时间财富 https://www.680.com/
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-17 12:00:06  更:2021-10-17 12:01:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 10:18:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码