IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 数据分析之落地sop流程(一) -> 正文阅读

[大数据]数据分析之落地sop流程(一)

前言

数据分析涉及很多知识点,各个网站也都能搜到,但很少有一种系统化的流程来参考,也有读者后台留言问到数据分析的流程,所以我认认真真的整理出一套方法论,将数据分析从0-1的流程都串联了起来。

对于分析人员来说,过程很重要,是一个发现业务价值并探索业务价值的过程;但对于领导来说,结果才最重要,只有可落地实施可带来实际效益的结果才是数据分析价值的体现。

所以,流程中的每一步铺垫与探索都是为了最终的业务价值的实现。

一、 数据分析sop流程

数据分析共包括四大阶段:

  • 需求处理阶段:考验沟通理解能力
  • 数据处理阶段:考验数据清洗及sql、python等工具使用能力
  • 数据分析与展现阶段:考验分析应用与可视化展现能力
  • 复盘跟踪阶段:考验反省优化能力

根据数据分析的sop流程,将其中的数据分析与展现阶段整理了一份思维导图,方便大家快速理解,可以先看一下。

?

其实数据分析一句话总结就是:

将一堆无序的海量数据经过一系列清洗、处理、规整、加工展现,提炼出痛点及机会,从而驱动业务增长、辅助业务决策。

二、 展开讲讲数据分析各阶段

2.1 发现问题

问题千千万,需从中找出有效问题。

有效问题就是有价值的问题:这个问题涉及了什么业务?与什么指标相关?有多大的影响?能解决什么难题?受宏观影响还是微观影响?无法避免还是本可避免?等

发现问题,可以从以下几个方面着手:

  • 与历史对比
  • 与总体对比
  • 与竞品对比
  • 与目标对比
  • 与经验对比
  • ......

2.2 需求处理阶段

需求分两块:他人驱动与自我驱动。

?他人驱动

通常由业务方、上级领导等需求方发现问题,提出需求。可能会存在需求不明确的问题,既增加沟通成本,又耗费时间成本,分析师将需求完成之后,需求方才发现自己需要的并不是这样的,成了无意义的工作、低成本的分析。所以需要清晰get到需求方的点,了解清楚需求背景、需求目的、指标口径、数据需求范围、数据需求维度、需求的期望排期等。

另外还需明确一点,数据展示聚合还是明细。如果展示聚合,需要按照什么维度聚合,按照什么方式聚合;如果需要展示明细,搞清楚为什么需要的是明细数据,因为明细数据量会比较大,既涉及数据安全,也给调取数据带来压力。有时候需求方要求明细数据,他们拿到明细数据之后还要再用excel去聚合去做数据处理,其实这一步骤分析师完全可以直接用sql或者BI产品解决。也就是说这个明细数据并不能一步到位让需求方看到他想看到的数据,所以需要引导需求方了解下他们需求的真正目的。

做到拆解需求,将抽象的需求具体化,复杂的需求简单化。

?自我驱动

即分析师本人发现问题,探索解决问题的方案。

比如某个指标波动异常,先于业务方发现并解决问题;再比如专门负责某一个项目,主动通过数据探索项目优化方案。

自我驱动的精神难能可贵。

2.3 数据采集

数据采集的目的是为了在分析中使用,多数情况下用到的是聚合数据。

数据采集分为内部数据、外部数据两大块。

?内部数据

1)需要梳理清楚这个需求需要什么数据

2)需要判别需要的数据是否能从现有数据库中获取。如果可以,应该从哪个库中的哪个表获取?这个表中字段的口径和需求所需的字段口径是否一致?

3)如果现有数据库中没有现成的数据可以满足需求,就需要梳理好口径请数仓同学重新落表。

4)如果现有数据库中有表可以满足,但是需要通过SQL层层关联才能从数据库中获取聚合数据,最好的方式请数仓同学将你所需的聚合数据落成数据库表,这样一方面你使用起来较为简单,另一方面也减少了数据展现层的BI端连接数据的压力。

?外部数据

1)行业报告数据。比如艾瑞网、极光大数据、阿里研究所、199IT互联网数据中心等都会时不时的发一些行业分析报告。整个行业的数据公司内部是无法获取的,所以可以从一些行业分析报告入手。

2)问卷采集。比如我们需要获取用户的一些①主观想法:喜欢我们产品的原因是?我们产品最吸引您的点是?您觉得我们产品最应该改进的点是?②对竞品的行为:您在xx场景下更愿意使用A产品、B产品还是C产品③用户习惯的场景:您在什么场景下更愿意使用xx产品?等,通过问卷数据获取一些产品中无法获得的数据,辅助分析。

3)宏观数据。比如我们分析的某个指标有时候也会受到宏观政策的影响。比如在xx日出具了xx政策,本公司产品在该政策之前与之后变化多大。

确保能获取核心的关键性数据,为下一步做准备。

2.4 数据处理

对分析师而言,这步需要分析师将数据根据脑中的分析框架处理成所需要的数据。

会涉及数据异常值处理、缺失值处理、数据转换、数据聚合、数据分组归类以及数据准确性的校验,为下一步的数据分析奠定好基础。

井井有条的数据更有利于分析。

2.5 数据分析

数据分析需要的工具技能主要是:

硬实力:

①数据调取:MySQL、SparkSQL、Hive、impala、Oracle、PostgreSQL等

②数据清洗或建模:Python、SPSS等

③数据可视化:Tableau、Fine BI、Quick BI、PowerBI等

④数据分析报告:ppt、excel、word

以上硬实力并不是说全部都需要,针对不同的岗位性质需要不同的技能。比如有的分析只需要会sql、可视化工具、写分析报告就可以了,有的分析额外还需要会python建模等。

软实力:

①统计知识:描述性统计、逻辑回归、假设检验等

②排查问题的能力

③沟通能力:与业务方、数仓、上级领导沟通

④归纳总结能力:从一系列分析中归纳出最重要的点

⑤数据敏感度

软实力更重要,工具大家认真学都能学会,软实力却是自己实打实的个人特色与魅力。

2.6 数据展现

以上准备都做好之后,就到了数据应用层:数据展现。数据展现普遍来说,有两种形式:数据分析报告&可视化报表。

1)数据分析报告

数据分析报告要素:数据调取时间、报告出具时间、报告负责人、数据维度、分析背景、分析目的、结论要点、附表等。

注意:

  • 最好将要点总结放在上面,这样看报告的人可以第一时间get到要点,然后再针对性去看每个要点的分析。
  • 结论要点总结,求精不求多。
  • 一张图尽量表明一个观点,而非一张图涉及很多种指标,传达很多种观点,容易造成干扰。

一份有价值的分析报告才是成果的展现。

2)BI报表

不管是采取外购的BI产品还是自研,都需要有一种敏捷BI来为数据应用提供一种入口。

我在《会计转行数分,我开启了Tableau探索之路》一文中提到过可视化的内容,大家可以去看下该文的第2点“聊聊可视化”

数据可视化旨在将复杂数据图片化,帮助人更好地分析数据。可视化并不是单纯的展示下数据,而是使分析结果可视化,注意“分析结果”这4个字。借助于图形,清晰有效的传达与沟通问题。举个例子,可视化相较于数据,好比照片相较于文字。一张好的照片可以让人瞬间发现其中的亮点,而无需在大量文字中去提取;一份优秀的可视化可以让人瞬间发现数据要传达的含义。重在直观的展示,而非简单的好看。

数据是思想,可视化是表达方式。想象一下,倘若公司没有可视化,员工基本会在数据处理上耗费大量的时间,于员工而言,耗时耗力;于企业而言,员工因数据处理而导致的加班增加了开支成本,且管理层无法第一时间迅速获得有效信息。

2.7 持续跟踪

一份分析报告的完成以及一份BI报表的上线,并不是分析的终点。分析,需要可持续化的复盘跟踪。

比如:

①跟踪分析方案有没有为公司带来实质性的价值。

该方案执行一段时间后,需要进行执行后VS执行前的对比分析,跟踪分析方案有没有为公司带来实质性的价值。

②跟踪分析数据指标异动的原因。上线了新的报表之后,需要跟踪下报表上指标的变化,及时感知数据是否出现异动以及探索异动的原因。

③跟踪分析数据实际表现与目标的差距。

通过对历史数据的归纳总结,聚焦实际表现与目标的主要差距,量化分析优势与不足。

持续化的复盘跟踪,有助于我们查漏补缺,完善方案。更有助于探索数据深层次的含义以及及时感知数据的异常波动,提升自我价值与业务价值。

三、 结语

分析其实就是要摸清楚需求对象是谁?关注点是什么?需要解决什么问题?过程服务于业务。分析师不是一线,但与一线人员息息相关。

我也不是数据分析领域的专家,就是纯粹根据日常工作总结出来的要点,希望能帮助到你们。本篇文章介绍了下数据分析的整个流程,其中有的环节会在后续文章中针对性的详细展开说说。

——公众号同名《溜溜笔记说》


历史推荐

生活笔记

分析笔记

Tableau笔记

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-01-25 10:39:53  更:2022-01-25 10:40:57 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 14:45:14-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码