数据仓库
理论是指导实践的基石,所以先过一遍理论可以为未来操作提供良好的基础。
什么是数据仓库(what)
构建面向分析的集成化数据环境,为企业提供决策支持。说白了就是存放很多按主题分类且不常变动数据的地方,这些数据主要有几个特征分别是面向主题,集成的,相对稳定的,反映历史变化的。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因,数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。
为什么要用数据仓库(why)
随着项目产生的数据越来越多,我们需要一个地方存储这些海量的数据,所以就有了数据仓库。**那为什么不能就存放在我们的数据库中呢?**我认为这主要是我们对数据处理方式的不同。
数据处理方式
大概可以分为两种:
我们从英文缩写就可以看出其中的T为transaction表示交易事务的意思,而其中A为Analytical表示分析的意思。
OLTP的特点是会有高并发且数据量级不大的查询,是主要用于管理事务的系统。此类系统专注于如INSERT, UPDATE, DELETE操作。通常存在此类系统中的数据都是以实体对象模型来存储数据,并满足3NF(数据库第三范式)。
OLAP特点是查询频率较 OLTP系统更低,但通常会涉及到非常复杂的聚合计算。OLAP系统以维度模型来存储历史数据,其主要存储描述性的数据并且在结构上都是同质的。OLAP则是为了分析数据而设计(数据仓库),其查询的方式往往是复杂且未知的,通常会涉及大量数据在汇总后的计算,这种需要基于多维视图的数据操作在OLTP上执行的时候性能将是非常差的,并且是也是极其危险的。
| OLTP | OLAP |
---|
用户 | 业务开发人员 | 分析决策人员 | 功能 | 日常事务处理 | 分析决策 | 模型 | 关系模型 | 多维模型 | 数据量 | 不大 | 海量 | 操作类型 | 增删改查 | 查询为主 |
建设数据仓库的意义
回归到一开始的问题,我们为什么要用数据仓库呢?它到底有啥用呢?
最简单的数据仓库是用于存储和报告数据的系统。**数据通常源自多个系统,然后将其移入数据仓库以进行长期存储和分析。**该存储的结构使得我们根据需要访问和分析数据。
项目建设数据仓库的意义主要在于提供运营改善策略和产品改善设计的数据支持。
怎么构建数据仓库(how)
首先我们需要理解数据从哪来,像用户在客户端上所有的操作数据,比如用户在某个页面的停留时间,用户朗读时间,用户的课程计划等等,这些数据会随着用户的操作记录下来,这时我们需要用ETL技术将这些数据抽取、洗净、传输到数据仓库中的ODS层。
在ETL技术中常用的开源主件是sqoop,sqoop是Apache开源的一款在Hadoop和关系数据库服务器之间传输数据的工具。 将一个关系型数据库(MySQL ,Oracle等)的数据导入到Hadoop的HDFS中,也可以将HDFS 的数据导出到关系型数据库中。 sqoop命令的本质是转化为MapReduce程序。
而我们项目中主要采用datax实现业务数据的ETL过程,datax功能与sqoop相似,但功能更加强大,主要用于各种异构数据源之间高效的数据同步功能。
知道数据怎么来的之后,我们从下到上依次来看看数据仓库到底怎么构建的。
ODS原始数据层
该层最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入ODS层。
**ODS层是数据仓库准备区,为数据仓库提供基础原始数据,可减少对业务系统的影响。**如果没有ODS层直接对业务数据库进行操作,那么会对业务系统造成拥挤等情况,所以ODS层的意义就是在于我可以同步一个一样的数据放到这里,我对ODS层的操作不会影响到业务系统。
例如:MySQL里面的一张表可以通过sqoop或者datax之间抽取到ODS层。
DW数据仓库层(CDM公共维度模型层)
该层从ODS层中获得的数据按照主题建立各种数据模型。在这里又可以分为DWD,DWS层,对于不同层有不同的定义:
- DWD层为DW层提供来源明细数据,提供业务系统细节数据的长期沉淀,为未来分析类需求的扩展提供历史数据支撑
- DWS层提供细粒度数据,细化成DWB和DWS; DWB是根据DWD明细数据进行转换,如字段合并、空值处理、脏数据处理等; DWS是根据DWB层数据按各个维度ID进行高粒度汇总聚合。
当然这一层我查阅了不同的资料,每家公司都有不同的分层,但我觉得万变不离其宗的是数据在DW层将被按照数据颗粒度粗细划分成不同的层次。
ADS数据服务层
该层主要是提供数据产品和数据分析使用的数据,一般会存放在ES、MySQL等系统中供线上系统使用,或者直接以csv形式展示。
例如:我们经常说的报表数据,或者说那种大宽表,一般就放在这里
其实这一层就是我们运营需要的报表,像用户留存,学习环境完成度等等。
以上就是自底向上构建数据仓库的层级,不同分层与我们表的命名息息相关,所以理解数据仓库的构建对于我们后续操作是很有必要的。
|