IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 大白话理解数据仓库建设 -> 正文阅读

[大数据]大白话理解数据仓库建设

数据仓库

理论是指导实践的基石,所以先过一遍理论可以为未来操作提供良好的基础。

什么是数据仓库(what)

构建面向分析的集成化数据环境,为企业提供决策支持。说白了就是存放很多按主题分类且不常变动数据的地方,这些数据主要有几个特征分别是面向主题,集成的,相对稳定的,反映历史变化的。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因,数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。

为什么要用数据仓库(why)

随着项目产生的数据越来越多,我们需要一个地方存储这些海量的数据,所以就有了数据仓库。**那为什么不能就存放在我们的数据库中呢?**我认为这主要是我们对数据处理方式的不同。

数据处理方式

大概可以分为两种:

  • 联机事务处理(OLTP)
  • 联机分析处理(OLAP)

我们从英文缩写就可以看出其中的T为transaction表示交易事务的意思,而其中A为Analytical表示分析的意思。

OLTP的特点是会有高并发且数据量级不大的查询,是主要用于管理事务的系统。此类系统专注于如INSERT, UPDATE, DELETE操作。通常存在此类系统中的数据都是以实体对象模型来存储数据,并满足3NF(数据库第三范式)。

OLAP特点是查询频率较 OLTP系统更低,但通常会涉及到非常复杂的聚合计算。OLAP系统以维度模型来存储历史数据,其主要存储描述性的数据并且在结构上都是同质的。OLAP则是为了分析数据而设计(数据仓库),其查询的方式往往是复杂且未知的,通常会涉及大量数据在汇总后的计算,这种需要基于多维视图的数据操作在OLTP上执行的时候性能将是非常差的,并且是也是极其危险的。

OLTPOLAP
用户业务开发人员分析决策人员
功能日常事务处理分析决策
模型关系模型多维模型
数据量不大海量
操作类型增删改查查询为主
建设数据仓库的意义

回归到一开始的问题,我们为什么要用数据仓库呢?它到底有啥用呢?

最简单的数据仓库是用于存储和报告数据的系统。**数据通常源自多个系统,然后将其移入数据仓库以进行长期存储和分析。**该存储的结构使得我们根据需要访问和分析数据。

项目建设数据仓库的意义主要在于提供运营改善策略和产品改善设计的数据支持。

怎么构建数据仓库(how)

首先我们需要理解数据从哪来,像用户在客户端上所有的操作数据,比如用户在某个页面的停留时间,用户朗读时间,用户的课程计划等等,这些数据会随着用户的操作记录下来,这时我们需要用ETL技术将这些数据抽取、洗净、传输到数据仓库中的ODS层。

在ETL技术中常用的开源主件是sqoop,sqoop是Apache开源的一款在Hadoop和关系数据库服务器之间传输数据的工具。 将一个关系型数据库(MySQL ,Oracle等)的数据导入到Hadoop的HDFS中,也可以将HDFS 的数据导出到关系型数据库中。 sqoop命令的本质是转化为MapReduce程序。

而我们项目中主要采用datax实现业务数据的ETL过程,datax功能与sqoop相似,但功能更加强大,主要用于各种异构数据源之间高效的数据同步功能。

知道数据怎么来的之后,我们从下到上依次来看看数据仓库到底怎么构建的。

ODS原始数据层

该层最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入ODS层。

**ODS层是数据仓库准备区,为数据仓库提供基础原始数据,可减少对业务系统的影响。**如果没有ODS层直接对业务数据库进行操作,那么会对业务系统造成拥挤等情况,所以ODS层的意义就是在于我可以同步一个一样的数据放到这里,我对ODS层的操作不会影响到业务系统。

例如:MySQL里面的一张表可以通过sqoop或者datax之间抽取到ODS层。

DW数据仓库层(CDM公共维度模型层)

该层从ODS层中获得的数据按照主题建立各种数据模型。在这里又可以分为DWD,DWS层,对于不同层有不同的定义:

  • DWD层为DW层提供来源明细数据,提供业务系统细节数据的长期沉淀,为未来分析类需求的扩展提供历史数据支撑
  • DWS层提供细粒度数据,细化成DWB和DWS; DWB是根据DWD明细数据进行转换,如字段合并、空值处理、脏数据处理等; DWS是根据DWB层数据按各个维度ID进行高粒度汇总聚合。

当然这一层我查阅了不同的资料,每家公司都有不同的分层,但我觉得万变不离其宗的是数据在DW层将被按照数据颗粒度粗细划分成不同的层次。

ADS数据服务层

该层主要是提供数据产品和数据分析使用的数据,一般会存放在ES、MySQL等系统中供线上系统使用,或者直接以csv形式展示。

例如:我们经常说的报表数据,或者说那种大宽表,一般就放在这里

其实这一层就是我们运营需要的报表,像用户留存,学习环境完成度等等。

image-20220412181843480

以上就是自底向上构建数据仓库的层级,不同分层与我们表的命名息息相关,所以理解数据仓库的构建对于我们后续操作是很有必要的。

image-20220412182248150

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-04-15 00:05:37  更:2022-04-15 00:11:30 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年10日历 -2024/10/18 14:19:54-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码