IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 数据分析师也要懂的数据仓库_数仓基本概念与分层 -> 正文阅读

[大数据]数据分析师也要懂的数据仓库_数仓基本概念与分层

写在前面

数据分析师的日常工作中,与数仓同学的沟通非常密切。
本文通过阅读《大数据之路–阿里巴巴大数据实践》书籍,并列举实际工作中遇到的例子来详细解读数据分析师应该理解的数仓知识。旨在最终帮助分析师与数仓同学无GAP地沟通。

总述

在这里插入图片描述

数仓的基本概念

数据仓库:数据按照特定的模型组织起来。虽然对于使用者不友好,但是对于数仓管理人员相对友好,因为它按照一种集约化的规则将数据管理起来。
数据集市:面向最终用户的数据市场。数据以业务人员接受的方式组合在一起。这个组合方式是多变的,因为业务人员的需求是多变的。
数据湖:存储的是未经加工的原始数据,包含结构化和非结构化的各类数据。有点像把宜家的家具零件全部拆散存储。但是原始数据如果缺少统一的数据标准,就像不同的家具零部件之间的接口不同,那就无法组装在一起了。
数据中台:狭义的数据中台指的是一套数据应用和工具,包括分布式ETL、数据资产管理、数据标签管理、数据沙箱、自助分析平台、元数据管理、数据质量管理等。底层则有数据仓库、大数据平台等为数据源,为企业提供数据资产管理的能力。
广义的数据中台,则在狭义的数据中台基础上,包含了顶层数据战略、数据治理体系以及数据管理及运营、数据文化培养和组织架构支撑。
摘录自:https://zhuanlan.zhihu.com/p/189640832

数仓的分层

1.数据采集层
日志采集:web端日志采集技术方案、app端日志采集技术方案。
2.数据计算层
离线数据仓库:数据计算频率以天(包含小时、周和月)为单位。如T-1,则每天凌晨处理上一天的数据。
实时数据仓库:

经典数仓分层架构一般是这样的:
在这里插入图片描述数据仓库的数据加工链路一般为分层的:
操作数据层(operational data store,ODS):这一层又叫做贴源层,就是最近接近数据源的一层,存储最原始的未经过太多处理的数据。
注:因真实环境中数据上报存储采集存在错误,可能会导致原始数据的字段缺失、字段不统一、格式错误等问题。一般会做一些最基本的处理,比如数据来源区分、数据按照时间分区存储、基本的数据处理(格式错误的丢弃、关键信息丢失的过滤等)
明细数据层(data warehouse detail, DWD):
汇总数据层(data warehouse summary,DWS)
应用数据层(application data store,ADS)
注:https://blog.csdn.net/xiaohu21/article/details/109149589

一些专业术语

数据烟囱:即为信息烟囱,又称为信息孤岛(英文:information island),指的是一种不能与其他相关信息系统之间进行互操作或者说协调工作的信息系统。

数据建模

什么是数据模型

数据模型就是数据组织和存储方式,强调从业务、数据存取和使用角度合理存储数据。
好的数据模型,往往能够在这些方面有较好的表现:
性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐。
成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。
效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。
质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-10-18 17:27:40  更:2021-10-18 17:28:49 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 2:48:15-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码