写在前面
数据分析师的日常工作中,与数仓同学的沟通非常密切。 本文通过阅读《大数据之路–阿里巴巴大数据实践》书籍,并列举实际工作中遇到的例子来详细解读数据分析师应该理解的数仓知识。旨在最终帮助分析师与数仓同学无GAP地沟通。
总述
数仓的基本概念
数据仓库:数据按照特定的模型组织起来。虽然对于使用者不友好,但是对于数仓管理人员相对友好,因为它按照一种集约化的规则将数据管理起来。 数据集市:面向最终用户的数据市场。数据以业务人员接受的方式组合在一起。这个组合方式是多变的,因为业务人员的需求是多变的。 数据湖:存储的是未经加工的原始数据,包含结构化和非结构化的各类数据。有点像把宜家的家具零件全部拆散存储。但是原始数据如果缺少统一的数据标准,就像不同的家具零部件之间的接口不同,那就无法组装在一起了。 数据中台:狭义的数据中台指的是一套数据应用和工具,包括分布式ETL、数据资产管理、数据标签管理、数据沙箱、自助分析平台、元数据管理、数据质量管理等。底层则有数据仓库、大数据平台等为数据源,为企业提供数据资产管理的能力。 广义的数据中台,则在狭义的数据中台基础上,包含了顶层数据战略、数据治理体系以及数据管理及运营、数据文化培养和组织架构支撑。 摘录自:https://zhuanlan.zhihu.com/p/189640832
数仓的分层
1.数据采集层 日志采集:web端日志采集技术方案、app端日志采集技术方案。 2.数据计算层 离线数据仓库:数据计算频率以天(包含小时、周和月)为单位。如T-1,则每天凌晨处理上一天的数据。 实时数据仓库:
经典数仓分层架构一般是这样的: 数据仓库的数据加工链路一般为分层的: 操作数据层(operational data store,ODS):这一层又叫做贴源层,就是最近接近数据源的一层,存储最原始的未经过太多处理的数据。 注:因真实环境中数据上报存储采集存在错误,可能会导致原始数据的字段缺失、字段不统一、格式错误等问题。一般会做一些最基本的处理,比如数据来源区分、数据按照时间分区存储、基本的数据处理(格式错误的丢弃、关键信息丢失的过滤等) 明细数据层(data warehouse detail, DWD): 汇总数据层(data warehouse summary,DWS) 应用数据层(application data store,ADS) 注:https://blog.csdn.net/xiaohu21/article/details/109149589
一些专业术语
数据烟囱:即为信息烟囱,又称为信息孤岛(英文:information island),指的是一种不能与其他相关信息系统之间进行互操作或者说协调工作的信息系统。
数据建模
什么是数据模型
数据模型就是数据组织和存储方式,强调从业务、数据存取和使用角度合理存储数据。 好的数据模型,往往能够在这些方面有较好的表现: 性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐。 成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。 效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。 质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。
|