IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 数仓的概念及架构 -> 正文阅读

[大数据]数仓的概念及架构


一、数仓的概念(数据仓库)

1、对比记忆:

① 数据库的概念:

其实就是一种软件,用来存放数据

② 数仓的概念(全方面的数据完整保存):

是一个面向主题的、集成的、相对稳定的、反应历史变化数据的集合,用于支持管理决策

属性数据库数仓
面向内容事务主题、分析
数据存储当前最新数据历史数据
模型建设三范式星型模型

③银行主题

在这里插入图片描述

④集成:

数据仓库的中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理、汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息

⑤时间变化:

数据仓库内的信息并不只是反映企业当前的状态,而是记录从过去到当前阶段的信息,通过这些信息,对企业的发展和未来趋势做出定量分析和预测

⑥效率足够高:

数据仓库的分析一般分为日、周、月、季、年等,可以看出,日为周期要求的效率最高,要求24小时甚至12小时以内,目前普遍的数据展现方式T+1(今天抽昨天数据),当日处理昨日业务数据M+1,Q+1,Y+1(月、季、年)

⑦数据质量

基于数仓的应用所面对的一般为企业决策层用户,
所以数仓的提供的各类信息,肯定要准确的数据;由于源数据存在脏数据,所以数仓的流程通常分为多个步骤,数据抽取、清洗、转换、装载、查询、展现等;数据清洗主要对脏数据和不规范数据进行统一标准化(准确性,完整性)

⑧扩展性:

有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用花太多时间去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于因为数据源的变动而导致用户应用功能的频繁变动

2、数仓的用途

① 整合公司的所有业务数据,建立统一的数据中心
②产生业务报表、用于决策
③为网站运营提供运营上的数据支持
④可以作为各个业务的数据源,形成业务数据互相反馈的良性循环
⑤分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果
⑥开发数据产品,直接或间接地为公司盈利

3、数仓的相关技术

在这里插入图片描述
解释:
①维度:指一种视角,而不是一个固定数字;是一个判断说明评价和确定一个事物多方位、角度、多层次的条和概念
②维度可以是地域,时间、币种、机构等
③度量:真实的数据

DW的相关技术:
在这里插入图片描述

二、数据库和数仓区别

差异项业务系统 OLTP数据仓库OLAP
特征操作处理信息处理
面向事物分析
用户基层人员经理、主管、分析人员
功能日常操作长期信息需求、决策支持
DB设计基于ER模型,面向应用星形/雪花模型,面想主题
数据当前的、最新的历史的、跨时间维护
汇总原始的、高度详细汇总的、统一的
工作单元短的、简单事物复杂查询
访问读/写大多为读
关注数据进入信息输出
操作主键索引操作大量的磁盘扫描
用户数数百到数亿数百
DB规模GB到TB>TB PB EB
优选高性能,高可用性高灵活性
度量事物的吞吐量查询吞吐量、响应时间

二、数仓的架构

1、数仓系统架构图

在这里插入图片描述
解释
①数据源:业务系统(核心CBS,客户ECIF,客户关系CRM,信贷,存款,财务,反洗钱,中间业务,国际结算,银行卡)
②缓冲层:一是临时存放数据;二是标准化处理(数据类型统一,统一命名规范,删除无用字段,天剑时间戳,空值的处理)
③基础层:根据客户需求将ODS数据进行集成,按照不同行业主题进行分类,形成业务宽表
④汇总层:根据客户需求,将宽表按照按照不同的维度进行汇总
⑤应用层:可视化展示,为下游系统提供数据

2、数仓系统架构图

在这里插入图片描述

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-08-06 10:50:33  更:2022-08-06 10:55:15 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 13:07:26-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码