IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 数仓架构及流程 -> 正文阅读

[大数据]数仓架构及流程

较常见的数仓架构
##日志采集模块
1:日志来源:web、app埋点日志、收集到日志服务器
2:使用flume的tailDIR监控日志服务器上的日志文件夹,使用Kafka channel接收,
(此过程可以对日志进行一次日志预处理,过滤掉json格式不完整和重要字段为空的数据)
3:再使用flume的Kafka source–file channel–HDFS sink,将日志收集到指定文件夹
(在可以增加过滤器,将日志中的时间戳拿到head中,以保证上传到HDFS上的数据时间的准确性)
4:将处理好的数据映射到hive的ODS层
##数仓分层介绍
tip为什么要分层:
1:(把复杂问题简单化),将复杂的任务分解成多层完成,每一层只处理相对来说简单的任务,方便问题的定位
2:(减少重复的开发),按照业务规范对数仓进行分层,能够减少相当大的重复计算,增加计算结果的复用性
3:(解耦),将真实数据与统计数据解耦开,不能让开发人员接触到敏感数据
1:ODS层(原始数据层):存放原始数据,直接加载日志数据,可以不做处理,保持日志数据原貌(flume导入的日志数据,sqoop导入的业务数据)
2:DWD层(明细数据层):对ODS层数据进行解析(将ODS层的一整条json格式字符串拆分成相应字段),清洗,去除空值,脏数据,不符合业务要求,超出业务范围的数据,脱敏,保存明细数据,一天数据代表一次业务行为
3:DWS层(数据服务层):以DWD层为基础,对数据进行轻度汇总,提供公共的聚合成度
4:DWT层(数据主题层):以DWS为基础,按业务分析主题进行划分并汇总
5:ADS 层(数据应用层):为报表系统或即席查询,数据可视化提供数据

持续更新


  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-01 14:34:51  更:2021-08-01 14:35:39 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/2 22:06:38-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码