IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 数据仓库-学习理解 -> 正文阅读

[大数据]数据仓库-学习理解

概要:数据仓库是一个过程而不是一个项目;是一个环境而不是一件产品。

数据仓库将多个数据源的数据按照一定主题集成起来,经过抽取、清洗、转换。整合后的数据不允许随便修改,定期更新,这个过程叫做ETL:抽取(extract)、转换(transform)、加载(load)。

数据仓库大致流程


ODS层:外部数据源ETL到数仓里最原始的数据
DWD层:对ODS层中的表按一定主题进行划分和加工,内容还是明细数据
DWS层:对DWD层数据进行汇总
ADS层:数据应用层,分析报表等。
DM层:data mart,数据集市,为特有业务独立提取出数据,针对性强。

数据库与数据仓库的区别

数据库:操作型处理
数据仓库:分析型处理

hive

hadoop,分布式系统架构,其中一个组件HDFS(hadoop distributed file system)用于分布式高效处理数据。

hive是建立在hadoop上的数据仓库架构,提供一系列工具来进行数据ETL(提取转化加载),定义了hive sql语言,让不懂java的人也可以进行数据处理。

MapReduce

类比:map为老师,负责分配任务,reduce为学生,负责整理结果。

看到网上几张图,比较通俗易懂:

hive的优化

1、减少数据:条件前置,减少获取列
原语句:

select a.name,b.name
from table1 a
left join table2 b
on	a.id = b.id

优化后:

select a.name,b.name
from table1 a
left join(select id,name from table2) b
on	a.id = b.id

…未完待续

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-11-23 12:26:02  更:2021-11-23 12:28:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 8:58:08-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码