[大数据] 大数据学习之Hive数据仓库

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 大数据学习之Hive数据仓库 -> 正文阅读

[大数据]大数据学习之Hive数据仓库

文章目录

前言

Hive是Facebook开源的，建立在Hadoop之上的的开源数据仓库系统,它关心与海量数据的离线分析，而不是去承担业务数据处理,注意这里Hive关心海量数据，在处理小数量数据，性能表现会非常糟糕。

Hive能将Hadoop文件转换为数据库表，并针对该表提供了类SQL的查询语言

Hive的核心是将HQL转换为MapReduce程序，再将MapReduce程序提交到Hadoop集群去执行，因此使用Hive，可以不用直接编写Hadoop的MapReduce程序，减少开发成本

数据仓库

数据库与数据仓库的区别

OLTP OLAP

OLTP联机事务处理，关注的是操作数据库的实时性，用于满足日常需求，在设计上，避免产生冗余数据，数据库是为了捕获数据

OLAP联机分析处理，描述的一般是数据库，一般保存的是历史数据，为决策者提供分析，有时候为了得到分析结果，数据冗余是有必要的，而数据仓库是为了分析数据。

数据仓库的分层架构

在这里插入图片描述

源数据(ODS)：现有的一些数据，例如数据库数据
数据仓库(DW)：由元数据通过ETL统一数据格式而来，E数据抽取，T数据转换，L数据加载
数据应用(DA或APP)：对数据仓库中的数据，进行数据应用，前端能直接独去到的数据

数据模型

Hive的数据模型包括表、分区、分桶。

需要注意的是Hive表的数据是保存在HDFS上的，可通过hive-site.xml文件进行指定，而表结构相关的元数据是保存在RDBMS中的。
在这里插入图片描述
Hive也有默认数据库Default，其中有表A和表B，如果你自己也创建了数据库MYDB，那么其实在HDFS上的路径是这样的：

对于Default数据库，/{配置的路径}/A ， /{配置的路径}/B
对于MYDB数据库的表，会是这样，/{配置的路径}/MYDB.db/表名

需要注意的是，Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大，鉴于以上原因，产生了分区表。

分区表

分区表怎么实现的呢？事实上，分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的分区设计可以极大提高查询速度和性能。

这里说明一下分区表并 Hive 独有的概念，实际上这个概念非常常见。比如在我们常用的 Oracle 数据库中，当表中的数据量不断增大，查询数据的速度就会下降，这时也可以对表进行分区。表进行分区后，逻辑上表仍然是一张完整的表，只是将表中的数据存放到多个表空间（物理文件上），这样查询数据时，就不必要每次都扫描整张表，从而提升查询性能。