IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hive之查询操作 -> 正文阅读

[大数据]Hive之查询操作

目录

一、查询总述

select执行顺序

二、基本查询

重命名

算术运算符

常用函数

Limit语句

Where语句

比较运算符

Like和RLike

逻辑运算符

三、分组查询

Group By语句

Having语句

四、Join语句

等值Join

内连接

左外连接

右外连接

满外连接

多表连接

笛卡尔积

五、排序

全局排序(Order By)

重命名排序

多个列排序

每个Reduce内部排序(Sort By)

分区distribute by

分区排序(Cluster By)


一、查询总述

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
??FROM table_reference    来自什么表
??[WHERE where_condition] 过滤
??[GROUP BY col_list]     分组查询
   [HAVING col_list]      分组后过滤
??[ORDER BY col_list]     排序    
??[CLUSTER BY col_list  
????| [DISTRIBUTE BY col_list] 
[SORT BY col_list]
??]
?[LIMIT number]           限制输出的行数

select执行顺序

?select
? count(*)
?from join on  where group by having order by limit 
?from >join on>where>group by >count(*)>having>select >order by >limit 执行次序
?from >join on>where>group by >select>count(*)>having >order by >limit 书写次寻

二、基本查询

select * from emp; //全表查询
select empno, ename from emp; //特定查询
(1)SQL 语言大小写不敏感。 
(2)SQL 可以写在一行或者多行
(3)关键字不能被缩写也不能分行
(4)各子句一般要分行写。
(5)使用缩进提高语句的可读性。

重命名

select ename as name, deptno dn from emp;

算术运算符

运算符

描述

A+B

A和B 相加

A-B

A减去B

A*B

A和B 相乘

A/B

A除以B

A%B

A对B取余

A&B

A和B按位取与

A|B

A和B按位取或

A^B

A和B按位取异或

~A

A按位取反

常用函数

select count(*) cnt from emp; //总行数
select max(sal) max_sal from emp; //最大值
select max(sal) max_sal from emp; //最小值
select sum(sal) sum_sal from emp; //求和
select avg(sal) avg_sal from emp; //平均值

Limit语句

select * from emp limit 5; //限制返回行数
select * from emp limit 2,3; //从第二行开始返回 返回三行

Where语句

select * from emp where sal >1000 //过滤

比较运算符

操作符

支持的数据类型

描述

A=B

基本数据类型

如果A等于B则返回TRUE,反之返回FALSE

A<=>B

基本数据类型

如果A和B都为NULL,则返回TRUE,如果一边为NULL,返回False

A<>B, A!=B

基本数据类型

A或者B为NULL则返回NULL;如果A不等于B,则返回TRUE,反之返回FALSE

A<B

基本数据类型

A或者B为NULL,则返回NULL;如果A小于B,则返回TRUE,反之返回FALSE

A<=B

基本数据类型

A或者B为NULL,则返回NULL;如果A小于等于B,则返回TRUE,反之返回FALSE

A>B

基本数据类型

A或者B为NULL,则返回NULL;如果A大于B,则返回TRUE,反之返回FALSE

A>=B

基本数据类型

A或者B为NULL,则返回NULL;如果A大于等于B,则返回TRUE,反之返回FALSE

A [NOT] BETWEEN B AND C

基本数据类型

如果A,B或者C任一为NULL,则结果为NULL。如果A的值大于等于B而且小于或等于C,则结果为TRUE,反之为FALSE。如果使用NOT关键字则可达到相反的效果。

A IS NULL

所有数据类型

如果A等于NULL,则返回TRUE,反之返回FALSE

A IS NOT NULL

所有数据类型

如果A不等于NULL,则返回TRUE,反之返回FALSE

IN(数值1, 数值2)

所有数据类型

使用 IN运算显示列表中的值

A [NOT] LIKE B

STRING 类型

B是一个SQL下的简单正则表达式,也叫通配符模式如果A与其匹配的话,则返回TRUE;反之返回FALSE。B的表达式说明如下:‘x%’表示A必须以字母‘x’开头,‘%x’表示A必须以字母’x’结尾,而‘%x%’表示A包含有字母’x’,可以位于开头,结尾或者字符串中间。如果使用NOT关键字则可达到相反的效果。

A RLIKE B, A REGEXP B

STRING 类型

B是基于java的正则表达式,如果A与其匹配,则返回TRUE;反之返回FALSE。匹配使用的是JDK中的正则表达式接口实现的,因为正则也依据其中的规则。例如,正则表达式必须和整个字符串A相匹配,而不是只需与其字符串匹配。

Like和RLike

//查找名字以S开头的员工信息
select * from emp where ename LIKE 'S%';
select * from emp where ename RLIKE '^S';
//查找名字以S结尾的员工信息
select * from emp where ename LIKE '%S';
select * from emp where ename RLIKE 'S$';
//查找名字中带有S的员工信息
select * from emp where ename  LIKE '%S%';
select * from emp where ename  RLIKE '[S]';

逻辑运算符

操作符

含义

AND

逻辑并

OR

逻辑或

NOT

逻辑否

三、分组查询

Group By语句

//计算emp表每个部门的平均工资
select deptno, avg(sal) avg_sal from emp group by deptno;
//计算emp每个部门中每个岗位的最高薪水
select deptno, job, max(sal) max_sal from emp  group by deptno, job;

Having语句

having与where不同点
(1)where后面不能写分组聚合函数,而having后面可以使用分组聚合函数。
(2)having只用于group by分组统计语句。

//求每个部门的平均薪水大于2000的部门
hive (default)> select deptno, avg(sal) avg_sal from emp group by deptno  having avg_sal > 2000;

四、Join语句

等值Join

select e.empno, e.ename, d.dname from emp e join dept d on e.deptno = d.deptno;

内连接

????????只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。

左外连接

????????JOIN操作符左边表中符合WHERE子句的所有记录将会被返回

select e.empno, e.ename, d.deptno from emp e left join dept d on e.deptno = d.deptno;

右外连接

????????JOIN操作符右边表中符合WHERE子句的所有记录将会被返回。

select e.empno, e.ename, d.deptno from emp e right join dept d on e.deptno = d.deptno;

满外连接

????????将会返回所有表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话,那么就使用NULL值替代。

select e.empno, e.ename, d.deptno from emp e full join dept d on e.deptno = d.deptno;

多表连接

SELECT e.ename, d.dname, l.loc_name
FROM   emp e 
JOIN   dept d
ON     d.deptno = e.deptno 
JOIN   location l
ON     d.loc = l.loc;

????????大多数情况下,Hive会对每对JOIN连接对象启动一个MapReduce任务。本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l;进行连接操作。Hive总是按照从左到右的顺序执行的。

笛卡尔积

select empno, dname from emp, dept; //一定要避免使用笛卡尔积

五、排序

全局排序(Order By)

Order By:全局排序,只有一个Reducer
//查询员工信息按工资升序排列
select * from emp order by sal;
//查询员工信息按工资降序排列
select * from emp order by sal desc;

重命名排序

select ename, sal*2 s2 from emp order by s2;

多个列排序

select ename, deptno, sal from emp order by deptno, sal; //先按照deptno排序 然后按照sal排序

每个Reduce内部排序(Sort By)

Sort By:对于大规模的数据集order by的效率非常低。在很多情况下,并不需要全局排序,此时可以使用sort by。Sort by为每个reducer产生一个排序文件。每个Reducer内部进行排序,对全局结果集来说不是排序。
1)设置reduce个数
set mapreduce.job.reduces=3;
2)查看设置reduce个数
set mapreduce.job.reduces;
3)根据部门编号降序查看员工信息
select * from emp sort by deptno desc;
4)将查询结果导入到文件中(按照部门编号降序排序)
insert overwrite local directory '/opt/module/hive/datas/sortby-result'
 select * from emp sort by deptno desc;

分区distribute by

????????distribute by指定某个特定行应该到哪个reducer,结合sort by使用

set mapreduce.job.reduces=3;
insert overwrite local directory '/opt/module/hive/datas/distribute-result' select * from emp distribute by deptno sort by sal desc;

//distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后,余数相同的分到一个区。
//Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。

分区排序(Cluster By)

当distribute by和sort by字段相同时,可以使用cluster by方式。
cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序排序,不能指定排序规则为ASC或者DESC。
select * from emp cluster by deptno;
select * from emp distribute by deptno sort by deptno;

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-12-23 15:49:12  更:2021-12-23 15:50:23 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/17 5:45:45-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码