开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> MySQL【聚合函数】 -> 正文阅读

[大数据]MySQL【聚合函数】

一、常见的几个聚合函数

1.avg/sum

SQL 函数还有一类，叫做聚合（或聚集、分组）函数，它是对一组数据进行汇总的函数，

输入的是一组数据的集合，输出的是单个值。

一、常见的几个聚合函数

1.avg/sum

#1. 常见的几个聚合函数
#1.1 AVG / SUM ：只适用于数值类型的字段（或变量）
#avg求平均值
#sum求总和
SELECT AVG(salary),SUM(salary),AVG(salary) * 107
FROM employees;

#如下的操作没有意义
SELECT SUM(last_name),AVG(last_name),SUM(hire_date)
FROM employees;

2.max/min

#1.2 MAX / MIN :适用于数值类型、字符串类型、日期时间类型的字段（或变量）

SELECT MAX(salary),MIN(salary)
FROM employees;

#字符串比较大小是有意义的
SELECT MAX(last_name),MIN(last_name),MAX(hire_date),MIN(hire_date)
FROM employees;

3.count?

#1.3 COUNT：
# ① 作用：计算指定字段在查询结构中出现的个数（不包含NULL值的）
#分别查询employee_id字段在我们employee表中出现的次数
#这种出现测次数与表中具体的数据无关。
#count（1）还是输出107的话，我们输入的1充当的是一整个字段，然后就相当于是记录的个数。
SELECT COUNT(employee_id),COUNT(salary),COUNT(2 * salary),COUNT(1),COUNT(2),COUNT(*)
FROM employees ;

#如果计算表中有多少条记录，如何实现？
#方式1：COUNT(*)
#方式2：COUNT(1)
#方式3：COUNT(具体字段) : 不一定对！

#② 注意：计算指定字段出现的个数时，是不计算NULL值的。
SELECT COUNT(commission_pct)
FROM employees;

SELECT commission_pct
FROM employees
WHERE commission_pct IS NOT NULL;

#③ 公式：AVG = SUM / COUNT
#sum在计算空值的时候也会省略空值
SELECT AVG(salary),SUM(salary)/COUNT(salary),
AVG(commission_pct),SUM(commission_pct)/COUNT(commission_pct),
SUM(commission_pct) / 107
FROM employees;

#需求：查询公司中平均奖金率
#错误的！
#因为AVG是不会统计空值的，所以那些没有中奖的人没有被统计入基数中。
SELECT AVG(commission_pct)
FROM employees;

#正确的：
#其实我们这里的count中只要填一个不是null的数据都能得到我们想要的结果
SELECT SUM(commission_pct) / COUNT(IFNULL(commission_pct,0)),
AVG(IFNULL(commission_pct,0))
FROM employees;

# 如何需要统计表中的记录数，使用COUNT(*)、COUNT(1)、COUNT(具体字段) 哪个效率更高呢？
# 如果使用的是MyISAM 存储引擎，则三者效率相同，都是O(1)
# 如果使用的是InnoDB 存储引擎，则三者效率：COUNT(*) = COUNT(1)> COUNT(字段)


#其他：方差、标准差、中位数

二、group by的使用

如果我们想要求出一张工资表中各个部门的平均工资，我们就需要用到group by语句

#需求：查询各个部门的平均工资，最高工资
SELECT department_id,AVG(salary),SUM(salary)
FROM employees
GROUP BY department_id;

#需求：查询各个job_id的平均工资
SELECT job_id,AVG(salary)
FROM employees
GROUP BY job_id;

按照多个字段进行分组?

group by后面的参数越靠前就越先按照哪个需求进行划分

#需求：查询各个department_id,job_id的平均工资
#方式1：
SELECT department_id,job_id,AVG(salary)
FROM employees
GROUP BY  department_id,job_id;

#方式2：
SELECT job_id,department_id,AVG(salary)
FROM employees
GROUP BY job_id,department_id;

#错误的！
#因为我们按照部门的ID进行分组之后，一个部门就是一条记录，但是我们的工作的ID有不同的工种，
#他们没有办法合并到一起或者是决定显示哪一个，所以会发生报错
SELECT department_id,job_id,AVG(salary)
FROM employees
GROUP BY department_id;

??????

#结论1：SELECT中出现的非组函数的字段必须声明在GROUP BY 中。
#      反之，GROUP BY中声明的字段可以不出现在SELECT中。

#结论2：GROUP BY 声明在FROM后面、WHERE后面，ORDER BY 前面、LIMIT前面

#结论3：MySQL中GROUP BY中使用WITH ROLLUP

SELECT department_id,AVG(salary)
FROM employees
#with Rollup会在我们一组一组全部执行完之后将我们全部的数据合并在一起，再进行一次归总。
#当然由于我们之前的部门ID字段无法归总，所以我们这里最后一条记录的第一个字段会显示null
GROUP BY department_id WITH ROLLUP;

#需求：查询各个部门的平均工资，按照平均工资升序排列
#下面那个null是因为有一个没有部门的人的记录
SELECT department_id,AVG(salary) avg_sal
FROM employees
GROUP BY department_id
ORDER BY avg_sal ASC;

#说明：当使用ROLLUP时，不能同时使用ORDER BY子句进行结果排序，即ROLLUP和ORDER BY是互相排斥的。
#错误的：
SELECT department_id,AVG(salary) avg_sal
FROM employees
GROUP BY department_id WITH ROLLUP
ORDER BY avg_sal ASC;

三、having的使用

#3. HAVING的使用 (作用：用来过滤数据的)
#练习：查询各个部门中最高工资比10000高的部门信息
#错误的写法：
SELECT department_id,MAX(salary)
FROM employees
WHERE MAX(salary) > 10000
GROUP BY department_id;

#要求1：如果过滤条件中使用了聚合函数，则必须使用HAVING来替换WHERE。否则，报错。
#要求2：HAVING 必须声明在 GROUP BY 的后面。

#正确的写法：
SELECT department_id,MAX(salary)
FROM employees
GROUP BY department_id
HAVING MAX(salary) > 10000;

#如果说没有groupby对我们的数据按照部门进行分组
#我们的having就不能从分好的每一组中提取出我们想要的数据
#这样我们的返回结果就是全部的数据的查询结果比方说就变成了计算全部数据的最大值
#虽然这样程序不会报错，但是我们使用group by也就没有什么意义了。

#要求3：一般情况下，我们使用HAVING的前提是SQL中使用了GROUP BY。

#练习：查询部门id为10,20,30,40这4个部门中最高工资比10000高的部门信息
#方式1：推荐，执行效率高于方式2.
SELECT department_id,MAX(salary)
FROM employees
WHERE department_id IN (10,20,30,40)
GROUP BY department_id
HAVING MAX(salary) > 10000;

#方式2：
SELECT department_id,MAX(salary)
FROM employees
GROUP BY department_id
HAVING MAX(salary) > 10000 AND department_id IN (10,20,30,40);

#结论：当过滤条件中有聚合函数时，则此过滤条件必须声明在HAVING中。
#      当过滤条件中没有聚合函数时，则此过滤条件声明在WHERE中或HAVING中都可以。
#      但是，建议声明在WHERE中。

/*
  WHERE 与 HAVING 的对比
1. 从适用范围上来讲，HAVING的适用范围更广。 
2. 如果过滤条件中没有聚合函数：这种情况下，WHERE的执行效率要高于HAVING
*/

区别1：WHERE 可以直接使用表中的字段作为筛选条件，但不能使用分组中的计算函数作为筛选条件；HAVING 必须要与 GROUP BY 配合使用，可以把分组计算的函数和分组字段作为筛选条件。?

区别2：如果需要通过连接从关联表中获取需要的数据，WHERE 是先筛选后连接，而 HAVING 是先连接后筛选。

四、SQL底层执行原理

#4. SQL底层执行原理
#4.1 SELECT 语句的完整结构


#sql92语法：
SELECT ....,....,....(存在聚合函数)
FROM ...,....,....
WHERE 多表的连接条件 AND 不包含聚合函数的过滤条件
GROUP BY ...,....
HAVING 包含聚合函数的过滤条件
ORDER BY ....,...(ASC / DESC )
LIMIT ...,....


#sql99语法：
SELECT ....,....,....(存在聚合函数)
FROM ... (LEFT / RIGHT)JOIN ....ON 多表的连接条件 
(LEFT / RIGHT)JOIN ... ON ....
WHERE 不包含聚合函数的过滤条件
GROUP BY ...,....
HAVING 包含聚合函数的过滤条件
ORDER BY ....,...(ASC / DESC )
LIMIT ...,....

#4.2 SQL语句的执行过程：
#FROM ...,...-> ON -> (LEFT/RIGNT  JOIN) -> WHERE -> GROUP BY -> 
#HAVING -> SELECT -> DISTINCT -> ORDER BY -> LIMIT

所以上述的运行顺序就是①->②->③?

首先会有一张虚拟表，先从from中读取原表的信息，如果有join就进行笛卡尔积，然后on会对其进行筛选，然后如果是左外或者是右外连接，就需要考虑是不是还有别的数据要添加进去，然后使用where过滤数据，然后再进行分组groupby，在分组过后使用having来进行进一步的过滤（包含聚合函数），再进行select，从中选出我们想要查看的字段，其他的字段就不要了，如果select中有distinct关键字还要进行去重，过滤完之后按照orderby进行按照某个字段排序，然后想要分页显示的话就用limit，最终就得到了我们所查看到的表。?

所以为什么where的执行效率高于having，所以按照我们上面的过程，where在分组之前就进行了过滤，就是提前将很多不满足条件的数据都全部处理掉了，后面的过程中的时候就不再需要对这些不满足条件的数据进行操作，所以大大提高了运行的效率。而having所处的位置太后面了，所以没有像where一样高效。?