| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> hive部分函数 -> 正文阅读 |
|
[大数据]hive部分函数 |
目录 1.行转列,列转行行转列: 数据来源weight.txt
lateral view 可以理解为类似表连接的操作?
列转行 数据来自weight2.txt ?做法就是根据左边字段分组(group by),右边的数据通过concate连接起来 这也是通过mapreduce支持的
?collect_list(clo)不会对clo里面的内容去重 ?使用collect_set(clo)会对clo里面的内容进行去重。 2.窗口函数窗口函数是用来干什么的呢? 它主要是为了将表中原数据和聚合过后的信息同时展示出来 ?window子句:
?现在来看一下用法:
4种排名函数:?row_number 排名从1到最后一位,没有重复也没有跳过
?rank 排名有重复,? 中间有跳过,排名从1到最后不完整
dense_rank 排名有重复,中间没有跳过,?排名从1到最后完整
?percent_rank:(rank的结果-1)/(分区内数据的个数-1)? 最大的就是0 ,结尾不一定是1
用法,需要结合窗口函数 ?这里就写个row_number,其他的只要在下面语句中替换row_number就可以使用了 对学生表操作, 求男女生年龄排名
数据非常长,截取了部分观察? ? 截取百分比的部分运行结果?? 3. window as with as?当一个窗口函数得over() 内容需要多次使用可以考虑将他存储起来,方便多次使用
?普通的临时表?,也可以将他变成一个变量方便我多次使用
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/24 7:48:57- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |