IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hive SQL实现数组中map的拆分以及计算 -> 正文阅读

[大数据]Hive SQL实现数组中map的拆分以及计算

一、需求背景

  1. 本次任务主要是完成对表中的每一行数据进行求和计算。
  2. 涉及的表数据如下所示:
["Emc:0","MoVoiceCall:0","Mt:0","MoSig:2","MoData:1","HighPri:0","MoVideoCall:0","MoSms:0","MpsPri:0","McsPri:0"]
["Emc:0","MoVoiceCall:1","Mt:0","MoSig:26","MoData:1","HighPri:0","MoVideoCall:0","MoSms:0","MpsPri:0","McsPri:0"]
["Emc:0","MoVoiceCall:0","Mt:2","MoSig:15","MoData:8","HighPri:0","MoVideoCall:0","MoSms:0","MpsPri:0","McsPri:0"]
["Emc:0","MoVoiceCall:0","Mt:0","MoSig:4","MoData:0","HighPri:0","MoVideoCall:0","MoSms:0","MpsPri:0","McsPri:0"]
["Emc:0","MoVoiceCall:0","Mt:1","MoSig:2","MoData:3","HighPri:0","MoVideoCall:0","MoSms:0","MpsPri:0","McsPri:0"]
["Emc:0","MoVoiceCall:0","Mt:1","MoSig:9","MoData:3","HighPri:0","MoVideoCall:0","MoSms:0","MpsPri:0","McsPri:0"]
["Emc:0","MoVoiceCall:0","Mt:0","MoSig:0","MoData:0","HighPri:0","MoVideoCall:0","MoSms:0","MpsPri:0","McsPri:0"]
["Emc:0","MoVoiceCall:1","Mt:13","MoSig:2","MoData:27","HighPri:0","MoVideoCall:0","MoSms:0","MpsPri:0","McsPri:0"]
["Emc:0","MoVoiceCall:0","Mt:1","MoSig:0","MoData:2","HighPri:0","MoVideoCall:0","MoSms:0","MpsPri:0","McsPri:0"]
["Emc:0","MoVoiceCall:0","Mt:1","MoSig:4","MoData:1","HighPri:0","MoVideoCall:0","MoSms:0","MpsPri:0","McsPri:0"]

二、实现方法

(一) 通过对本次的需求任务的解读,将实现方法大概分为以下几个步骤:

  1. 完成数组中括号[]的去除工作。
    ·主要使用的是hive中的正则表达式替换函数:regexp_replace来完成本次的替换;
    ·语法: regexp_replace(string A, string B, string C)
    ·返回值: string
select regexp_replace(SalaryArray,'\"|\\[|\\]|\\{|\\}','') from 5gr1126;

效果图展示:
在这里插入图片描述

  1. 我们将每一行的字符串转换成map形式
    ·我们通过使用hive中的str_to_map函数来完成本次的转换操作;
    ·语法:str_to_map(字符串参数, 分隔符1, 分隔符2)
    ·返回值:使用两个分隔符将文本拆分为键值对
select str_to_map(regexp_replace(SalaryArray,'\"|\\[|\\]|\\{|\\}','')) from 5gr1126;

效果图展示:
在这里插入图片描述

  1. 获取map key-value对中的所有value值
    ·我们通过hive中的map_values函数来完成本次的获取值操作;
    ·语法:map_values(map)
    ·返回值:包含输入映射值的无序数组
select map_values(str_to_map(regexp_replace(SalaryArray,'\"|\\[|\\]|\\{|\\}',''))) from 5gr1126;

效果图展示:
在这里插入图片描述

  1. 每一行数值累加求和
    ·我们通过hive UDF自定义函数来完成本次的数值累加求和
    ·输入参数:数组列表,开始位置,结束位置
    ·输出结果:最终的和
    ·逻辑主要包含对科学技术法数值的转换以及是否为数值的过滤
public class AddNumUDF extends UDF {
    public static void main(String[] args) {//测试用例
        ArrayList<String> strArray = new ArrayList<String>();
        strArray.add("1E2");
        strArray.add("a");
        System.out.println(new AddNumUDF().evaluate(strArray, 0, 2));
    }
    public double evaluate(ArrayList<String> list,
                           int from, int to) {
        double result = 0;
        if (list == null || list.size() < 1) {
            return result;
        }
        List<String> subList;
        if (to == -1) {
            subList = list.subList(from, list.size());
        } else {
            subList = list.subList(from, to);
        }
        for (String i : subList) {//循环遍历
            if (i.contains("e") || i.contains("E") || isInt(i)) {
                BigDecimal bd = new BigDecimal(i);
                String str = bd.toPlainString();
                Double a = Double.parseDouble(str);
                result += a;
            } else {
                i = "0";
                BigDecimal bd = new BigDecimal(i);
                String str = bd.toPlainString();
                Double a = Double.parseDouble(str);
                result += a;
            }
        }
        return result;
    }
    /*该函数主要判断输入的参数是否为数值*/
   	public static boolean isInt(String v) {
        if (v == null)
            return false;
        String regEx1 = "[\\-|\\+]?\\d+";
        Pattern p;
        Matcher m;
        p = Pattern.compile(regEx1);
        m = p.matcher(v);
        if (m.matches()) return true;else return false;
    }
}
  1. 程序打成jar包,上传HS2服务器本地或者HDFS;
  2. 客户端命令行添加jar包到hive的classpath:hive>add jar /xxx/udf.jar;
  3. 注册成为临时函数(给udf命名),create temporary function 函数名 as ‘UDF类全名称’;
  4. 测试
    效果图如下所示:
    在这里插入图片描述
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-11-28 11:22:04  更:2021-11-28 11:22:53 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 7:56:46-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码