IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hadoop 3.2.2 + Hive 3.1.2 + Tez 0.10.1 冲突解决(Hive sql MR任务执行结果跟预期不一致) -> 正文阅读

[大数据]Hadoop 3.2.2 + Hive 3.1.2 + Tez 0.10.1 冲突解决(Hive sql MR任务执行结果跟预期不一致)

因公司分析订单数据要求,全面装行大数据工程师,在自己摸索Hadoop+Hive+Tez on Hive上花费了不少时间也趟了不少坑。
Hadoop版本
Hive版本
yarn运行截图

该篇文章主要记录下较新版的Hadoop+Hive搭建遇到比较大的问题

在开始的时候并没有使用tez替换计算引擎,公司主要是离线数仓,但是在使用hadoop的MR执行的时候出现了查询数据跟预期结果不同的严重BUG,确认不是sql 的问题,公司的业务需求写了一条较多嵌套的sql,查询结果严重偏离预期,使用 with [table] as 问题依旧出现,只有把部分嵌套的语句的查询结果单独insert into 到一张表中,再使用原sql中对应的SQL替换成对应的表才能查询出正确的结果,使用explain语句未发现执行步骤有问题,该问题会导致后期写的sql无法排查结果的准确性,Google中了解到也有人出现过该问题,替换成TEZ计算引擎,问题解决,故采用TEZ作为Hadoop的计算引擎。

在网上的一些视频和文章中使用Hadoop+Hive+Tez on Hive都是使用的Hadoop3.2.0以下的版本
很多使用以上版本集成各框架的时候都会遇到一个异常问题,包括首次启动hive

java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V

网上解决问题的办法都是直接吧hadoop中较高版本的Guava jar包拷贝到hive lib中
但是在我这边选择的版本中,并不能解决tez在运行任务时抛出该异常

后面自己尝试编译了Tez源码,替换了其中Maven中的Hadoop版本号,编辑后打包到服务器,修改hadoop hive相关配置,再尝试使用tez来执行hive中的sql,发现了一个更奇怪的问题,sql竟然部分会成功,其余的依旧失败。
依旧出现该问题
Tez官方编译教程

后尝试自己编译hive,并想替换为spark计算引擎
Hive3.1.2源码编译兼容Spark3.1.2 Hive on Spark
中间遇到的坑:

the environment variable java_home is not correctly set.

博主使用的是mac 的intellij idea编译,解决问题的文章链接
解决方案为ThomasR的回答,设置环境变量后用命令行启动idea

最终本想使用spark引擎,结果编辑替换原hive后,tez任务竟然全部可以成功,且SQL不拆分的执行结果跟预期一致。23333,意外之喜。

任务结果

结语
本文暂时只做记录分享,写完文章继续加班搭建数仓,撰写该博文以便遇到相同问题的小伙伴参考借鉴,如有错误之处,请谅解

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-05 17:25:10  更:2021-08-05 17:25:38 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/17 15:31:54-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码