| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 在hive中生成的parquet文件 和 impala生成的parquet文件相比,大小不一样 -> 正文阅读 |
|
[大数据]在hive中生成的parquet文件 和 impala生成的parquet文件相比,大小不一样 |
使用sqoop抽取一批数据进入集群: MR抽取进来的大小是187.6 M? 数据量 1516513 测试一: 用impala把批数据进行插入 ,结果同样数据用户impala形成的文件占用磁盘59M,相比MR减少3倍; 测试二: 使用如下参数: set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.compress.output=true set mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec 或者 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; set mapred.output.compress=true set mapred.output.compression.codec=org.apache.hadoop.io.compress.LzopCodec 或者 set mapred.output.compress=true set mapred.output.compression.codec= org.apache.hadoop.io.compress.GzipCodec 查询impala生成的结果数据,用hive方式插入使用hive执行压缩参数进行; 查询hive生成的结果数据,用hive方式插入使用hive执行压缩参数进行; 测试结果:无压缩效果;不管是查询hive的结果还是查询impala的结果最终用hive插入新的表中;最终大小都是187.6 M 测试三: 用新的hive参数 测试结果:有压缩的效果。而且hive插入跟源数据大小没有关系,不管impala的结果还是hive操作的结果。最终用hiv插入的结果都是一样。压缩大小为34.8 M ? ? set hive.exec.compress.output=true; |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/23 13:18:58- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |