IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> hadoop编译支持lzo压缩 -> 正文阅读

[大数据]hadoop编译支持lzo压缩

1.lzo安装

#检查是否有lzop命令
[wangly@hadoop000 ~]$  which lzop
#若没有执行如下安装命令
[wangly@hadoop000 ~]$  yum install -y svn ncurses-devel
[wangly@hadoop000 ~]$  yum install -y gcc gcc-c++ make cmake
[wangly@hadoop000 ~]$  yum install -y openssl openssl-devel svn ncurses-devel zlib-devel libtool
[wangly@hadoop000 ~]$  yum install -y lzo lzo-devel lzop autoconf automake cmake 

2.准备测试数据并且使用lzo压缩

[wangly@hadoop000 lzo]$ vi user_lzo.txt
#lzo压缩:lzop -v file  lzo解压:lzop -dv file
[wangly@hadoop000 lzo]$ lzop -v user_lzo.txt 
henren,18,girl
haungtian,20,man
qingdi,22,man

3.hadoop-lzo编译

hadoop-lzo的源码在GitHub上是开源的,源码地址:GitHub - twitter/hadoop-lzo: Refactored version of code.google.com/hadoop-gpl-compression for hadoop 0.20

?4maven编译

4.2改hadoop版本

我这里hadoop是3.2.2版本

[root@hadoop000 hadoop-lzo-master]# vi pom.xml 
  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <hadoop.current.version>3.2.2</hadoop.current.version>
    <hadoop.old.version>1.0.4</hadoop.old.version>
  </properties>

4.3编译

[root@hadoop000 hadoop-lzo-master]# mvn clean package -Dmaven.test.skip=true


#进入编译好的目录
[root@hadoop000 hadoop-lzo-master]# cd target/

[root@hadoop000 target]# ll
total 436
...
-rw-r--r-- 1 root root 199669 Jan 15 22:11 hadoop-lzo-0.4.21-SNAPSHOT.jar
...

4.4拷贝编译好的lzo文件到hadoop

[root@hadoop000 target]# cp hadoop-lzo-0.4.21-SNAPSHOT.jar hadoop/share/hadoop/common/

5.改hadoop配置文件

core-site.xml 添加

#配置压缩类
<property>
	<name>io.compression.codecs</name>
    <value>org.apache.hadoop.io.compress.GzipCodec,
		org.apache.hadoop.io.compress.DefaultCodec,
		org.apache.hadoop.io.compress.BZip2Codec,
		org.apache.hadoop.io.compress.SnappyCodec,
		com.hadoop.compression.lzo.LzoCodec,
		com.hadoop.compression.lzo.LzopCodec
    </value>
</property>
<property>
<name>io.compression.codec.lzo.class</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

mapred-site.xml添加

#map输出压缩
<property>    
    <name>mapred.compress.map.output</name>    
    <value>true</value>    
</property>
<property>    
    <name>mapred.map.output.compression.codec</name>    
    <value>com.hadoop.compression.lzo.LzoCodec</value>    
</property>

#reduce输出压缩
<property>
   <name>mapreduce.output.fileoutputformat.compress</name>
   <value>true</value>
</property>

<property>
   <name>mapreduce.output.fileoutputformat.compress.codec</name>
   <value>org.apache.hadoop.io.compress.BZip2Codec</value>
</property>	

集群模式同步到其他节点

6. 测试hive表

#创建表
hive (wangly)> create table user_lzo(
             > name string,
             > age int,
             > gender string
             > ) row format delimited fields terminated by ','
             > STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
             > OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat";
#加载数据--数据是上边lzo压缩的数据
hive (wangly)> load data local inpath'/home/wangly/data/lzo/user_lzo.txt.lzo' into table user_lzo;
#简单查询测试
hive (wangly)> select * from user_lzo;
OK
user_lzo.name   user_lzo.age    user_lzo.gender
henren  18      girl
haungtian       20      man
qingdi  22      man

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-01-16 13:08:20  更:2022-01-16 13:09:17 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 14:24:52-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码