IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> MapReduce框架-数据压缩 -> 正文阅读

[大数据]MapReduce框架-数据压缩

目录

一、概述

二、MR支持的压缩编码

三、压缩方式的选择

1. Gzip压缩

2. Bzip2压缩

3. Lzo压缩

4. Snappy压缩

四、采用压缩的位置

五、压缩配置参数

六、压缩案例

1. 压缩

2. 解压缩

七、压缩的应用

1. map阶段的压缩

2. reduce阶段的压缩

八、总结


一、概述

  压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。

  鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。不过,尽管压缩与解压操作的CPU开销不高,其性能的提升和资源的节省并非没有代价。

  如果磁盘I/O和网络带宽影响了MapReduce作业性能,在任意MapReduce阶段启用压缩都可以改善端到端处理时间并减少I/O和网络流量。

  压缩是mapreduce的一种优化策略:通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘IO,提高MR程序运行速度(但相应增加了cpu运算负担)。

注意:压缩特性运用得当能提高性能,但运用不当也可能降低性能。

基本原则:

(1)运算密集型的job,少用压缩

(2)IO密集型的job,多用压缩

二、MR支持的压缩编码

压缩格式

工具

算法

文件扩展名

是否可切分

DEFAULT

DEFAULT

.deflate

Gzip

gzip

DEFAULT

.gz

bzip2

bzip2

bzip2

.bz2

LZO

lzop

LZO

.lzo

LZ4

LZ4

.lz4

Snappy

Snappy

.snappy

为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示

压缩格式

对应的编码/解码器

DEFLATE

org.apache.hadoop.io.compress.DefaultCodec

gzip

org.apache.hadoop.io.compress.GzipCodec

bzip2

org.apache.hadoop.io.compress.BZip2Codec

LZO

com.hadoop.compression.lzo.LzopCodec

LZ4

org.apache.hadoop.io.compress.Lz4Codec

Snappy

org.apache.hadoop.io.compress.SnappyCodec

压缩性能的比较

压缩算法

原始文件大小

压缩文件大小

压缩速度

解压速度

gzip

8.3GB

1.8GB

17.5MB/s

58MB/s

bzip2

8.3GB

1.1GB

2.4MB/s

9.5MB/s

LZO

8.3GB

2.9GB

49.3MB/s

74.6MB/s

On a single core of a Core i7 processor in 64-bit mode, Snappy?compresses?at about?250 MB/sec or more and?decompresses?at about?500 MB/sec or more.

三、压缩方式的选择

1. Gzip压缩

  优点:压缩率比较高,而且压缩/解压速度也比较快;Hadoop本身支持,在应用中处理Gzip格式的文件就和直接处理文本一样;大部分Linux系统都自带Gzip命令,使用方便。

  缺点:不支持Split。

  应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用Gzip压缩格式。例如说一天或者一个小时的日志压缩成一个Gzip文件。

2. Bzip2压缩

  优点:支持Split;具有很高的压缩率,比Gzip压缩率都高;Hadoop本身自带,使用方便。

  缺点:压缩/解压速度慢。

  应用场景:适合对速度要求不高,但需要较高的压缩率的时候;或者输出之后的数据比较大,处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况;或者对单个很大的文本文件想压缩减少存储空间,同时又需要支持Split,而且兼容之前的应用程序的情况。

3. Lzo压缩

  优点:压缩/解压速度也比较快,合理的压缩率;支持Split是Hadoop中最流行的压缩格式;可以在Linux系统下安装lzop命令,使用方便。

  缺点:压缩率比Gzip要低一些; Hadoop本身不支持,需要安装;在应用中对Lzo格式的文件需要做一些特殊处理(为了支持Split需要建索引,还需要指定InputFormat为Lzo格式)。

  应用场景:一个很大的文本文件.压缩之后还大于200M以上的可以考虑,而且单个文件越大,Lzo优点越越明显。

4. Snappy压缩

  优点:高速压缩速度和合理的压缩率。

  缺点:不支持Split;压缩率比Gzip要低;Hadoop本身不支持,需要安装。

  应用场景:当MapReduce作业的Map输出的数据比较大的时候.作为Map到Reduce的中间数据的压缩格式;或者作为一个MapReduce作业的输出和另外一个MapReduce作业的输入。

四、采用压缩的位置

????压缩可以在MapReduce作用的任意阶段启用。

  1)mapper输入压缩:

    在有大量数据并计划重复处理的情况下,应该考虑对输入进行压缩。然而,你无须显示指定使用的编解码方式。Hadoop自动检查文件扩展名,如果扩展名能够匹配,就会用恰当的编解码方式对文件进行压缩和解压。否则,Hadoop就不会使用任何编解码器。

  2)压缩mapper输出:

  当map任务输出的中间数据量很大时,应考虑在此阶段采用压缩技术。这能显著改善内部数据Shuffle过程,而Shuffle过程在Hadoop处理过程中是资源消耗最多的环节。如果发现数据量大造成网络传输缓慢,应该考虑使用压缩技术。可用于压缩mapper输出的快速编解码器包括LZO、LZ4或者Snappy。

注意】LZO是供Hadoop压缩数据用的通用压缩编解码器。其设计目标是达到与硬盘读取速度相当的压缩速度,因此速度是优先考虑的因素,而不是压缩率。与gzip编解码器相比,它的压缩速度是gzip的5倍,而解压速度是gzip的2倍。同一个文件用LZO压缩后比用gzip压缩后大50%,但比压缩前小25%~50%。这对改善性能非常有利,map阶段完成时间快4倍。

  3)压缩reducer输出:

    在此阶段启用压缩技术能够减少要存储的数据量,因此降低所需的磁盘空间。当mapreduce作业形成作业链条时,因为第二个作业的输入也已压缩,所以启用压缩同样有效。

  【注意】MapReduce程序只需要管压缩,不需要管解压缩。因为MR程序在读取压缩文件的时候会根据压缩文件类型自动解压缩

五、压缩配置参数

要在Hadoop中启用压缩,可以配置如下参数(mapred-site.xml文件中):

参数

默认值

阶段

建议

io.compression.codecs

(在core-site.xml中配置)

org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.Lz4Codec

输入压缩

Hadoop使用文件扩展名判断是否支持某种编解码器

mapreduce.map.output.compress

false

mapper输出

这个参数设为true启用压缩

mapreduce.map.output.compress.codec

org.apache.hadoop.io.compress.DefaultCodec

mapper输出

使用LZO、LZ4或snappy编解码器在此阶段压缩数据

mapreduce.output.fileoutputformat.compress

false

reducer输出

这个参数设为true启用压缩

mapreduce.output.fileoutputformat.compress.codec

org.apache.hadoop.io.compress. DefaultCodec

reducer输出

使用标准工具或者编解码器,如gzip和bzip2

mapreduce.output.fileoutputformat.compress.type

RECORD

reducer输出

SequenceFile输出使用的压缩类型:NONE和BLOCK

六、压缩案例

  CompressionCodec有两个方法可以用于轻松地压缩或解压缩数据。

  要想对正在被写入一个输出流的数据进行压缩,我们可以使用createOutputStream(OutputStreamout)方法创建一个CompressionOutputStream,将其以压缩格式写入底层的流。

  相反﹐要想对从输入流读取而来的数据进行解压缩﹐则调用createInputStream(InputStreamin)函数,从而获得一个CompressionInputStream,从而从底层的流读取未压缩的数据。

测试一下如下压缩方式:

DEFLATE

org.apache.hadoop.io.compress.DefaultCodec

gzip

org.apache.hadoop.io.compress.GzipCodec

bzip2

org.apache.hadoop.io.compress.BZip2Codec

1. 压缩

/**
 * MapReduce压缩支持的位置一共有如下几个位置:
 * 1. Map的输入文件可以支持压缩
 * 2. Map输出数据的时候也支持压缩
 * 3. Reduce输出数据的时候也支持压缩
 *
 * MapReduce程序只需要管压缩,不需要管解压缩。因为MR程序在读取压缩文件的时候会根据压缩文件类型自动解压缩
 * 压缩说白了就是把一个文件去创建一个输入IO流,然后创建一个压缩工具的输出IO流,将输入流的数据传递给输出IO流就可以实现压缩
 * @Author: ZYD
 * @Date: 2021/8/16 下午 17:26
 */
public class Demo {
    public static void main(String[] args) throws Exception {
        /**
         * 测试Hadoop的压缩机制----将一个文件压缩成为Hadoop支持的压缩包
         */
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.218.55:9000"), conf, "root");
        // 指定压缩文件
        String fileName = "/school/web.log";
        // 指定使用的压缩工具
//        String className = "org.apache.hadoop.io.compress.DefaultCodec";
//        String className = "org.apache.hadoop.io.compress.GzipCodec";
        String className = "org.apache.hadoop.io.compress.BZip2Codec";
        // 代表根据压缩工具的全限定类名创建一个压缩工具的编解码器
        CompressionCodec cc = (CompressionCodec) ReflectionUtils.newInstance(Class.forName(className), conf);
        String outPath = fileName + ".bzip2";
        // 压缩就是将文件重新以编码器的IO流输出即可
        // 创建fileName的输入流
        FSDataInputStream inputStream = fs.open(new Path(fileName));

        // 解压缩
        // 创建一个普通的获取文件的输出流
        FSDataOutputStream fsDataOutputStream = fs.create(new Path(outPath));
        // 根据普通的输出流创建一个 压缩输出流
        CompressionOutputStream outputStream = cc.createOutputStream(fsDataOutputStream);

        IOUtils.copyBytes(inputStream, outputStream, 1024*1024, false);

        outputStream.close();
        inputStream.close();
    }
}

2. 解压缩

public class OpenDemo {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.218.55:9000"), conf, "root");
        /**
         * 解压缩压缩包
         */
        // 1. 校验压缩包支不支持解压缩
        CompressionCodecFactory factory = new CompressionCodecFactory(conf);
        // 2. 判断当前文件用的什么压缩编码器,如果没有对应解压缩编码器,则返回null
        Path p = new Path("/school/web.log.deflate");
        CompressionCodec codec = factory.getCodec(p);
        if (codec == null) {
            System.out.println("当前文件不支持解压缩");
        } else {
            // 创建文件输出流
            CompressionInputStream inputStream = codec.createInputStream(fs.open(p));
            // 创建解压缩输入流
            FSDataOutputStream fsDataOutputStream = fs.create(new Path("/school/web-deflate.log"));
            IOUtils.copyBytes(inputStream, fsDataOutputStream, 1024*1024, false);
            fsDataOutputStream.close();
            inputStream.close();
        }
    }
}

注意】压缩和解压缩机制代码自己了解一下就可以了,真正在MR程序中,底层就是使用这种机制进行压缩和解压缩的。但是我们使用的时候,不需要写怎么压缩和解压缩,我们只需要指定是否需要开启压缩,采用什么压缩工具,那么MR底层就会帮助我们自动完成。

七、压缩的应用

1. map阶段的压缩

????????map端执行结束,在向reduce端溢写文件时可以将文件压缩。

????????即使你的MapReduce的输入输出文件都是未压缩的文件,你仍然可以对Map任务的中间结果输出做压缩,因为它要写在硬盘并且通过网络传输到Reduce节点,对其压缩可以提高很多性能,这些工作只要在Driver中设置两个属性即可:

// 开启map输出
conf.setBoolean("mapreduce.map.output.compress", true);
// 一旦map端开启输出,我们就要指定map压缩采用什么压缩机制
conf.setClass("mapreduce.map.output.compress.codec", DefaultCodec.class, CompressionCodec.class);

????????map端开启压缩机制之后,我们从控制台是看不出来效果的。因为map输出将数据压缩之后,reduce还需要执行,或者OutputFormat还要输出数据,此时map阶段的压缩只是在map-reduce过程中将数据压缩减少传输时间。

2. reduce阶段的压缩

????????reduce阶段的压缩相当于是给最终文件进行压缩。具体步骤:

????????在Driver中添加如下配置:

// 给reduce端开启压缩
FileOutputFormat.setCompressOutput(job, true);
// reduce端输出使用上面类型的压缩格式
FileOutputFormat.setOutputCompressorClass(job, DefaultCodec.class);

?

八、总结

?

?

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-17 15:27:43  更:2021-08-17 15:27:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/18 20:25:13-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码