IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hadoop3.x MapReduce 分区 -> 正文阅读

[大数据]Hadoop3.x MapReduce 分区

一、概述

分区其实就是分类,比如数据中有很多电话号码,我们想根据电话号码的前三位将数据写入不同的文件中,就需要用到分区。分区是Shuffle阶段中的,往后还会对各个分区中的数据进行排序、归并、压缩等操作。

默认采用的分区是HashPartitioner (继承了 Partitioner ),它会根据键的Hash值进行分区,具体放到那个分区中由分区数 numReduceTasks 决定。例如设置 numReduceTasks 为2,那么一个Hash值模2的结果只会是0和1,所以最终会产生两个分区。
在这里插入图片描述
其实这样说也不太对,因为默认的 ReduceTask 数 numReduceTasks 是1。通过看源码我们知道,如果 ReduceTask 数不是大于1的话,是不会走具体的 Partitioner 类的,而是直接new了一个内部类返回-1,所以它其实并没有走 HashPartitioner ,只有当你设置了 ReduceTask 数大于1并且没有指定分区类的话才会走 HashPartitioner。
在这里插入图片描述
所以我们如果想自定义分区的话,不仅要继承 Partitioner 类实现 getPartition 方法,还要指定 ReduceTask 数 numReduceTask。

二、自定义分区类

新建 Java 类文件 ProvincePartitioner,按手机号前三位进行分区。

package com.pineapple.mapreduce.partitioner;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class ProvincePartitioner extends Partitioner<Text, FlowBean> {

    @Override
    public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
        String phone = text.toString();
        String prePhone = phone.substring(0, 3);

        switch (prePhone) {
            case "136":
                return 0;
            case "137":
                return 1;
            case "138":
                return 2;
            case "139":
                return 3;
            default:
                return 4;
        }
    }
}

因为 Partition 分区是属于 Shuffle 阶段,也就是在 Map 之后,所以 Partitioner 的泛型必须是 Map 的后两位泛型,即 Map 输出 KV 的类型。关于返回值,MR 是有严格的规定的,只能从0开始依次往后加,不能跳,例如:return 4 后是 return 10,这是不行的。

三、Driver 的设置

// 设置分区类
job.setPartitionerClass(ProvincePartitioner.class);

// 设置ReduceTask个数
job.setNumReduceTasks(5);

如果忘记设置 ReduceTask 数,前面说过了默认 ReduceTask 数是1,它不会用我们定义的Partitioner。
那如果分区数小于实际 Partitioner 返回值的个数会怎样?例如设置 ReduceTask 数为4,这时候会发现报了个 IOException 错误
在这里插入图片描述
因为这种情况 Shuffle 后产生了 5 个分区,却只开了4个MapTask,剩下的一个分区无法处理了,于是报错。

如果设置 ReduceTask 数大于分区数会怎么样?例如设置它为6,这时候会发现多了一个空文件
在这里插入图片描述

四、总结

  • Partitioner 的泛型必须是 Map 的后两位泛型
  • 返回值必须从0开始依次往后加,不可跳过。
  • 如果不设置 ReduceTask ,其值默认为1,将不会使用我们的Partitioner
  • 若 ReduceTask 个数小于 getPartition 返回值个数,将报 IOException
  • 若 ReduceTask 个数大于 getPartition 返回值个数,将产生多余的空文件

Github 仓库地址:https://github.com/pineapple-cpp/MapReduceDemo

喜欢我的文章的话,欢迎关注👇点赞👇评论👇收藏👇 谢谢支持!!!

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-09-11 18:53:24  更:2021-09-11 18:54:24 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 20:37:07-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码