IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> MapReduce -> 正文阅读

[大数据]MapReduce

MapReduce

MapReduce是一种面向大规模数据处理的、分布式运算程序的编程框架。它通过将实际业务逻辑代码+自带默认组件的方式实现在Hadoop集群上的分布式计算。

MapReduce的优势

1. 易于编程

MapReduce框架将整个分布式的过程都进行了封装,用户只需要根据自己的实际业务,对简单的接口进行实现,就可以达到非常理想的目的。

2. 扩展性好

若计算资源不足时,可直接添加机器来提高计算力。

3. 容错率高

如果正在运行的节点发生了意外,可以把任务交给集群中另一个节点上运行,这个调度方法可直接由Hadoop内部完成,不需要人工干预。

MapReduce的劣势

1. 不擅长实时计算

MapReduce无法像 MySQL一样,在毫秒或者秒级内返回结果。

2. 不擅长流式计算

MapReduce无法处理在线产生的数据,只能处理离线数据。

3. 不擅长DAG(有向无环图)计算

多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce 并不是不能做,而是使用后,每个 MapReduce 作业的输出结果都会写入到磁盘,会造成大量的磁盘 IO,导致性能非常的低下。
资料来源:尚硅谷

MapReduce流程

MapReduce字如其名,其思想最主要的流程分为两大块,Map和Reduce。其中,map将数据分成几份并行计算,Reduce将map的结果统一。
在这里插入图片描述
但如果要将上述流程细分,则应该分成以下几步:

  1. InputFormat切片阶段:首先,客户端会将数据分成多个数据切片,并由ApplicationMaster分配给相同数量的MapTask,一个数据切片对应一个MapTask。
  2. Map阶段:每个MapTask通过InputFormat得到以<K, V>格式存在的数据切片数据,并将其作为输入运行用户根据具体的业务逻辑实现的map()接口方法。最后写入上下文context.write()交给Shuffle阶段。

在WordCount中,Mapper的输入<K, V>,K代表着该行文本数据的偏移量,V代表着该行数据;
Mapper的输出<K, V>由用户的具体业务逻辑决定,但是Mapper的输出<K, V>类型需要和Reducer的输入类型一致

  1. Shuffle阶段:MapTask将Map阶段的输出逐步放到内存中的环形缓冲区,当环形缓冲区将满时(80%写入)通过分区、区内快速排序、写入磁盘的操作将缓冲区内的数据按照分区和key的顺序写入磁盘。再将多个落盘的文件根据分区进行合并,对相同的分区进行归并排序,生成不同的分区数据文件,由对应分区的Reducer请求拉取数据。每个Reducer只拉去对应自己分区的数据文件。
  2. Reducer阶段ReduceTask从多个MapTask请求到对应的分区数据。一般来说,一个分区对应一个ReduceTask,也就意味着会得到与分区相同数量的输出结果,分区数量时常由用户具体业务决定,默认为1。Reducer将多个MapTask得到的分区数据再进行一次文件的合并,并使用归并排序,使得相同key的<K, V>数据能整合在一起。再将<K, V>数据输入到用户根据具体的业务逻辑实现的reducer()接口方法。最后写入上下文context.write()交给OutputFormat。

Reducer的输入<K, V>类型需要和Mapper的输出类型一致
Reducer的输出<K, V>由用户的具体业务逻辑决定。

  1. OutputFormat输出阶段:Reducer输出的数据通过OutputFormat输出到指定输出路径。
    在这里插入图片描述
    在这里插入图片描述
    图片来源尚硅谷。
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-10-02 14:56:25  更:2021-10-02 14:57:05 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/18 9:41:27-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码