[大数据] Spark中Shuffle的调优

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Spark中Shuffle的调优 -> 正文阅读

[大数据]Spark中Shuffle的调优

参数	默认值	描述
spark.reducer.maxSizeInFlight	48M	每次reduce的时候fetch数据的最大值，默认是48M。如果网络状态OK，Spark的数据量是比较多的，可以尽可能的拉大这个值，例如96M。
spark.shuffle.compress	true	Shuffle-write写数据到磁盘文件，是否开启压缩机制，默认是true。开启压缩，需要配合spark.io.compression.codec（压缩方式）使用。
spark.shuffle.file.buffer	32k	shuffle-write的时候，一个磁盘文件对应第一个缓冲区，默认的大小是32kb。为了尽可能的减少写磁盘的次数，可以将这个值调大，例如64kb。
spark.shuffle.io.maxReties	3	shuffle过程中，配置的失败重试的次数，默认是3次。如果Shuffle的数据量比较大，就越容易出错，此时可以把这个值调大，例如10次。
spark.shuffle.io.retryWait	5s	两次Shuffle重试之间的时间间隔，默认5s。如果多次失败，可能是网络波动，为了保证程序的稳定，可以把这个值调大，例如30s，60s
spark.shuffle.sort.bypassMergeThreshold	200	是否开启ByPass机制
spark.shuffle.memoryFraction	0.2	在executor中reduce拉取数据进行合并占用的内存大小，默认占executor的20%。如果持久化操作比较少，Shuffle比较多，可以适当的调整这个值，例如0.3

三种ShuffleWriter Handle在什么情况下产生

1.BypassMergeSortShuffleHandle
1)不能在map端(分区内)进行combine 并且 numPartitions< =spark.shuffle.sort.bypassMergeThreshold ?(200)
2)不满足上面条,再看Serializer支持重定位（即使用KryoSerializer），且分区数目小于16777216（最大分区号）时使用SerializedShuffleHandle。
3)上面都不满足再用BaseShuffleHandle

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-08-15 15:39:36 更:2021-08-15 15:41:54

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/2 3:53:17-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码