IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> tez & spark 常用参数调优 -> 正文阅读

[大数据]tez & spark 常用参数调优

1、tez

-- 小文件相关

set?hive.merge.mapfiles=true;

set?hive.merge.tezfiles=true;

set?hive.merge.mapredfiles=true;

-- 控制小文件合并后文件大小

set?hive.merge.size.per.task=268435456;

set?hive.merge.smallfiles.avgsize=134217728;

-- hive控制map数量(tez应该不生效了)

set?mapred.max.split.size=536870912;

set?mapred.min.split.size.per.node=536870912;

set?mapred.min.split.size.per.rack=536870912;

set?hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

-- 单个reduce处理的数据量 控制reduce数量

set?hive.exec.reducers.bytes.per.reducer=536870912;

-- 动态预估调整reduce的个数

set?hive.tez.auto.reducer.parallelism=true;

-- tez控制map数量

set?tez.grouping.min-size=536870912;

set?tez.grouping.max-size=2147483648;

-- tez container内存大小

set?hive.tez.container.size=2048;

-- Hive内存Map Join参数设置,默认值:100,不能超过可用内存,建议值:40%*hive.tez.container.size,一般不超过2G;

set?tez.runtime.io.sort.mb=100;

2、spark

-- hive 动态分区

set?hive.exec.dynamic.partition=true;

-- 非严格模式

set?hive.exec.dynamic.partition.mode=nonstrict;

-- NodeManager中一个长期运行的辅助服务,用于提升Shuffle计算性能。

set?spark.shuffle.service.enabled=true;

-- 开启动态资源配置

set?spark.dynamicAllocation.enabled=true;

-- 动态分配最小executor个数

set?spark.dynamicAllocation.minExecutors=30;

-- 动态分配最大executor个数

set?spark.dynamicAllocation.maxExecutors=300;

-- executor核数

set?spark.executor.cores=2;

-- executor内存大小

set?spark.executor.memory=3g;

-- 控制输入文件块的大小,影响并行度

set?spark.hadoop.mapreduce.input.fileinputformat.split.minsize=33554432;

set?spark.hadoop.mapreduce.input.fileinputformat.split.maxsize=67108864;

-- shuffle并行度

set?spark.sql.shuffle.partitions=600;

-- 开启 spark 的自适应执行

set?spark.sql.adaptive.enabled=true;

-- 开启 spark 的自适应执行后,该参数控制shuffle 阶段的平均输入数据大小,防止产生过多的task。

set?spark.sql.adaptive.shuffle.targetPostShuffleInputSize=128000000;

-- 开启推测执行

set?spark.speculation=true;

-- 任务延迟的比例,比如当70%的task都完成,那么取他们运行时间的中位数跟还未执行完的任务作对比。如果超过1.2倍,则开启推测执行。

set?spark.speculation.quantile=0.7

set?spark.speculation.multiplier=1.2;

spark小文件解决思路:

利用动态分区配合distribute?by语句,解决spark小文件问题。需要预估分区文件数据大小。

?如果数据量不是很大?单分区就合并成一个文件 ,比如,用distribute?by?p_dt,p_hr?然后动态分区??就不用额外单独开小文件合并的任务了 。

?如果单分区文件太大?可以类似这种方式控制文件数量??distribute?by?hash(uid)%10。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-16 11:22:15  更:2021-07-16 11:22:28 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/7 22:25:53-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码