IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> HDFS生产调优大全 -> 正文阅读

[大数据]HDFS生产调优大全

一、HDFS——核心参数

1.NameNode内存生产配置

1)NameNode内存计算

每个文件大概占用150字节,一台服务器128G内存为例,能存储128*1024*1024*1024/150Byte=9.1亿?约等于9亿块

2)Hadoop2.x配置NameNode内存

NameNode内存默认2000M,如果服务器内存4G,NameNode内存可以配置3g,在hadoop-env,.sh文件中配置HADOOP_NAMENODE_OPTS=-Xmx3072m

3)hadoop3.x?配置NameNode内存

hadoop-env.sh中描述Hadoop的内存是动态分配的,NameNode和DataNode占用内存都是自动分配的

2.开始回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。

二、HDFS—集群压测

?三、HDFS—多目录

多目录配置

1)NameNode的本地目录可以配置成多个,每个目录存放内容相同,增加了可靠性

2)DataNode可以配置成多个目录,每个目录存储的数据不一样(数据不是副本)

3)集群数据均衡之磁盘间数据均衡hdfs diskbalancer -plan?主机名

四、HDFS—集群扩容及缩容

1.添加白名单

白名单:表示在白名单的主机IP地址可以,用来存储数据。

企业中:配置白名单,可以尽量防止黑客恶意访问攻击。

?

2.服役新服务器

3.服务器间开启负载均衡

4.开启黑名单

黑名单:表示在黑名单的主机IP地址不可以,用来存储数据。

企业中:配置黑名单,用来退役服务器。

?五、HDFS—存储优化

1.纠删码

HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。

?2.异构存储(冷热数据分离)

异构存储主要解决,不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。

六、MapReduce生产经验

1.mr跑的慢的原因

MapReduce程序效率的瓶颈在于两点:

1)计算机性能

CPU、内存、磁盘、网络

2I/O操作优化

(1)数据倾斜

(2)Map运行时间太长,导致Reduce等待过久

(3)小文件过多

3.参数调优会在后续写。。。。

2.MapReduce数据倾斜问题

1)数据倾斜现象

数据频率倾斜——某一个区域的数据量要远远大于其他区域。

数据大小倾斜——部分记录的大小远远大于平均值。

2)减少数据倾斜的方法

(1)首先检查是否空值过多造成的数据倾斜

生产环境,可以直接过滤掉空值;如果想保留空值,就自定义分区,将空值加随机数打散。最后再二次聚合。

2)能在map阶段提前处理,最好先在Map阶段处理。如:Combiner、MapJoin

(3)设置多个reduce个数

hadoop小文件处理会在后续写。。。。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-29 09:09:56  更:2021-08-29 09:27:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 16:27:53-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码