| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> HDFS生产调优大全 -> 正文阅读 |
|
[大数据]HDFS生产调优大全 |
一、HDFS——核心参数1.NameNode内存生产配置1)NameNode内存计算
2)Hadoop2.x配置NameNode内存
3)hadoop3.x?配置NameNode内存
2.开始回收站配置
二、HDFS—集群压测?三、HDFS—多目录多目录配置1)NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性 2)DataNode可以配置成多个目录,每个目录存储的数据不一样(数据不是副本) 3)集群数据均衡之磁盘间数据均衡hdfs diskbalancer -plan?主机名 四、HDFS—集群扩容及缩容1.添加白名单白名单:表示在白名单的主机IP地址可以,用来存储数据。 企业中:配置白名单,可以尽量防止黑客恶意访问攻击。 ? 2.服役新服务器3.服务器间开启负载均衡4.开启黑名单黑名单:表示在黑名单的主机IP地址不可以,用来存储数据。 企业中:配置黑名单,用来退役服务器。 ?五、HDFS—存储优化1.纠删码HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 ?2.异构存储(冷热数据分离)异构存储主要解决,不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 六、MapReduce生产经验1.mr跑的慢的原因MapReduce程序效率的瓶颈在于两点: 1)计算机性能 CPU、内存、磁盘、网络 2)I/O操作优化 (1)数据倾斜 (2)Map运行时间太长,导致Reduce等待过久 (3)小文件过多 3.参数调优会在后续写。。。。 2.MapReduce数据倾斜问题1)数据倾斜现象 数据频率倾斜——某一个区域的数据量要远远大于其他区域。 数据大小倾斜——部分记录的大小远远大于平均值。 2)减少数据倾斜的方法 (1)首先检查是否空值过多造成的数据倾斜 生产环境,可以直接过滤掉空值;如果想保留空值,就自定义分区,将空值加随机数打散。最后再二次聚合。 (2)能在map阶段提前处理,最好先在Map阶段处理。如:Combiner、MapJoin (3)设置多个reduce个数 hadoop小文件处理会在后续写。。。。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/23 16:27:53- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |