一、搭建完全分布式hadoop集群,我们先来实现如下集群的配置: 配置前我们介绍一下配置文件: 以下所有的配置文件都在hadoop安装目录下etc文件中,路径如下: /opt/module/hadoop-3.1.3/etc/hadoop/ 我们需要配置的文件如下: core-site.xml :1、NameNode的地址 2、Hadoop数据存储目录
hdfs-site.xml :1、NameNode和2NN对外web访问地址
yarn-site.xml:1、指定MapReduce的协议 2、指定ResourceManger的地址 3、添加Maperd环境变量的继承(此项hadoop3.2以上版本可以无需指定)
mapred-site.xml :1、指定MapReduce程序运行在Yarn上
好了,到现在为止,我们搭建了一台服务器,其他两台的配置我们用集群分发脚本分发一下(脚本见之前的文章)。 二、启动集群
1、格式化NameNode
如果是第一次启动集群,我们在含有NameNode的服务器上先格式化NameNode( 注意 : 格 式 化 NameNode , 会 产 生 新的集群 id , 导 致 NameNode 和 DataNode 的集群 id 不 一 致 , 集群 找 不 到已 往 数据。 如果集群在 运 行过程中 报错 , 需 要 重 新 格 式 化 NameNode 的 话 , 一定要 先 停止 namenode 和 datanode 进程, 并 且 要 删 除所有 机 器的 data 和 logs 目 录 , 然后再 进行 格 式 化 。 及停服务、删文件、格式化)
hdfs namenode -format
结果展示:出现存数据的Data文件、logs日志文件
2、启动HDFS
sbin/start-dfs.sh
jps
结果如下: hadoop001上启动NameNode、DataNode hadoop002上启动ResourceManager、DataNoda hadoop上启动YARN:
sbin/start-yarn.sh
hadoop003上启动了DataNade、SecondaryNode
3、查看Web端HDFS的NameNode和YARN的ResourceManager 首先关闭服务器防火墙
sudo systemctl stop firewalld.service
浏览器输入http://hadoop001:9870查看HDFS信息 浏览器输入http://hadoop002:8088查看ResourceManager信息 至此,hadoop完全分布式搭建完成!
|