IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 大数据分析师实操练习(Hadoop完全分布式集群搭建) -> 正文阅读

[大数据]大数据分析师实操练习(Hadoop完全分布式集群搭建)

参考自:大数据技能竞赛之hadoop完全分布式集群搭建(三)


练习内容:

  1. 安装并配置Hadoop相关环境;
  2. 相关配置文件,并确定master为namenode,slave1和slave2为datanode;
  3. 配置Yarn运行环境;
  4. 设置Yarn核心参数;
  5. 格式化HDFS,开启Hadoop完全分布式集群。

1. 将对应软件包解压到指定路径/usr/hadoop:

在master、slave1、slave2上操作以下三个步骤:

  1. 创建 /usr/hadoop 目录: mkdir /usr/hadoop
  2. 切换至hadoop安装包所在目录: cd /usr/package/
  3. 解压缩至指定路径:tar -zxvf hadoop-2.7.3.tar.gz -C /usr/hadoop

2. 配置Hadoop环境变量

在master、slave1、slave2上操作:

vim /etc/profile

=== 添加以下内容 ===

#HADOOP_HOME
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

使文件生效:source /etc/profile


3. 配置Hadoop运行环境hadoop-env.sh

在master、slave1、slave2上操作:

  1. 切换至Hadoop环境目录:cd /usr/hadoop/hadoop-2.7.3/etc/hadoop
  2. 修改hadoop-env.sh内容: vim hadoop-env.sh
  3. 将第25行处修改为当前的JAVA_HOME路径(集群基础配置中JAVA_HOME路径):
	export JAVA_HOME=/usr/java/jdk1.8.0_171

在这里插入图片描述


4. 设置全局参数,指定NN(NameNode)的IP为master(映射名),端口为9000:

在master、slave1、slave2上操作:

修改 core-site.xml 文件(还是在 /usr/hadoop/hadoop-2.7.3/etc/hadoop 路径下)

vim core-site.xml

在<configuration></configuration>中添加如下内容

<!-- 配置NameNode节点的地址和端口号 -->
<property>
	<name>fs.default.name</name>
	<value>hdfs://master:9000</value>
</property>

在这里插入图片描述


5. 指定存放临时数据的目录为hadoop安装目录下/hdfs/tmp(绝对路径):

在master、slave1、slave2上操作:

还是修改 core-site.xml 文件。

vim core-site.xml

(hadoop安装目录: /usr/hadoop/hadoop-2.7.3)

在<configuration></configuration>中添加如下内容 :

<!-- 指定存放临时数据的目录 -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value>
</property>

在这里插入图片描述


6. 设置HDFS参数:

在master、slave1、slave2上操作:

修改 hdfs-site.xml 文件以设置HDFS参数:

vim hdfs-site.xml
  • 指定备份文本数量为2:
<!-- 指定备份文本数量 -->
<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
  • 指定NameNode存放元数据信息路径为hadoop目录下/hdfs/name:
<!-- 指定NameNode存放元数据信息路径 -->
<property>
	<name>dfs.namenode.name.dir</name>
	<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>
</property>
  • 指定DataNode存放元数据信息路径为hadoop安装目录下/hdfs/data:
<!-- 指定DataNode存放元数据信息路径 -->
<property>
	<name>dfs.datanode.data.dir</name>
	<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>
</property>

在这里插入图片描述


7. 设置YARN运行环境:

在master、slave1、slave2上操作:

vim yarn-env.sh

修改yarn-env.sh中的第23行为JAVA_HOME路径:

export JAVA_HOME=/usr/java/jdk1.8.0_171

在这里插入图片描述


8. 设置YARN核心参数,指定ResourceManager进程所在主机为master,端口为18141:

在master、slave1、slave2上操作:

vim yarn-site.xml

在<configuration></configuration>中添加如下内容 :

<!-- 指定ResourceManager进程所在主机 -->
<property>
	<name>yarn.resourcemanager.admin.address</name>
	<value>master:18141</value>
</property>

在这里插入图片描述


9. 设置YARN核心参数,指定NodeManager上运行的附属服务为shuffle:

在master、slave1、slave2上操作:

vim yarn-site.xml

在<configuration></configuration>中添加如下内容 :

<!-- 指定NodeManager上运行的附属服务 -->
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>

在这里插入图片描述


10. 设置计算框架参数,指定MR运行在yarn上:

在master、slave1、slave2上操作:

Hadoop集群中没有mapred-site.xml这个文件,因此需要把mapred-site.xml.template复制为mapred-site.xml

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

在<configuration></configuration>中添加如下内容 :

<!-- 指定MR运行在yarn上 -->
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

在这里插入图片描述


11. 设置节点文件,要求master为主节点; slave1、slave2为子节点:

在master、slave1、slave2上操作:

还是在 /usr/hadoop/hadoop-2.7.3/etc/hadoop 路径下,修改master、slaves文件:

vim master

=== 写入 ===

master
vim slaves

=== 写入 ===

slave1
slave2

在这里插入图片描述


12. 文件系统格式化:

在master上操作:

hadoop namenode -format

出现以下界面即代表格式化成功:
在这里插入图片描述


13. 启动Hadoop集群:

在master上操作:

start-all.sh start

然后输入 yes 即可启动:
在这里插入图片描述

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-10-17 12:03:34  更:2021-10-17 12:05:09 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/18 6:19:52-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码