IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hadoop全分布配置 -> 正文阅读

[大数据]Hadoop全分布配置


前言

这里在正式搭建hadoop全分布前配置linux基础环境(提前准备好3台虚拟机)


一.配置linux基础环境

1.关闭防火墙

systemctl status firewalld          # 查看防火墙状态
systemctl stop  firewalld           # 关闭防火墙
systemctl disable firewalld         # 下次重启不会开启防火墙

2.网络配置

[root@master ~] vi /etc/sysconfig/network-scripts/ifcfg-ens33 
BOOTPROTO="static" 
ONBOOT=yes
IPADDR=192.168.10.101
NETMASK=255.255.255.0
GATEWAY=192.168.10.2
DNS1=8.8.8.8	#连通外网要配
[root@master ~]systemctl restart network  #重启网络生效

3.修改主机名和hosts(映射文件)

[root@master ~]vi /etc/hostname #这里修改后需要重启之后才能生效,下面有种方法不用
[root@master ~]hostnamecyl set-hostname master #设置好之后,再bash一下就好了
[root@master ~]vi hosts  #修改映射文件
192.168.10.101 master  
192.168.10.102 slave1
192.168.10.103 slave2
#不要写反了,会识别不了

4.免密登录(都要)

ssh-keygen -t rsa
#回车三次

#拷贝密码到其他机器
ssh-copy-id master 
ssh-copy-id slave1
ssh-copy-id slave2

5.解压jdk,hadoop安装包(配置环境变量)

tar -zxvf /opt/software/jdk  -C /opt/module/
...

二.搭建Hadoop全分布

1.配置Hadoop内部环境变量

vi hadoop/etc/hadoop/hadoop-env.sh
(1)修改hadoop-env.sh
		将export JAVA_HOME=${JAVA_HOME}
		改为:export JAVA_HOME=/opt/module/jdk
(2)配置yarn-env.sh
		vi yarn-env.sh 添加以下内容:
		将JAVA_HOME的注释符去掉,更改JAVA_HOME的路径
(3)配置mapred-env.sh
		vi mapred-env.sh 添加以下内容:
		将JAVA_HOME的注释符去掉,更改JAVA_HOME的路径
并去掉#,修改为正确的jdk路径/usr/module/jdk
Hadoop3.1版本以后不需要在yarn-env.sh,mapreduce-env.sh配置java路径,因为统一采用了hadoop-env.sh中的java路径,如需修改与上同。

2.配置核心组件:

core-sit.xml

<!-- 配置namenode的地址-->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>  
</property>
<!--  配置hadoop产生的文件目录-->
#这里配置后要创建对应的data目录 创到hadoop里到时候复制的时候就一起传过去就不用每个都创了

<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop/data</value>
</property>

hdfs.site.xml

<!--副本数-->这个值是指的是最大节点数,默认是3
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>
....后续补充
可以配置端口访问地址
hadoop3.0以后的版本端口号换成了9870,不是50070了

<property>
        <name>dfs.namenode.http-address</name>
        <value>master:50070</value>
</property>
<!-- 2nn web端访问地址,默认master-->
 <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master1:9868</value>
 </property>
------有默认位置———————————————————————————————————————————————————————————————————————————————————————————————————
<!--存储fsimage文件的地方-->
		<property>
			<name>dfs.namenode.name.dir</name>
			<value>/opt/module/hadoop/data/tmp/dfs/data<value>
		</property>#默认${hadoop.tmp.dir}/dfs/name
		<!--hdfs数据存放block的地方-->
		<property>
			<name>dfs.datanode.data.dir</name>
			<value>/opt/module/hadoop/data/tmp/dfs/data</value>
		</property>#默认${hadoop.tmp.dir}/dfs/data     

yarn-site.xml

<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
</property>
 #配置网址监测yarn的运行情况默认端口8088
命令模式 y4y 复制4行,p粘贴

mapreduce-site.xml

<configuration>
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>
</configuration>
与hadoop2.6相比,hadoop3内容增加了很多,hadoop2只需要第一个<property>,但是hadoop3需要指出各个计算组件的环境变量

修改slaves文件(配置工作节点)

删除源文件的localhost
master
node1
node2	

格式化文件系统

该操作只需要在master中进行
hdfs namenode -format    多次格式化会造成datanode启动问题,先删除data
rm -rf  目标目录

启动和关闭hadoop集群

start-dfs.sh 和start-yarn.sh分别启动hdfs和yarn
关闭时先使用stop-yarn.sh然后再stop-dfs.sh
这里需要注意start-yarn.sh需要在你配置resourcrmanger的那个节点启动

检测集群是否启动成功?

输入测试程序

 hadoop jar hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 10 10

总结

以上就是今天要讲的内容,这是我的第一篇博客,全是自己总结的,希望有用

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-05-25 11:38:09  更:2022-05-25 11:38:13 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/16 3:37:37-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码