练习环境搭建:单机版伪分布式运行模式
1.分析
(1)配置集群(只有一台机器,直接克隆然后按"Hadoop虚拟机准备.txt"修改 hadoop101) (2)启动、测试集群增、删、查 (3)执行WordCount案例
2.执行步骤
(1)配置集群 (a)配置:hadoop-env.sh Linux系统中获取JDK的安装路径:
[dev1@hadoop101 ~]# echo $JAVA_HOME
/opt/module/jdk1.8.0_212 修改JAVA_HOME 路径:
export JAVA_HOME=/opt/module/jdk1.8.0_212
(b)配置:core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop101:9820</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data/tmp</value>
</property>
(c)配置:hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
(2)启动集群
(a)格式化NameNode(第一次启动时格式化,以后就不要总格式化)
[dev1@hadoop101 hadoop-3.1.3]$ bin/hdfs namenode -format
(b)启动NameNode
[dev1@hadoop101 hadoop-3.1.3]$ sbin/hadoop-daemon.sh start namenode (已过时)
[dev1@hadoop101 hadoop-3.1.3]$ bin/hdfs --daemon start namenode
(c)启动DataNode
[dev1@hadoop101 hadoop-3.1.3]$ bin/hdfs --daemon start datanode
(3)查看集群 (a)查看是否启动成功
[dev1@hadoop101 hadoop-3.1.3]$ jps
13586 NameNode
13668 DataNode
13786 Jps
注意:jps是JDK中的命令,不是Linux命令。不安装JDK不能使用jps (b)web端查看HDFS文件系统
http://hadoop101:9870
(c)常用端口号说明,表4-1所示 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S6oy6rRZ-1655430602155)(index_files/729e8725-5508-4618-bf4c-1437c235ed01.png)] 表4-1 端口号
4 启动YARN并运行MapReduce程序
1.分析 (1)配置集群在YARN上运行MR (2)启动、测试集群增、删、查 (3)在YARN上执行WordCount案例 2.执行步骤 (1)配置集群 (a)配置yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop101</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
(b)配置mapred-site.xml
[dev1@hadoop101 hadoop]$ vim mapred-site.xml
添加
<!-- 指定MR运行在YARN上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
(2)启动集群 (a)启动前必须保证NameNode和DataNode已经启动 (b)启动ResourceManager
[dev1@hadoop101 hadoop-3.1.3]$ sbin/yarn-daemon.sh start resourcemanager (已过时)
[dev1@hadoop101 hadoop-3.1.3]$ bin/yarn --daemon start resourcemanager
(c)启动NodeManager
[dev1@hadoop101 hadoop-3.1.3]$ bin/yarn --daemon start nodemanager
HDFS Block负载平衡器:Balancer
HDFS数据可能并不总是在DataNode之间均匀分布。一个常见的原因是向现有群集中添加了新的DataNode。HDFS提供了一个Balancer程序,分析block放置信息并且在整个DataNo de节点之间平衡数据,直到被视为平衡为止。
所谓的平衡指的是每个DataNode的利用率(节点上已用空间与节点总容量之比)与集群的利用率(集群上已用空间与集群总容量的比)相差不超过给定阈值百分比。 平衡器无法在单个DataNode上的各个卷之间进行平衡。
修改阈值运行balancer
命令:hdfs balancer -threshold 5
Balancer将以阈值5%运行(默认值10%),这意味着程序将确保每个DataNode上的磁盘使用量与群集中的总体使用量相差不超过5%。例如,如果集群中所有DataNode的总体使用率是集群磁盘总存储容量的40%,则程序将确保每个DataNode的磁盘使用率在该DataNode磁盘存储容量的35%至45%之间。
《Hadoop实操练习题》
请按照题干要求,填充代码完成操作。
1. 登录master主机,检查安全模式是否开启
bin/hdfs dfsadmin__________ get
-safemode
2. 通过系统自带的脚本,启动hadoop所有服务
$HADOOP_HOME/sbin/__________
start-all.sh
3. 检查HDFS系统文件的完整性
hadoop __________ /
fsck
4. 指定3%的阈值启动balancer
hdfs balancer __________ 3
-threshold
5. 从本地系统拷贝文件file.txt到dfs的目录/tmp/下
hadoop fs __________ file.txt /tmp/
-copyFromLocal 或者 -put
6. 从dfs中拷贝数据到本地系统
hadoop fs __________ /tmp/file.txt file.txt
-copyToLocal 或者 -get
7. 修改dfs上的文件权限为777
hadoop fs __________ 777 /tmp/file.txt
-chmod
8. 统计文件系统的可用空间信息
hadoop fs __________ -h
-df
9. 显示目录中所有文件大小
hadoop fs __________ -s /tmp
-du
-s或--summarize 仅显示总计。
-h或--human-readable 以K,M,G为单位,提高信息的可读性。
10. 设置HDFS参数,指定备份文本数量为2
<property>
<name>__________ </name>
<value>2</value>
</property>
dfs.replication
11. 临时删除一个DataNode节点
$HADOOP_HOME/sbin/__________ stop datanode
$HADOOP_HOME/sbin/__________ stop tasktracker
hadoop-daemon.sh
12. 主节点刷新集群状态
hdfs dfsadmin __________
-refreshNodes
13. 查看存活的节点
hdfs dfsadmin __________
-report
14. 均衡block
HADOOP_HOME/sbin/__________
start-balancer.sh
15. 一键关闭所有的Hadoop服务
$HADOOP_HOME/sbin/__________
stop-all.sh
16. 配置hadoop运行环境,用来定义Hadoop运行环境相关的配置信息的配置文件名称
hadoop-__________.sh
env
17. 配置集群全局参数,用来定义系统级别的参数,包括HDFS URL、Hadoop临时目录等的配置文件名称
__________ -site.xml
core
18. 配置MapReduce参数,包括JobHistory Server 和应用程序参数两部分,如reduce任务的默认个数、任务所能够使用内存的默认上下限等,配置文件名称
__________ -site.xml
mapred
19. 配置集群资源管理系统参数,配置ResourceManager ,nodeManager的通信端口,web监控端口等,配置文件名称
__________ -site.xml
yarn
20. 单独启动NameNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh start __________
namenode
21. 单独启动SecondaryNameNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh start __________
secondarynamenode
22. 单独启动DataNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh start __________
datanode
23. 单独启动ResourceManager服务
$HADOOP_HOME/sbin/yarn-daemon.sh start __________
resourcemanager
24. 单独启动NodeManager服务
$HADOOP_HOME/sbin/yarn-daemon.sh start __________
nodemanager
25. 单独启动HMaster服务
$HBASE_HOME/bin/hbase-daemon.sh start __________
master
26. 单独启动RegionServer服务
$HBASE_HOME/bin/hbase-daemon.sh start __________
regionserver
27. 单独关闭DataNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh stop __________
datanode
28. 单独关闭NodeManager服务
$HADOOP_HOME/sbin/yarn-daemon.sh stop __________
nodemanager
29. 单独关闭RegionServer服务
$HBASE_HOME/bin/hbase-daemon.sh stop __________
regionserver
30. 单独关闭HMaster服务
$HBASE_HOME/bin/hbase-daemon.sh stop __________
master
|