开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Hadoop 实操练习题.md -> 正文阅读

[大数据]Hadoop 实操练习题.md

练习环境搭建：单机版伪分布式运行模式

1.分析

（1）配置集群(只有一台机器，直接克隆然后按"Hadoop虚拟机准备.txt"修改 hadoop101)
（2）启动、测试集群增、删、查
（3）执行WordCount案例

2.执行步骤

（1）配置集群
（a）配置：hadoop-env.sh
Linux系统中获取JDK的安装路径：

[dev1@hadoop101 ~]# echo $JAVA_HOME

/opt/module/jdk1.8.0_212
修改JAVA_HOME 路径：

export JAVA_HOME=/opt/module/jdk1.8.0_212

（b）配置：core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
    <value>hdfs://hadoop101:9820</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-3.1.3/data/tmp</value>
</property>

（c）配置：hdfs-site.xml

<!-- 指定HDFS副本的数量 -->
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

（2）启动集群

（a）格式化NameNode（第一次启动时格式化，以后就不要总格式化）
[dev1@hadoop101 hadoop-3.1.3]$ bin/hdfs namenode -format
（b）启动NameNode
[dev1@hadoop101 hadoop-3.1.3]$ sbin/hadoop-daemon.sh start namenode  (已过时)
[dev1@hadoop101 hadoop-3.1.3]$ bin/hdfs --daemon start namenode
（c）启动DataNode
[dev1@hadoop101 hadoop-3.1.3]$ bin/hdfs --daemon start datanode

（3）查看集群
（a）查看是否启动成功

[dev1@hadoop101 hadoop-3.1.3]$ jps
13586 NameNode
13668 DataNode
13786 Jps

注意：jps是JDK中的命令，不是Linux命令。不安装JDK不能使用jps
（b）web端查看HDFS文件系统

http://hadoop101:9870

（c）常用端口号说明，表4-1所示
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S6oy6rRZ-1655430602155)(index_files/729e8725-5508-4618-bf4c-1437c235ed01.png)]
表4-1 端口号

4 启动YARN并运行MapReduce程序

1.分析
（1）配置集群在YARN上运行MR
（2）启动、测试集群增、删、查
（3）在YARN上执行WordCount案例
2.执行步骤
（1）配置集群
（a）配置yarn-site.xml

<!-- Reducer获取数据的方式 -->
<property>
         <name>yarn.nodemanager.aux-services</name>
         <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop101</value>
</property>
      <property>
        <name>yarn.nodemanager.env-whitelist</name> 
          <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
 </property>

（b）配置mapred-site.xml

 [dev1@hadoop101 hadoop]$ vim mapred-site.xml

添加

<!-- 指定MR运行在YARN上 -->
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>

（2）启动集群
（a）启动前必须保证NameNode和DataNode已经启动
（b）启动ResourceManager

[dev1@hadoop101 hadoop-3.1.3]$ sbin/yarn-daemon.sh start resourcemanager (已过时)
[dev1@hadoop101 hadoop-3.1.3]$ bin/yarn --daemon start resourcemanager

（c）启动NodeManager

[dev1@hadoop101 hadoop-3.1.3]$ bin/yarn --daemon start nodemanager

HDFS Block负载平衡器：Balancer

HDFS数据可能并不总是在DataNode之间均匀分布。一个常见的原因是向现有群集中添加了新的DataNode。HDFS提供了一个Balancer程序，分析block放置信息并且在整个DataNo
de节点之间平衡数据，直到被视为平衡为止。

所谓的平衡指的是每个DataNode的利用率（节点上已用空间与节点总容量之比）与集群的利用率（集群上已用空间与集群总容量的比）相差不超过给定阈值百分比。平衡器无法在单个DataNode上的各个卷之间进行平衡。

修改阈值运行balancer

命令：hdfs balancer -threshold 5

Balancer将以阈值5％运行（默认值10%），这意味着程序将确保每个DataNode上的磁盘使用量与群集中的总体使用量相差不超过5％。例如，如果集群中所有DataNode的总体使用率是集群磁盘总存储容量的40％，则程序将确保每个DataNode的磁盘使用率在该DataNode磁盘存储容量的35％至45％之间。

《Hadoop实操练习题》

请按照题干要求，填充代码完成操作。

1. 登录master主机，检查安全模式是否开启
bin/hdfs dfsadmin__________ get

-safemode

2. 通过系统自带的脚本，启动hadoop所有服务
$HADOOP_HOME/sbin/__________

start-all.sh

3. 检查HDFS系统文件的完整性
hadoop __________ /

fsck

4. 指定3%的阈值启动balancer
hdfs balancer __________  3

-threshold

5. 从本地系统拷贝文件file.txt到dfs的目录/tmp/下
hadoop fs __________ file.txt /tmp/

-copyFromLocal 或者 -put

6. 从dfs中拷贝数据到本地系统
hadoop fs __________ /tmp/file.txt file.txt

-copyToLocal 或者 -get

7. 修改dfs上的文件权限为777
hadoop fs __________ 777 /tmp/file.txt

-chmod

8. 统计文件系统的可用空间信息
hadoop fs __________  -h 

-df

9. 显示目录中所有文件大小
hadoop fs __________ -s /tmp

-du


-s或--summarize 仅显示总计。
-h或--human-readable 以K，M，G为单位，提高信息的可读性。



10. 设置HDFS参数，指定备份文本数量为2
<property>
            <name>__________ </name>
            <value>2</value>
</property>


dfs.replication


11. 临时删除一个DataNode节点
$HADOOP_HOME/sbin/__________ stop datanode
$HADOOP_HOME/sbin/__________ stop tasktracker


hadoop-daemon.sh

12. 主节点刷新集群状态
hdfs dfsadmin __________ 

-refreshNodes

13. 查看存活的节点
hdfs dfsadmin __________

-report

14. 均衡block
HADOOP_HOME/sbin/__________

start-balancer.sh

15. 一键关闭所有的Hadoop服务
$HADOOP_HOME/sbin/__________

stop-all.sh

16. 配置hadoop运行环境，用来定义Hadoop运行环境相关的配置信息的配置文件名称
  hadoop-__________.sh 

env

17. 配置集群全局参数，用来定义系统级别的参数，包括HDFS URL、Hadoop临时目录等的配置文件名称
  __________ -site.xml
  
core

18. 配置MapReduce参数，包括JobHistory Server 和应用程序参数两部分，如reduce任务的默认个数、任务所能够使用内存的默认上下限等，配置文件名称
  __________ -site.xml
  
mapred

19. 配置集群资源管理系统参数，配置ResourceManager ，nodeManager的通信端口，web监控端口等，配置文件名称
  __________ -site.xml

yarn

20. 单独启动NameNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh start __________

namenode

21. 单独启动SecondaryNameNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh start __________

secondarynamenode



22. 单独启动DataNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh start __________

datanode

23. 单独启动ResourceManager服务
$HADOOP_HOME/sbin/yarn-daemon.sh start __________

resourcemanager


24. 单独启动NodeManager服务
$HADOOP_HOME/sbin/yarn-daemon.sh start __________

nodemanager

25. 单独启动HMaster服务
$HBASE_HOME/bin/hbase-daemon.sh start __________

master

26. 单独启动RegionServer服务
$HBASE_HOME/bin/hbase-daemon.sh start __________

regionserver

27. 单独关闭DataNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh stop __________

datanode

28. 单独关闭NodeManager服务
$HADOOP_HOME/sbin/yarn-daemon.sh stop __________
nodemanager

29. 单独关闭RegionServer服务
$HBASE_HOME/bin/hbase-daemon.sh stop __________

regionserver

30. 单独关闭HMaster服务
$HBASE_HOME/bin/hbase-daemon.sh stop __________

master

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2022-06-20 23:03:25 更:2022-06-20 23:03:27

360图书馆购物三丰科技阅读网日历万年历 2025年10日历

-2025/10/6 9:43:19-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码