IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hadoop 实操练习题.md -> 正文阅读

[大数据]Hadoop 实操练习题.md

练习环境搭建:单机版伪分布式运行模式

1.分析

(1)配置集群(只有一台机器,直接克隆然后按"Hadoop虚拟机准备.txt"修改 hadoop101)
(2)启动、测试集群增、删、查
(3)执行WordCount案例

2.执行步骤

(1)配置集群
(a)配置:hadoop-env.sh
Linux系统中获取JDK的安装路径:

[dev1@hadoop101 ~]# echo $JAVA_HOME

/opt/module/jdk1.8.0_212
修改JAVA_HOME 路径:

export JAVA_HOME=/opt/module/jdk1.8.0_212

(b)配置:core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
    <value>hdfs://hadoop101:9820</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-3.1.3/data/tmp</value>
</property>

(c)配置:hdfs-site.xml

<!-- 指定HDFS副本的数量 -->
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

(2)启动集群

(a)格式化NameNode(第一次启动时格式化,以后就不要总格式化)
[dev1@hadoop101 hadoop-3.1.3]$ bin/hdfs namenode -format
(b)启动NameNode
[dev1@hadoop101 hadoop-3.1.3]$ sbin/hadoop-daemon.sh start namenode  (已过时)
[dev1@hadoop101 hadoop-3.1.3]$ bin/hdfs --daemon start namenode
(c)启动DataNode
[dev1@hadoop101 hadoop-3.1.3]$ bin/hdfs --daemon start datanode

(3)查看集群
(a)查看是否启动成功

[dev1@hadoop101 hadoop-3.1.3]$ jps
13586 NameNode
13668 DataNode
13786 Jps

注意:jps是JDK中的命令,不是Linux命令。不安装JDK不能使用jps
(b)web端查看HDFS文件系统

http://hadoop101:9870

(c)常用端口号说明,表4-1所示
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S6oy6rRZ-1655430602155)(index_files/729e8725-5508-4618-bf4c-1437c235ed01.png)]
表4-1 端口号

4 启动YARN并运行MapReduce程序

1.分析
(1)配置集群在YARN上运行MR
(2)启动、测试集群增、删、查
(3)在YARN上执行WordCount案例
2.执行步骤
(1)配置集群
(a)配置yarn-site.xml

<!-- Reducer获取数据的方式 -->
<property>
         <name>yarn.nodemanager.aux-services</name>
         <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop101</value>
</property>
      <property>
        <name>yarn.nodemanager.env-whitelist</name> 
          <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
 </property>

(b)配置mapred-site.xml

 [dev1@hadoop101 hadoop]$ vim mapred-site.xml

添加

<!-- 指定MR运行在YARN上 -->
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>

(2)启动集群
(a)启动前必须保证NameNode和DataNode已经启动
(b)启动ResourceManager

[dev1@hadoop101 hadoop-3.1.3]$ sbin/yarn-daemon.sh start resourcemanager (已过时)
[dev1@hadoop101 hadoop-3.1.3]$ bin/yarn --daemon start resourcemanager

(c)启动NodeManager

[dev1@hadoop101 hadoop-3.1.3]$ bin/yarn --daemon start nodemanager

HDFS Block负载平衡器:Balancer

HDFS数据可能并不总是在DataNode之间均匀分布。一个常见的原因是向现有群集中添加了新的DataNode。HDFS提供了一个Balancer程序,分析block放置信息并且在整个DataNo
de节点之间平衡数据,直到被视为平衡为止。

所谓的平衡指的是每个DataNode的利用率(节点上已用空间与节点总容量之比)与集群的利用率(集群上已用空间与集群总容量的比)相差不超过给定阈值百分比。 平衡器无法在单个DataNode上的各个卷之间进行平衡。

修改阈值运行balancer

命令:hdfs balancer -threshold 5

Balancer将以阈值5%运行(默认值10%),这意味着程序将确保每个DataNode上的磁盘使用量与群集中的总体使用量相差不超过5%。例如,如果集群中所有DataNode的总体使用率是集群磁盘总存储容量的40%,则程序将确保每个DataNode的磁盘使用率在该DataNode磁盘存储容量的35%至45%之间。

《Hadoop实操练习题》

请按照题干要求,填充代码完成操作。

1. 登录master主机,检查安全模式是否开启
bin/hdfs dfsadmin__________ get

-safemode

2. 通过系统自带的脚本,启动hadoop所有服务
$HADOOP_HOME/sbin/__________

start-all.sh

3. 检查HDFS系统文件的完整性
hadoop __________ /

fsck

4. 指定3%的阈值启动balancer
hdfs balancer __________  3

-threshold

5. 从本地系统拷贝文件file.txt到dfs的目录/tmp/下
hadoop fs __________ file.txt /tmp/

-copyFromLocal 或者 -put

6. 从dfs中拷贝数据到本地系统
hadoop fs __________ /tmp/file.txt file.txt

-copyToLocal 或者 -get

7. 修改dfs上的文件权限为777
hadoop fs __________ 777 /tmp/file.txt

-chmod

8. 统计文件系统的可用空间信息
hadoop fs __________  -h 

-df

9. 显示目录中所有文件大小
hadoop fs __________ -s /tmp

-du


-s或--summarize 仅显示总计。
-h或--human-readable 以K,M,G为单位,提高信息的可读性。



10. 设置HDFS参数,指定备份文本数量为2
<property>
            <name>__________ </name>
            <value>2</value>
</property>


dfs.replication


11. 临时删除一个DataNode节点
$HADOOP_HOME/sbin/__________ stop datanode
$HADOOP_HOME/sbin/__________ stop tasktracker


hadoop-daemon.sh

12. 主节点刷新集群状态
hdfs dfsadmin __________ 

-refreshNodes

13. 查看存活的节点
hdfs dfsadmin __________

-report

14. 均衡block
HADOOP_HOME/sbin/__________

start-balancer.sh

15. 一键关闭所有的Hadoop服务
$HADOOP_HOME/sbin/__________

stop-all.sh

16. 配置hadoop运行环境,用来定义Hadoop运行环境相关的配置信息的配置文件名称
  hadoop-__________.sh 

env

17. 配置集群全局参数,用来定义系统级别的参数,包括HDFS URL、Hadoop临时目录等的配置文件名称
  __________ -site.xml
  
core

18. 配置MapReduce参数,包括JobHistory Server 和应用程序参数两部分,如reduce任务的默认个数、任务所能够使用内存的默认上下限等,配置文件名称
  __________ -site.xml
  
mapred

19. 配置集群资源管理系统参数,配置ResourceManager ,nodeManager的通信端口,web监控端口等,配置文件名称
  __________ -site.xml

yarn

20. 单独启动NameNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh start __________

namenode

21. 单独启动SecondaryNameNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh start __________

secondarynamenode



22. 单独启动DataNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh start __________

datanode

23. 单独启动ResourceManager服务
$HADOOP_HOME/sbin/yarn-daemon.sh start __________

resourcemanager


24. 单独启动NodeManager服务
$HADOOP_HOME/sbin/yarn-daemon.sh start __________

nodemanager

25. 单独启动HMaster服务
$HBASE_HOME/bin/hbase-daemon.sh start __________

master

26. 单独启动RegionServer服务
$HBASE_HOME/bin/hbase-daemon.sh start __________

regionserver

27. 单独关闭DataNode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh stop __________

datanode

28. 单独关闭NodeManager服务
$HADOOP_HOME/sbin/yarn-daemon.sh stop __________
nodemanager

29. 单独关闭RegionServer服务
$HBASE_HOME/bin/hbase-daemon.sh stop __________

regionserver

30. 单独关闭HMaster服务
$HBASE_HOME/bin/hbase-daemon.sh stop __________

master
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-06-20 23:03:25  更:2022-06-20 23:03:27 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 23:50:00-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码