开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> day41 Hadoop 安装 -> 正文阅读

[大数据]day41 Hadoop 安装

I know, i know
地球另一端有你陪我

Hadoop

Hadoop是一个适合海量数据的分布式存储和分布式计算的平台

三大组件

hdfs：
是一个分布式存储框架，适合海量数据存储

mapreduce：
是一个分布式计算框架，适合海量数据计算

yarn：
是一个资源调度平台，负责给计算框架分配计算资源

1、安装

1 上传 hadoop 安装包并解压至 soft 文件夹

	tar -xvf hadoop-2.7.6.tar.gz

2 配置环境变量，退出后重启配置文件

	vim /etc/profile

	增加hadoop环境变量，将bin和sbin都配置到PATh中
	export HADOOP_HOME=/usr/local/soft/hadoop-2.7.6
	export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin


	source /etc/profile

3 修改配置文件

hadoop 配置文件在/usr/local/soft/hadoop-2.7.6/etc/hadoop/

3.1 slaves ：从节点列表（datanode）

	vim slaves
	
	//删除原对象
	//增加node1, node2

3.2 hadoop-env.sh ： Hadoop 环境配置文件

	vim hadoop-env.sh
	
	//修改JAVA_HOME
	export JAVA_HOME=/usr/local/soft/jdk1.8.0_171

3.3 core-site.xml ： hadoop核心配置文件

	vim core-site.xml 
	
	//在 configuration 标签中间增加以下内容
	
	<property>
	<name>fs.defaultFS</name>
	<value>hdfs://master:9000</value>
	</property>

	<property>
	<name>hadoop.tmp.dir</name>
	<value>/usr/local/soft/hadoop-2.7.6/tmp</value>
	</property>

	<property>
	<name>fs.trash.interval</name>
	<value>1440</value>
	</property>

3.4 hdfs-site.xml ： hdfs配置文件

	vim hdfs-site.xml

	//在configuration中间增加以下内容

	<property>
	<name>dfs.replication</name>
	<value>1</value>
	</property>

	<property>
	<name>dfs.permissions</name>
	<value>false</value>
	</property>

3.5 yarn-site.xml： yarn配置文件

	vim yarn-site.xml

	//在configuration中间增加以下内容

	<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>master</value>
	</property>

	<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
	</property>

	<property>
	<name>yarn.log-aggregation-enable</name>
	<value>true</value>
	</property>

	<property>
	<name>yarn.log-aggregation.retain-seconds</name>
	<value>604800</value>
	</property>

	<property>  
	<name>yarn.nodemanager.resource.memory-mb</name>  
	<value>20480</value>  
	</property>  

	<property>  
	<name>yarn.scheduler.minimum-allocation-mb</name>  
	<value>2048</value>  
	</property>  

	<property>  
	<name>yarn.nodemanager.vmem-pmem-ratio</name>  
	<value>2.1</value>  
	</property>

3.6 mapred-site.xml： mapreduce配置文件

	//重命名模板文件
	mv  mapred-site.xml.template mapred-site.xml

	vim mapred-site.xml

	//在configuration中间增加以下内容

	<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
	</property>

	<property>  
	<name>mapreduce.jobhistory.address</name>  
	<value>master:10020</value>  
	</property>  

	<property>  
	<name>mapreduce.jobhistory.webapp.address</name>  
	<value>master:19888</value>  
	</property>

4 将 hadoop 安装文件分发到子节点

	scp -r /usr/local/soft/hadoop-2.7.6/ node1:/usr/local/soft/
	scp -r /usr/local/soft/hadoop-2.7.6/ node2:/usr/local/soft/

5 格式化namenode

	hdfs namenode -format

6 启动 hadoop

	start-all.sh

7 访问 hdfs 页面验证是否安装成功

	http://master:50070

8 关闭 hadoop

	stop-all.sh

附：如果安装失败

	   stop-all.sh
	   再次重启的时候
	1、需要手动将每个节点的tmp目录删除: 所有节点都要删除
	   rm -rf /usr/local/soft/hadoop-2.7.6/tmp
	   然后执行将namenode格式化
	2、在主节点执行命令:
	   hdfs namenode -format
	3、启动hadoop
	   start-all.sh

2、基本操作

由于 hadoop 是内置于 linux，并且大部分操作指令和 linux 相同
为了区分，需要在指令前加上 hadoop dfs

1、创建目录 mkdir

	hadoop dfs -mkdir

2、递归创建目录

	hadoop dfs -mkdir -r

3、查看当前路径

	hadoop dfs -ls

4、从当前 linux 中上传文件 put 至 hadoop hdfs 数据库

	hadoop dfs -put linux中的文件 hadoop中的路径
	
	hadoop dfs -put students.txt /data/student

5、从 hadoop hdfs 数据库下载文件至当前 linux 路径

	hadoop dfs hadoop中的文件

	hadoop dfs -get /data/student/students.txt

6、复制

	hadoop dfs -cp /data/a.txt  /data/b/

7、查看文件内容(cat), 如果数据量比较大，不能使用

	hadoop dfs -cat /data/student/students.txt

8、移动 (mv)，物理层面文件没有移动，只是改变了元数据（目录结构）

	 hadoop dfs -mv /a.txt /a

9、删除文件(rm)目录(rmr)

	hadoop dfs -rm /a/a.txt
	hadoop dfs -rmr /a

	并没有真正删除文件，只是将文件放到了回收站中，
	/user/root/.Trash/Current  ; 每一个用户都有一个回收站，会定期清空
		<property>
			<name>fs.trash.interval</name>
			<value>1440</value>                 //此行即是时间
		</property>

手动删除回收站

	Hadoop dfs -rmr /user/root/.Trash/Current

10、强制删除，不经过回收站

	hadoop dfs -rmr -skipTrash /a

11、查看文件末尾(tail)

	 hadoop dfs -tail /data/student/students.txt
	 
	 -f : 一直等待查看

12、查看文件的大小

	hadoop dfs -du -h  /data

3、关于 Hadoop 的 hdfs

1、集群中不同的节点承担不同的职责

负责命名空间职责的节点称为主节点 name node（master node）
负责存储真实数据职责的节点称为从节点 data node（slave node）

其中主节点负责管理文件系统的文件结构，从节点负责存储真实的数据，
称为主从式结构（master-slaves）

注：类比 redis 中的主从复制

2、分布式存储

hadoop 将从节点划分为众多同样大小的块（block），每个块分配了 128MB 的空间大小

1、文件被上传后，会被自动划分，当小于 128MB，会被直接存储到该 block

2、当文件超出 128MB，系统允许10%的溢出，即小于 140.8MB ，一样会被存于一个 block

3、当文件超出允许溢出的范围，文件将会被储存于不同的 block 当中，即分布式存储

因此在分布式存储系统中，一个文件的数据可能分散在不同节点中

3、hdfs 中的节点

从节点（data node）负责存储数据：
数据节点具有储存数据、读写数据的功能，
其中存储的数据块（block）比较类似于硬盘中的"扇区"概念，是 HDFS 存储的基本单位

主节点（name node）负责指挥其它节点：
任何一个"文件系统"(File System, FS) 都需要具备根据文件路径映射到文件的功能，
命名节点就是用于储存这些映射信息并提供映射服务的计算机，
在整个 HDFS 系统中扮演"管理员"的角色，因此一个 HDFS 集群中只有一个命名节点

HDFS 命名空间（NameSpace）：
HDFS 支持传统的层次型文件组织结构。
用户或者应用程序可以创建、删除、移动或重命名文件，将文件保存在这些目录里
这种结构称为命名空间

在主节点上，为了加快用户访问的速度，会把整个命名空间信息都放在内存中，
当存储的文件越多时，那么主节点就需要越多的内存空间

4、hdfs 访问顺序

先访问主节点，查询数据在哪些从节点上存储，然后再到从节点读取

总结

hadoop dfsadmin -safemode get 命令是用来查看当前 hadoop 安全模式的开关状态

hadoop dfsadmin -safemode enter 命令是打开安全模式

hadoop dfsadmin -safemode leave 命令是离开安全模式

单纯修改从节点数据存储位置中的数据，是无法影响到主节点中获得的数据的
主节点存储的信息会详细到行！？

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-11-19 17:41:33 更:2021-11-19 17:42:31

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/7 19:01:58-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码