IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 大数据平台架构实战(一)hadoop搭建 -> 正文阅读

[大数据]大数据平台架构实战(一)hadoop搭建

目标:美团的大数据平台架构实践 - 知乎

注:该图片来自上面链接

步骤

首先第一步就是HDFS的搭建,也就是hadoop的搭建,下面具体介绍一下步骤和问题。

参考文档:Apache Hadoop 2.10.2 – Hadoop: Setting up a Single Node Cluster.(官网)

由于没有机器,先做一个简单的单机版架构了。

各个文件说明

bin:存放操作Hadoop相关服务(HDFS、Yarn)的脚本,但是通常使用sbin目录下的脚本。

etc:存放Hadoop配置文件,主要包含core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。

include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。

lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。

libexec:各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。

sbin:该目录存放Hadoop管理脚本,主要包含HDFS和YARN中各类服务的启动/关闭脚本。

share:Hadoop各个模块编译后的jar包所在的目录。

src:Hadoop的源码包。

按照官网说明,需要以下两个环境变量:

 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop                                                                                                                                                                                                                                                 

 export HADOOP_HOME=/Users/xxxx/opt/hadoop-2.10.1
 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后直接运行

sbin/start-all.sh

常用地址

??????http://localhost:50070/dfshealth.html#tab-overview

??????http://localhost:8088/cluster

遇到问题

没有datanode

jps 
5363 SecondaryNameNode
5477 ResourceManager
5017 
5161 NameNode
5563 NodeManager
93981 
5725 Jps

?这会导致无法上传文件?

 hadoop fs -put etc/hadoop/* /input 
22/06/01 11:51:13 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
22/06/01 11:51:14 WARN hdfs.DataStreamer: DataStreamer Exception
org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /input/capacity-scheduler.xml._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1).  There are 0 datanode(s) running and no node(s) are excluded in this operation.
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:1832)
	at org.apache.hadoop.hdfs.server.namenode.FSDirWriteFileOp.chooseTargetForNewBlock(FSDirWriteFileOp.java:265)

解决方案:

由于是第一次搭建,直接删除文件系统:

找到创建hdfs的地址,删除就行了,重新启动

安装验证

bin/hadoop jar  share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar  grep /input /output 'dfs[a-z.]+' 

该版本 hadoop里面不支持相对路径,所以注意必须要加上根目录

?

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-06-06 17:25:11  更:2022-06-06 17:25:26 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 22:21:50-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码