| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> Hadoop简介 -> 正文阅读 |
|
[大数据]Hadoop简介 |
文章目录前言数据日趋庞大和多样,读写数据的性能出现了瓶颈,并且用户应用对实时性和响应时间要求越来越高,处理和分析数据使用的模型越来越复杂,计算量指数级上升。因此我们需要设这么一种架构,能够:
Hadoop是什么?Hadoop是一个开源的分布式计算和存储框架,由Apache基金会开发和维护。 Hadoop的 优势?
Hadoop的发展、组成?
Hadoop生态圈组件及其作用?1. Sqoop:Sqoop是一款开源的工具,主要用于在大数据框架(Hadoop、Hive等)与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库中的数据导进Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 HDFS架构概述?HDFS主要由3个组件构成,分别是NameNode、SecondaryNode和DataNode。
NameNodeNameNode是主服务器,负责管理文件系统的命名空间以及客户端对文件的访问。当客户端请求数据时,仅仅从NameNode中获取文件的元数据信息,具体的数据传输不经过NameNode,而是直接与具体的DataNode进行交互。 文件的元数据信息记录了文件系统中的文件名和目录名,以及它们之间的层级关系,同时也记录了每个文件目录的所有者及其权限,甚至还记录每个文件由哪些块组成,这些元数据信息记录在文件fsimage中。 这些块的位置信息是由NameNode启动后从每个DataNode获取并保存在内存当中的(动态重建),这样既减少了NameNode的启动时间,又减少了读取数据的查询时间,提高了整个系统的效率。 SecondaryNameNode定时与NameNode进行同步,具体操作为:定期合并文件系统镜像和编辑日志,然后把合并后的传给NameNode,替换其镜像,并清空编辑日志。 NameNode和SecondaryNameNode的区别与联系?区别: DataNodeDataNode是HDFS 中的从服务器,负责存储数据块,也为客户端提供数据块的读写服务,同时也响应NameNode的相关指令,如完成数据块的复制、删除等。 HDFS的读写机制读文件HDFS通过RPC调用NameNode获取文件块的位置信息,并对每个块返回所在的DataNode的地址信息,然后再从DataNode获取数据块。
写文件当客户端发送写文件请求时,NameNode负责通知DataNode创建文件,在创建之前会检查客户端是否有允许写入数据的权限,通过检测后,NameNode会向日志文件中写入一条创建文件的操作记录。
YARN架构概述?YARN是Hadoop集群资源管理系统,主要由ResourceManager、NodeManager、ApplicationManager和Container等几个组件构成。YARN架构如下: NodeManager:负责本节点程序的运行,以及资源的管理和监控(管理单个节点的资源),向ResourceManager汇报本节点的资源使用情况和Container运行状态,处理来自ApplicationMaster的命令,包括Container启动、停止等请求。 ApplicationMaster:ApplicationMaster负责与Scheduler协商合适的Container,跟踪应用程序的状态,以及监控它们的进度(任务的监控和容错)。每个应用程序都有自己的ApplicationMaster,负责与ResourceManager协商资源,并且和NodeManager协同工作来执行和监控任务。 Container:YARN中资源的抽象,封装了本地节点的多维度资源,如内存、CPU、磁盘、网络等。 MapReduce架构概述?
MapReduce由两步分组成,分别是Map和Reduce两部分,Map负责“分”,把复杂的任务分解为若干个简单的任务来进行并行处理;Reduce负责“合”,将map阶段的结果进行全局汇总。 Hadoop的默认块大小?HDFS中的文件在物理上是分块存储,块的大小可以通过配置参数来规定,默认的大小是128MB。 Hadoop启动时需要启动哪些进程?作用分别是什么?1. NameNode :它是hadoop中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问,保存有metadata。 参考 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/16 1:44:57- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |