开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Hadoop基础学习笔记系列（三）Hadoop堆栈 -> 正文阅读

[大数据]Hadoop基础学习笔记系列（三）Hadoop堆栈

1 基本Hadoop组件

Hadoop Common
HDFS
YARN
MR

2 应用和框架（在基本组件之上）

HBase
支持大型表的可扩展数据仓库
Hive
数据仓库基础设施，提供数据摘要和即席查询
Pig
高级数据流语言和并行计算执行框架
Spark
快速通用的计算引擎，可以使用HDFS文件系统。

3 HDFS设计

最初的设计

可扩展的分布式文件系统
使用节点（nodes）将数据分布在本地磁盘上
多个低成本商品磁盘，高performance

goal：

resilience（快速恢复的能力）（因为有多个磁盘工作，要防止其中的磁盘failure）
可扩展
本地应用
轻量级

设计
![[Pasted image 20220213224304.png]]

多个datanode，data存储在datanode中，默认会复制三份。作用：管理存储、为用户提供读写request，数据块的增删改
单个namenode

Hadoop2的HDFS

HDFS Federation
存在多个namenode，可以增加命名空间的可扩展性以及performance，同时可以隔离应用，这样在使用应用的时候就不会影响整个文件系统。

多个namemode server
多个命名空间（你真的知道什么是 “命名空间” 吗？ - 知乎 (zhihu.com)）
数据存在数据块池中（block pool）
高可用性（冗余namenode）
异构存储和归档存储（heterogeneous storage and archival storage）

4 MR框架和YARN

MR框架

mapreduce原理_mapreduce执行原理详解，各个阶段做了什么？_weixin_39583029的博客-CSDN博客
 深入浅出讲解 MapReduce_哔哩哔哩_bilibili
MapReduce shuffle过程详解
![[Pasted image 20220213230853.png]]

软件框架——为了编写并行数据处理应用

优点：

MR计算和HDFS存储节点是same，直接在datanode上进行计算，不用移动data

最初的MR框架

单个 jobtracker
每个job一个tasktracker

下一代：YARN

将资源管理和job计划&监控分离
Global ResourceManager
每个节点都有NodeManager
每个应用都有ApplicationMaster

YARN的其他特征

高可用的RM：备用RM
TimeLine Server
Cgroups：管理容器使用的资源
Secure Container

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2022-02-14 21:14:25 更:2022-02-14 21:15:11

360图书馆购物三丰科技阅读网日历万年历 2026年5日历

-2026/5/9 0:20:43-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码