IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> hadoop集群搭建 -> 正文阅读

[大数据]hadoop集群搭建

计划搭建一套自己的数据集群平台,顺便整理下hadoop的知识,做个总结,全当是笔记

一、hadoop简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构, 是存储系统计算框架的软件框架, 主要解决海量数据存储计算的问题,用于大数据技术中。

二、hadoop作用

1、海量数据存储

  • ?HDFS有高容错性的特点,并且可以用来部署在低廉的(low-cost)硬件上;
  • 提供高吞吐量(High throughput)来访问数据,适合那些有着超大数据集应用

? ? ? ?由n台运行着DataNode的机器组成和1台运行NameNode进程一起构成。每个DataNode 管理一部分数据,然后NameNode负责管理整个HDFS 集群的信息(存储元数据)。

2、资源管理,调度和分配

  • YARN是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,
  • 为上层应用提供统 一的资源管理和调度,极大提高了集群在利用率、资源统一管理和数据共享等方面益处。

三、hadoop结构

1、HDFS存储

  • HDFS是Hadoop核心项目的子项目,是分布式计算中数据存储管理的基础,具有高容错性、可扩展性,适合大数据量处理和流式批处理,可运行于廉价的服务器上。
  • HDFS架构采用master/slave架构,一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。

?hdfs结构图,查询多篇结构图,比较中意的一张,感谢躁动的青年博主

NameNode:
一个中心服务器,是这个集群的管理者,负责管理HDFS的命名空间(NameSpace)、
配置副本策略和数据块(Block)映射信息,同时也会处理客户端读写请求。

DataNode:
执行NameNode下达命令,DataNode执行实际的操作。
集群中的DataNode负责管理所在节点上的存储,实际的数据块和执行数据块的读/写操作。

Client:

命令来管理及访问HDFS,与NameNode交互,获取文件的位置信息,
与DataNode交互,读取或者写入数据,将文件切分成一个一个的Block,然后进行存储。

Secondary NameNode:
并非NameNode的热备。当NameNode挂掉的时候,
它并不能马上替换NameNode并提供服务只是辅助NameNode,分担其工作量。
定期合并fsimage和fsedits,并推送给NameNode。在紧急情况下,可辅助恢复NameNode

*HDFS中的数据块Block是逻辑概念,默认块为64MB,block是HDFS分布式文件系统中的文件存储的逻辑单元

2、MapReduce计算

  • Hadoop MapReduce是google MapReduce 克隆版。
  • MapReduce是一种计算模型,用以进行大数据量的计算。
  • Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。
  • Reduce对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。

MapReduce框架

由每个集群节点的一个单一主控JobTracker和一个从属TaskTracker构成。

主控JobTracker

负责资源管理,跟踪资源消耗/可用性,调度从属TaskTracker上的作业组件任务,监控这些任务,并重新运行失败任务。

从属TaskTracker

按照主控JobTracker的指示执行任务,并定期向主控JobTracker提供任务状态信息。

3、YARN管理

YARN?主要包含三大模块:

  • Resource Manager(RM):负责所有资源的监控、分配和管理
  • Node Manager(NM):?负责每一个节点的维护
  • Application Master(AM):负责每一个具体应用程序的调度和协调;

RM?拥有绝对的控制权和对资源的分配权。 AM?则会和?RM?协商资源,同时和?NM通信来执行和监控?task。

四、hadoop安装

tar.gz是已经编译好的了,解压改改配置文件就能用;而src.tar.gz是源码,要编译才能用

五、hadoop使用

六、hadoop生态

七、hadoop集群

八、hadoop优劣

九、hadoop前景

十、hadoop参考?

分布式文件系统HDFS架构解析_solihawk的博客

hadoop部分架构图_躁动的青年的博客-CSDN博客_hadoop架构图

Hadoop整体框架_爱吃串串的瘦子的博客

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-08-06 10:50:33  更:2022-08-06 10:52:37 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 22:55:31-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码