IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 什么是Hadoop? -> 正文阅读

[大数据]什么是Hadoop?

目录

一、基本介绍

二、发展历史

三、三大发行版本

四、Hadoop的优势

五、Hadoop的组成

六、HDFS的架构

七、Yarn的架构

八、MapReduce的架构


一、基本介绍

1)Hadoop 是一个由Apache基金会所开发的分布式系统基础架构

2)主要用来解决海量数据的存储和海量数据的分析计算问题

3)广义上来说,Hadoop通常是指Hadoop生态圈

二、发展历史

Hadoop起源于Apache Nutch项目,始于2002年,是Apache?Lucene的子项目之一??。2004年,Google在“操作系统设计与实现”会议上公开发表了题为《Mapreduce:简化大规模集群上的数据处理》的论文之后

?受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架,并将它与NDFS(Nutch Distributed File System)结合,用以支持Nutch引擎的主要算法?。由于NDFS和MapReduce在Nutch引擎中有着良好的应用,所以它们于2006年2月被分离出来,成为一套完整而独立的软件,并被命名为Hadoop。到了2008年年初,hadoop已成为Apache的顶级项目,包含众多子项目,被应用到包括Yahoo在内的很多互联网公司?

三、三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworks

1)Apache版本是最原始的版本,对于入门学习最好

2)Cloudera在大型互联网企业中用的较多

3)Hortonworks的文档较好

四、Hadoop的优势

1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会造成数据的丢失

2)高扩展性:在集群间分配任务数据,可以方便的扩展数以千计的节点

3)高效性:在MapReduce的思想下,Hadoop是并行工作的,任务处理速度快

4)高容错性:能够自动将失败的任务重新分配

五、Hadoop的组成

?又分为Hadoop1.X和Hadoop2.X

?Hadoop2.x加上了一个Yarn,单独负责资源调度,在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大,在Hadoop2.x的时代,增加了Yarn。HDFS和MapReduce分别负责海量数据的存储和计算

六、HDFS的架构

1)NameNode:储存文件的元数据,如文件名,文件目录结构,文件属性,以及每个文件的块列表和块所在的DataNode等。

2)DataNode:在本地文件系统存储文件块数据,以及块数据的校验和。

3)Secondary NameNode:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

七、Yarn的架构

1)ResourceManager:相当于整个集群的老大

2)NodeManager:每个节点的老大

八、MapReduce的架构

MapReduce将计算过程分为两个阶段:Map和Reduce

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-09-04 01:18:22  更:2022-09-04 01:19:53 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 10:28:17-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码