IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hadoop系列——Hadoop简介day1-2 -> 正文阅读

[大数据]Hadoop系列——Hadoop简介day1-2

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算

核心组件

HDFS:分布式文件存储系统——解决海量数据存储
YARN:集群资源管理和任务调度框架——解决资源任务调度
MapReduce:分布式计算框架——解决海量数据计算

官方地址

https://hadoop.apache.org/

Google的三篇论文

  1. 《The Google file system》︰谷歌分布式文件系统GFS
  2. 《MapReduce: Simplified Data Processing on Large Clusters》︰谷歌分布式计算框架MapReduce
  3. 《Bigtable: A Distributed Storage System for Structured Data》︰谷歌结构化数据存储系统

这三篇论文成为了Hadoop的指导

特性优点

1.扩容能力

Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。

2.成本低

Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

3.效率高

通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。

4.可靠性

能自动维护数据的多份复制,并且在任务失败后能自动地重新部署( redeploy )计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

Hadoop版本

商业发行版

商业公司发行
某些服务需要收费
基于Apache开源协议
优点︰稳定兼容好
缺点︰收费版本更新慢

开源社区版

Apache开源社区发行
也是官方发行版本
优点∶更新迭代快
缺点︰兼容稳定性不周

Hadoop架构变迁

Hadoop 1.0

  • HDFS(分布式文件存储)
  • MapReduce(资源管理和分布式数据处理)
    在这里插入图片描述

Hadoop 2.0

  • HDFS(分布式文件存储)
  • MapReduce (分布式数据处理)
  • YARN(集群资源管理、任务调度)

在这里插入图片描述

Hadoop 3.0(着重于2.0的性能优化)

通用

精简内核、类路径隔离、shell脚本重构

Hadoop HDFS

EC纠删码、多NameNode支持

Hadoop MapReduce

任务本地化优化、内存参数自动推断

Hadoop YARN

Timeline Service V2、队列配置

在这里插入图片描述

Hadoop集群

Hadoop集群包括两个集群:

  • HDFS集群
  • YARN集群

两个集群逻辑上分离:两个集群互相之间没有依赖、互不影响
物理上在一起:在某些角色进程往往部署在同一台服务器上
两个集群都是标准的主从架构集群

MapReduce是计算框架、代码层面的组件,没有集群之说所以没有MapReduce集群

HDFS集群(分布式存储)

  • 主角色: NameNode
  • 从角色: DataNode
  • 主角色辅助角色:SecondaryNameNode

YARN集群(资源管理、调度)

  • 主角色:ResourceManager
  • 从角色:NodeManager

Hadoop部署模式

单机模式 Standalone mode

1个机器运行1个java进程,所有角色在一个进程中运行,主要用于调试

伪分布式 Pseudo-Distributed mode

一个机器运行多个进程,每个角色一个进程,主要用于调试

集群模式 Cluster mode

集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。

HA高可用 HA mode

在集群模式的基础上为单点故障部署备份角色,形成主备架构,实现容错

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-09-24 21:03:44  更:2022-09-24 21:03:53 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 10:19:23-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码