IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 大数据启蒙-初步认识HDFS -> 正文阅读

[大数据]大数据启蒙-初步认识HDFS

1.大数据要了解的概念:

分而治之

并行计算:分布式存储、分布式算法

计算向数据移动

算法效率:空间复杂度和时间复杂度, 时间效率和空间效率

数据本地化读取

2.大数据发展简史:

hadoop.apache.org

Hadoop由 Apache Software Foundation 于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入

2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。

Cloudera公司在2008年开始提供基于Hadoop的软件和服务。

2016年10月hadoop-2.6.5

2017年12月hadoop-3.0.0

?The project includes these modules:

Hadoop Common

Hadoop Distributed

File System (HDFS?)? 一致性 分布式文件系统,1个主

Hadoop YARN Hadoop

MapReduce Other Hadoop-related projects at Apache include:

Ambari?

Avro?

Cassandra?

Chukwa?

HBase?

Hive?

Mahout?

Pig?

Spark?

Tez?

ZooKeeper?

3.理论知识点

存储模型 架构设计 角色功能 元数据持久化 安全模式 副本放置策略 读写流程 安全策略

存储模型:

文件线性按字节切割成块(block),具有offset,id

文件与文件的block大小可以不一样

一个文件除最后一个block,其他block大小一致

block的大小依据硬件的I/O特性调整

block被分散存放在集群的节点中,具有location Block具有副本(replication),没有主从概念,

副本不能出现在同一个节点

副本是满足可靠性和性能的关键

文件上传可以指定block大小和副本数,

上传后只能修改副本数 一次写入多次读取,不支持修改 支持追加数据

角色及是进程

dataNode:
节点集群数量是dataNode数据量,不超过5000台?
基于操作系统进程本地磁盘存储block块,以文件的形式存储;
保存bolck校验和数据,保证block的可靠性;
与nameNode保持心跳,汇报block列表状态

nameNode:
只有一个,持久化方案,完全基于内存存储文件的元数据、目录结构、文件block的映射;
需要持久化方案保证数据可靠性;
提供副本放置策略;?

客户端:

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-02-19 01:14:20  更:2022-02-19 01:15:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 11:07:22-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码