IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 大数据基础day1 -> 正文阅读

[大数据]大数据基础day1

HDFS(Hadoop分布式文件系统)

一种旨在在商品硬件上运行的分布式文件系统

  • HDFS具有高度的容错能力,旨在部署在低成本硬件上。
  • HDFS提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序
  • HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。
  • HDFS最初是作为Apache Nutch Web搜索引擎项目的基础结构而构建的。
  • HDFS是Apache Hadoop Core项目的一部分。

字典与文件系统

文件系统定义

文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易。

文件名

在文件系统中,文件名是用于定位存储位置。

元数据(Metadata)

保存文件属性的数据,如文件名,文件长度,文件所属用户组,文件存储位置等。

数据块(Block)

存储文件的最小单元。对存储介质划分了固定的区域,使用时按这些区域分配使用。

HDFS架构包含三个部分

  1. Client:支持业务访问HDFS,从NameNode ,DataNode获取数据返回给业务。多个实例,和业务一起运行
  2. NameNode:用于存储、生成文件系统的元数据。运行一个实例
  3. DataNode:DataNode用于存储实际的数据,将自己管理的数据块上报给NameNode ,运行多个实例

HDFS写数据流程(确保一致性)

在这里插入图片描述
1.提出申请 -2.创建元数据 -3.数据拆分 -4.数据写入(第一个节点写入 其他节点复制)-5.ack检查包 -6.关闭接口 -7.元数据固化

HDFS读数据(确保效率性)

在这里插入图片描述

1.提出申请 -2.查找元数据-3读取 (就近原则)- 4.关掉

HDFS(高可用)HA

在这里插入图片描述
利用ZooKeeper实现主备NameNode(解决单点故障问题)
Zookeeper主要用于存储HA下状态文件
双NameNode 保证同一时间总有一个节点正常工作
ZKFC(ZooKeeper Failover Controller)用于监控NameNode节点的主备状态 通过心跳机制 向上层报告自己的状态每3s 发送一条消息(共12条消息)
元数据 持久化:通过快照和日志文件
联邦机制:并行设立多个NameNode节点
副本机制:3副本保证数据安全
同分布 :减少无效的io操作

HBase

hbase是采用java语言编写的一款开源的基于HDFS的 nosql型数据库,不支持SQL.没有表关系,数据最终是存储在HDFS上,在启动hbase集群之前,必须要先启动HDFS

存储模式:列存储
不支持事务,仅支持单行事务
易于扩展

三种读取数据的方式

  1. 基于rowkey(行键)的读取
  2. 基于rowkey的range范围的读取
  3. 扫描全表数据

HBase的表的三个特征

  1. 储量大:一个表可存储上十亿行数据,拥有上百万列
  2. 面向列:基于列族管理操作,进行列式存储方案
  3. 稀疏性:对于NULL值的数据不占用任何磁盘空间,对效率没有任何影响表关系松散

HBase架构

在这里插入图片描述

HBase读取数据的流程

  1. 客户端提出申请
  2. 查找数据存放的位置 (在哪个region中)
  3. 调用get scan 对region进行扫描

HBase写入数据的流程

  1. 提出申请
  2. 明确分区(生成元数据表)
  3. 将数据分配到HRegionServer
  4. 先写日志 hlog 然后再写region
  5. 固化到hdfs

mapreduce

map --生成键值对
reduce – 做聚合操作
洗牌机制 – 小范围的聚合 数据节点之间的聚合

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-06-25 18:11:43  更:2022-06-25 18:14:45 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 16:53:28-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码