[大数据] 大数据、Hadoop、Hbase介绍

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 大数据、Hadoop、Hbase介绍 -> 正文阅读

[大数据]大数据、Hadoop、Hbase介绍

一、大数据、Hadoop、Hbase介绍

1.1. 数据与信息

1.1.1. 数据

数据（data）是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的的原始素材。可以是符号、文字、数字、语音、图像、视频等

1.1.2. 信息

信息，指音讯、消息、通讯系统传输和处理的对象，泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物，得以认识和改造世界。

1.1.3. 两者的关系

数据经过处理后变成信息。

1.1.4.数据库

1.2. 数据模型

1.2.1. 分层模型

树形结构存储
在这里插入图片描述

1.2.2. 网络模型

网络结构存储
在这里插入图片描述

1.2.3. 关系模型

表格形式存储
在这里插入图片描述

1.3. 数据结构

1.3.1. 结构化数据

可定义，有类型、格式、结构约束，如：RDBMS
在这里插入图片描述

1.3.2. 半结构化数据

有一定的格式约束但是不全，如： csv,xml,json,html文件，拥有开标签闭标签
在这里插入图片描述

1.3.3. 准结构化数据

如：运行日志，流数据
在这里插入图片描述

1.3.4. 非结构化数据

没有规律可言很复杂，如：视频，音频，PDF文件，ppt文件，图片，邮件等；
在这里插入图片描述

1.4. 大数据5v特征

大量，多样，高速，价值密度低，准确不高
在这里插入图片描述

1.4.1. Volume 大量：

数据量大，包括采集、存储和计算的量都非常大。

1.4.2. Variety 多样：

种类和来源多样化。包括结构化、半结构化和非结构化数据，具体表现为网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求。

1.4.3. Value 价值密度低：

数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何结合业务逻辑并通过强大的机器算法来挖掘数据价值，是大数据时代最需要解决的问题。

1.4.4. Velocity 速度快：

数据增长速度快，处理速度也快，时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到，个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

1.4.5. Veracity 准确率不高：

数据的准确性和可信赖度，即数据的质量。数据不一定完整，有一定缺陷

1.5. RDBMS的数据处理限制

1.5.1. RDBMS限制

一台计算机不可能无限制提高配置，只能有限的进行垂直扩展提升配置，当数据量超过最高配置承受能力之后，此时传统数据库如Mysql，Oracle，等无法进行数据管理和处理，数据就成为大数据。大数据没有规定起点和终点具体是多大，只要超过传统数据库的处理范围就是大数据。此时只能使用大数据的处理方法。

1.5.2. RDBMS限制解决方法

1.5.2.1
当一台机器处理能力饱和后我们可以根据数据量大小和处理需求加入一定数量的计算机进行水平扩展能力，此时所有的计算机组合在一起共同工作就叫做分布式文件系统。
1.5.2.2
使用大数据工具，比如说Hadoop,Hbase,Spark,Hive…

1.6. Hadoop介绍

1.6.1.框架

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。
HDFS：分布式文件系统，用于存储数据
MapReduce：用于处理数据
Yarn：用于资源管理
在这里插入图片描述

1.7. Hbase介绍

1.7.1. Hbase特点

?HBase是建立在Hadoop文件系统之上的面向列的分布式数据库。
?这是一个开源项目。
?它是水平可伸缩的。
?HBase是一种数据模型，类似于Google的大表，旨在提供对大量结构化数据的快速随机访问。
?非关系型的。
?它是分布式数据库。
?是稀疏矩阵

1.7.2. Nosql类型

?基于键值对存储: Apache Cassandra, Redis,
?基于文件存储: MongoDB, Couchbase Server
?基于列存储:MariaDB,Apache HBase
?基于图像存储:ArangoDB,Neo4j

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2022-09-13 11:22:42 更:2022-09-13 11:23:50

360图书馆购物三丰科技阅读网日历万年历 2026年5日历

-2026/5/10 21:21:03-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码