目录
自说
大数据
Hadoop
Hadoop生态
Hadoop基本组件
自说
好,老传统了,今天我们开了新的篇章,大数据的学习。在学习之前我们先来学习介(几)个英文如何读,big data(比格得特)大数据,还有一个hadoop(哈读破)分布式计算。大数据从字面意思来理解,呢就是说数据量很庞大嘛,再延伸来说,就是数据多而错杂,呢我们指定不能要呢些错杂的数据啊,我们要的是有价值的数据,呢怎么处理呢,难以理解,不过也确实,大数据的学习总是有很多的坎坷,接下来便会走进大数据的世界。这个时候有的人就会说了,你说了big data还没有说hadoop是啥呢,这个待会就会详细去说。
大数据
首先看到字眼,就知道它数据的庞大性,但它不仅仅是数据量大而言,因此大数据有着五个特点,也称为5v原则(IBM总结):Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性)、Value(低价值密度),在之前的4V原则后又加上了value,可见大数据在当今时代的重要性与多样性。
当今时代,绝大数企业及领域都得到了广泛的应用,就拿近的来说,因为疫情我们每个人都会产生数据,如何在第一时间取得最有价值的信息,精准有效就是它厉害之处,它以低成本高价值的特性占据着当今现阶段,并与云计算、人工智能协同作战,形成了三位一体(IBM分别是AI,BIG DATA ,cloud computing,分别对应着人工智能,大数据,云计算)。
Hadoop
Hadoop是Apache的一个子项目,使用java语言实现开源的软件框架,所以在学习过程中我们需要用到jdk(java开发工具包),它是一个可以通过网络协同工作的集群,对海量数据进行分布式计算、存储的框架,用于处理海量的数据。
Hadoop生态
Hadoop其实是由很多的模块及组件组成,列为其首的则是Common、HDFS、MapReduce、YARN四大模块,但随着不断的发展,这个大家庭有着新成员的加入,则形成了一个大生态——Hadoop生态。下面是Hadoop的生态构架图
Kafka | Hive | pig | Mahout | SparkSQL | Impala | HBase | Sqoop | ????????????????????? MapRedce | Spark | Zookeeper | ?? ???????????????????????????????????????????????? YARN | Flume | ??????????????????????????????????????????????????? HDFS | ????????????????????????????????????????????????????????????????????????Common |
Hadoop基本组件
基本组件其实也还是刚刚说的四大模块Common、HDFS、MapReduce、YARN。下面简单介绍
Common??????? 公共服务模块???????
主要为hadoop底层提供服务、工具、库、API接口,方便使用
HDFS??????? 分布式文件系统
为上层程序提供大规模的数据存储文件系统
YARN??????? 统一资源调度管理
在数据使用传输存储的过程中,资源的合理使用与调度,对整个作业进行管理调度
MapReduce??????? 并行计算框架
处理庞大数据采取分而治之的方式,可快捷方便的使用
新篇章的开始,今后会逐步更新,一起学习进步!篇中有很多疏漏之处,望各位指出或留言评论!
|