[大数据] BIG DATA 神奇的大数据

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> BIG DATA 神奇的大数据 - hadoop简章 -> 正文阅读

[大数据]BIG DATA 神奇的大数据 - hadoop简章

自说

自说

好，老传统了，今天我们开了新的篇章，大数据的学习。在学习之前我们先来学习介(几)个英文如何读，big data（比格得特）大数据，还有一个hadoop(哈读破)分布式计算。大数据从字面意思来理解，呢就是说数据量很庞大嘛，再延伸来说，就是数据多而错杂，呢我们指定不能要呢些错杂的数据啊，我们要的是有价值的数据，呢怎么处理呢，难以理解，不过也确实，大数据的学习总是有很多的坎坷，接下来便会走进大数据的世界。这个时候有的人就会说了，你说了big data还没有说hadoop是啥呢，这个待会就会详细去说。

大数据

首先看到字眼，就知道它数据的庞大性，但它不仅仅是数据量大而言，因此大数据有着五个特点，也称为5v原则（IBM总结）：Volume（大量）、Velocity（高速）、Variety(多样)、Veracity（真实性）、Value（低价值密度），在之前的4V原则后又加上了value，可见大数据在当今时代的重要性与多样性。

当今时代，绝大数企业及领域都得到了广泛的应用，就拿近的来说，因为疫情我们每个人都会产生数据，如何在第一时间取得最有价值的信息，精准有效就是它厉害之处，它以低成本高价值的特性占据着当今现阶段，并与云计算、人工智能协同作战，形成了三位一体（IBM分别是AI,BIG DATA ，cloud computing，分别对应着人工智能，大数据，云计算）。

Hadoop

Hadoop是Apache的一个子项目，使用java语言实现开源的软件框架，所以在学习过程中我们需要用到jdk（java开发工具包），它是一个可以通过网络协同工作的集群，对海量数据进行分布式计算、存储的框架，用于处理海量的数据。

Hadoop生态

Hadoop其实是由很多的模块及组件组成，列为其首的则是Common、HDFS、MapReduce、YARN四大模块，但随着不断的发展，这个大家庭有着新成员的加入，则形成了一个大生态——Hadoop生态。下面是Hadoop的生态构架图

Kafka	Hive	pig	Mahout	SparkSQL	Impala	HBase	Sqoop
	????????????????????? MapRedce			Spark
Zookeeper	?? ???????????????????????????????????????????????? YARN						Flume
	??????????????????????????????????????????????????? HDFS
????????????????????????????????????????????????????????????????????????Common