前言

hadoop学习笔记，作为个人学习笔记方便自己复习也乐于分享，笔记陆续整理更新，该笔记适合初级入门学习的伙伴，博客练手，第一次写这东西不好的地方还请大家多提建议

一、Hadoop概述

?1、hadoop是什么？

Hadoop是一个由Apache基金会所开发的分布式系统基础框架
主要解决海量数据的存储与海量数据的分析计算问题
??HDFS—> 海量数据的存储；MapReduce --> 海量数据的计算
广义上说Hadoop通常是是一个生态圈——hadoop生态

?2、hadoop发展史

1、Lucene框架是Doug Cutting 开创的开源软件，用java写的，实现了Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎。

2、2001年年底Lucene称为Apache基金会的一个子项目

3、对于海量数据的场景，luence面对与Google一样的困难，存储数据的困难，检索速度慢

4、学习模仿google解决这些问题的办法，微型Nutch

5、可以说Google是Hadoop的思想之源

? Google在大数据方面的三篇论文：

? GFS——>HDFS

? Map-Reduce——>MR

? BigTable———>HBase

6、2003-2004年，Google公开了部分GFS和MapReduce思想细节，以此为基础Doug Cutting等人用了两年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。

7、2005年Hadoop作为Lucene的子项目正式引入Apache基金会

8、2006年3月，Map-Reduce和Nutch Distribute File System 分别被纳入从称为Hadoop的项目中

9、Hadoop就此诞生并迅速发展，标志着大数据时代来临。

该篇文章方适合小白入门学习

3、Hadoop的优势

1、高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素丢失或存储出现故障，也不会导致数据丢失

2、高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点

3、高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理的速度

4、高容错性：能够自动将失败的任务重新分配。

4、hadoop的组成

（1）hadoop三大组件：

HDFS：海量数据的存储
MapReduce：海量数据的计算
YARN：负责资源的调度

（2）YARN是2.x版本引入的，在Hadoop中的MapReduce同时处理业务逻辑运算和资源调度，耦合性较大，在Hadoop2.x时代增加了Yarn 。Yarn只负责资源的调度，MapReduce只负责运算。

总结

【1】hadoop广义上指hadoop生态圈
【2】hadoop思想之源
???????????hadoop受启于Google的三篇论文
????????????HDFS ------> GFS
????????????MR ------> Map-Reduce
????????????HBase ------> BigTable
【3】hadoop的优势，（四高）：高可靠、高扩展、高效率、高容错
【4】hadoop的三大核心组件 HDFS、MR、YARN
【5】hadoop1.x 和 hadoop2.x的区别