大数据技术之Hadoop——(一)Hadoop简介
前言
hadoop学习笔记,作为个人学习笔记方便自己复习也乐于分享,笔记陆续整理更新,该笔记适合初级入门学习的伙伴,博客练手,第一次写这东西不好的地方还请大家多提建议
一、Hadoop概述
?1、hadoop是什么?
- Hadoop是一个由Apache基金会所开发的分布式系统基础框架
- 主要解决海量数据的存储与海量数据的分析计算问题
??HDFS—> 海量数据的存储 ;MapReduce --> 海量数据的计算 - 广义上说Hadoop通常是是一个生态圈——hadoop生态
?2、hadoop发展史
1、Lucene框架是Doug Cutting 开创的开源软件,用java写的,实现了Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。
2、2001年年底Lucene称为Apache基金会的一个子项目
3、对于海量数据的场景,luence面对与Google一样的困难,存储数据的困难,检索速度慢
4、学习模仿google解决这些问题的办法,微型Nutch
5、可以说Google是Hadoop的思想之源
? Google在大数据方面的三篇论文:
? GFS——>HDFS
? Map-Reduce——>MR
? BigTable———>HBase
6、2003-2004年,Google公开了部分GFS和MapReduce思想细节,以此为基础Doug Cutting等人用了两年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。
7、2005年Hadoop作为Lucene的子项目正式引入Apache基金会
8、2006年3月,Map-Reduce和Nutch Distribute File System 分别被纳入从称为Hadoop的项目中
9、Hadoop就此诞生并迅速发展,标志着大数据时代来临。
该篇文章方适合小白入门学习
3、Hadoop的优势
1、高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素丢失或存储出现故障,也不会导致数据丢失
2、高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
3、高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理的速度
4、高容错性:能够自动将失败的任务重新分配。
4、hadoop的组成
(1)hadoop三大组件:
- HDFS:海量数据的存储
- MapReduce:海量数据的计算
- YARN:负责资源的调度
(2)YARN是2.x版本引入的,在Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性较大,在Hadoop2.x时代增加了Yarn 。Yarn只负责资源的调度,MapReduce只负责运算。
总结
【1】hadoop广义上指hadoop生态圈 【2】hadoop思想之源 ???????????hadoop受启于Google的三篇论文 ????????????HDFS ------> GFS ????????????MR ------> Map-Reduce ????????????HBase ------> BigTable 【3】hadoop的优势,(四高):高可靠、高扩展、高效率、高容错 【4】hadoop的三大核心组件 HDFS、MR、YARN 【5】hadoop1.x 和 hadoop2.x的区别
|