| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 浅析大数据框架 Hadoop~ -> 正文阅读 |
|
[大数据]浅析大数据框架 Hadoop~ |
Hadoop 概念及其发展Hadoop 最早起源于 Nutch。Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2003 年、2004 年谷歌发表的两篇论文为该问题提供了可行的解决方案。
Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAPREDUCE,并从 Nutch 中剥离成为独立项目 HADOOP,到 2008 年 1 月,HADOOP 成为 Apache 顶级项目(同年,cloudera 公司成立),迎来了它的快速发展期。
Hadoop 的历史版本介绍0.x 系列版本:hadoop 当中最早的一个开源版本,国外使用较多,因为当时国内大数据还没发展起来,在此基础上演变而来的 1.x 以及 2.x 的版本 1.x 版本系列:hadoop 版本当中的第二代开源版本,主要修复 0.x 版本的一些 bug 等,是存在时间最短的一代。 2.x 版本系列:架构产生重大变化,引入了 yarn 平台等许多新特性,国内目前使用最多的版本,因为当时国内正处于大数据爆发的阶段。 3.x 版本系列:引入了一些重要的功能和优化,包括 HDFS 纠删码、多 Namenode 支持(两个以上)、MR Native Task 优化、YARN 基于 cgroup 的内存和磁盘 IO 隔离等,且对 JDK 最低版本要求为 JDK1.8。发行时间较晚,目前使用不多,但未来必将成为主流。 hadoop 三大公司发型版本介绍-免费开源版本 apache优点:拥有全世界的开源贡献者,代码更新迭代版本比较快 缺点:版本的升级,版本的维护,版本的兼容性,版本的补丁都可能考虑不太周到,学习可以用,实际生产工作环境尽量不要使用 apache 所有软件的下载地址(包括各种历史版本): http://archive.apache.org/dist/ -免费开源 hortonWorkshortonworks 主要是雅虎主导 Hadoop 开发的副总裁,带领二十几个核心成员成立 Hortonworks,核心产品软件 HDP(ambari),HDF 免费开源,并且提供一整套的 web 管理界面,供我们可以通过 web 界面管理我们的集群状态,web 管理界面软件 HDF 网址(http://ambari.apache.org/) -软件收费版本 ClouderaManagercloudera 主要是美国一家大数据公司在 apache 开源 hadoop 的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题 Hadoop 的模块组成
Hadoop 的架构模型NameNode 与 ResourceManager 单节点架构模型 文件系统核心模块:
数据计算核心模块:
文件系统核心模块:
数据计算核心模块:
Hadoop 目前的现状自 2015 年开始 Hadoop 暴露出诸多问题引起注意。随后 Gartner、IDG 等公司分析师、Hadoop 用户和 Hadoop 和大数据圈内人士越来越多的反映出各种问题。 究其原因,主要如下:
总结综上,作为第一代大数据方案的 Hadoop 巅峰已过,大数据进入第二代:分布式数据库。 分布式数据库特别是 MPP 数据库已经很好的解决了大数据基本分析层面的问题,未来持续向着更易用更快的方向发展。 高级数据分析向着下沉到数据库内部的方向发展。高级数据分析层面的难点不在分析,而在于数据本身的数量和质量。期待这一方面有更多创新涌现。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年5日历 | -2025/5/11 2:47:51- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |