| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> hadoop全家桶 -> 正文阅读 |
|
[大数据]hadoop全家桶 |
大家好,我是曜耀。 今天我来讲一讲,hadoop的全家桶:hive,sqoop,HBase,hdfs,yarn,spark。大部分就这些,不过对于我专业大数据来说,其中就hive,sqoop,hdfs这几个用到的是非常多。对此,我就专门以自己的专业来介绍这几个。 首先是hdfs分布式文件系统,他有的组件有: namenode:存储文件的元数据,接收来自客户端的读写请求 其中我觉得需要了解是hdfs的容错机制: 本机制和心跳机制 我个人觉得这是非常优秀的,因为这个一避免你的文件的丢失措施,对于我们来说是非常的有好的。 其中对于我们大数据来说最重要的是数据清洗,不得不说一下数据清洗的必须品就是mapreduce, 1.MapReduce执行流程 ?WordCount 我个人觉得这是我们大数据专业吃饭的家伙。因为我们大数据专业主要的就是对数据的清洗和收集,就没什么其他的了。不过除了个别的一些跟深入的技术,对此我只能说,我是小白,在坐的勿喷。还有大佬也勿喷。狗头保命。 接下来就讲一讲yarn的组件,yarn的组件主要是对资源的管理,使得各个组件能够在有效的资源下可以把任务进程运行下去。 esourceManager 资源管理器,负责给各个节点分配计算和存储资源以及响应各个节点的计算请求 最后说一下flume的组件,他的组件主要是对数据的传输通道来进行维护的,使得数据在传输的过程中得以保全数据的完整性。 source ? 负责从源数据接收event 或者自己产生event,传递到下一层 接下来就讲一讲hive,有的朋友可能对hive很陌生,但是我肯定你们对数据库一定熟悉。没错hive就是与数据库一样就是用来储存数据的,不过与数据库有一些微小的差别,一个是可以对单个数据进行操作,另一个是不能,不能对单条数据操作的是hive。具体在这就不用详细的进行讲解。 以上就是一个大数据专业初级水平对hadoop全家桶的讲解,对此有讲的不是有很全面的,望个位谅解。 我是曜耀,我们下次见。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/25 15:34:03- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |