IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> hadoop全家桶 -> 正文阅读

[大数据]hadoop全家桶

大家好,我是曜耀。

今天我来讲一讲,hadoop的全家桶:hive,sqoop,HBase,hdfs,yarn,spark。大部分就这些,不过对于我专业大数据来说,其中就hive,sqoop,hdfs这几个用到的是非常多。对此,我就专门以自己的专业来介绍这几个。

首先是hdfs分布式文件系统,他有的组件有:

namenode:存储文件的元数据,接收来自客户端的读写请求
datanode:存储文件数据
secondarynamenode:第二名字节点,定期的检查并且合并FSImage系统快照,editlog编辑日志
这是hdfs的基本对于大数据专业的我来用着是真的舒服啊。对此同一专业的道友懂得都懂。

其中我觉得需要了解是hdfs的容错机制:

本机制和心跳机制
副本机制:每一个数据块都有相应数量的副本
心跳机制:DataNode会发送一个数据包给namenode,namenode接受到这个数据包之后,认为DataNode是正常的,如果接受不到这个心跳包,会认为DataNode挂掉了,namenode就会去找相应的副本,secondarynamenode就会合并最新的系统快照和编辑日志,放在一个新的节点上。

我个人觉得这是非常优秀的,因为这个一避免你的文件的丢失措施,对于我们来说是非常的有好的。

其中对于我们大数据来说最重要的是数据清洗,不得不说一下数据清洗的必须品就是mapreduce,

1.MapReduce执行流程 ?WordCount
2.Partitioner 和combinner
partitioner 是分组,将要清洗的数据按照key来对其进行分组,相同key的放在同一个输出文件中
combiner 是在进入reduce之前,先行合并一次,提高计算效率

我个人觉得这是我们大数据专业吃饭的家伙。因为我们大数据专业主要的就是对数据的清洗和收集,就没什么其他的了。不过除了个别的一些跟深入的技术,对此我只能说,我是小白,在坐的勿喷。还有大佬也勿喷。狗头保命。

接下来就讲一讲yarn的组件,yarn的组件主要是对资源的管理,使得各个组件能够在有效的资源下可以把任务进程运行下去。

esourceManager 资源管理器,负责给各个节点分配计算和存储资源以及响应各个节点的计算请求
nodeManager 节点管理器 ?负责管理各个节点的container,以及开启map task 和reduce task

最后说一下flume的组件,他的组件主要是对数据的传输通道来进行维护的,使得数据在传输的过程中得以保全数据的完整性。

source ? 负责从源数据接收event 或者自己产生event,传递到下一层
channel ? 负责将event传递到sink,将数据缓存在管道中,保证数据的传输速率恒定
sink ? 负责将event传递到目的端,并且将event从channel中移除

接下来就讲一讲hive,有的朋友可能对hive很陌生,但是我肯定你们对数据库一定熟悉。没错hive就是与数据库一样就是用来储存数据的,不过与数据库有一些微小的差别,一个是可以对单个数据进行操作,另一个是不能,不能对单条数据操作的是hive。具体在这就不用详细的进行讲解。

以上就是一个大数据专业初级水平对hadoop全家桶的讲解,对此有讲的不是有很全面的,望个位谅解。

我是曜耀,我们下次见。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-24 11:33:51  更:2021-07-24 11:35:51 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/25 15:34:03-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计