IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hadoop1_hadoop概览 -> 正文阅读

[大数据]Hadoop1_hadoop概览

1 大数据技术简介

1.1 大数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

1.2 Hadoop(两件事:海量数据存储和计算)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.3 Hadoop和Hive、Spark的区别

在这里插入图片描述

1.4 Hadoop的4部分组成

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.4.1 HDFS架构3部分(目录-数据-备份)

在这里插入图片描述

1.4.2 YARN

在这里插入图片描述

1.4.3MapReduce

在这里插入图片描述

1.5 集群和节点

一个节点就是1台服务器
一个集群就是多台服务器,连成局域网

多个服务器组合在一起称为集群,一般指应用服务器;存储型的服务器集群指得是:数据一个服务器放不下,分别放到不同机器中,这些机器称为集群。
一个或多个节点集合组成一个集群,集群上的节点可以存储数据,并提供跨节点的索引和搜索功能。
一个节点就是一个服务(实例),可以实现存储数据,索引并且搜索的功能。
每个节点都有一个唯一的名称作为身份标识;如果没有设置名称,默认使用 UUID 作为名称。推荐定义有意义的名称,便于更好的在集群中区分与管理。

节点通过设置集群名称,在同一网络中发现具有相同集群名称的节点,组成集群。如果在同一网络中只有一个节点,则这个节点成为一个单节点集群,即此节点集群中每个节点都是功能齐全的服务。

2 HDFS(和操作mysql是一个道理)

在linux上面操作hdfs集群和mysql是一个道理,操作mysql是打开了mysql软件,让mysql软件执行一些命令,操作hdfs也是打开了hdfs软件,让hdfs软件执行一些命令。具体的文件还是存在你电脑上,只不过你看不懂,但是mysql和hdfs是可以看懂它存的文件的

在这里插入图片描述
在这里插入图片描述

2.1 特点

在这里插入图片描述

2.2 组成

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 写数据

在这里插入图片描述

2.4 读数据

在这里插入图片描述

2.5 DataNode工作机制

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3 MapReduce

在这里插入图片描述
在这里插入图片描述

3.1 MapReduce执行原理

在这里插入图片描述

3.2 执行的时候一般分为3个类(8股文)

1 主要功能类
2 MAP类
3 Reduce类
在这里插入图片描述

3.3 类型

在这里插入图片描述

3.4 MAP阶段

在这里插入图片描述

3.5 Reduce阶段

在这里插入图片描述

在这里插入图片描述

3.6 WordCount小案例

在这里插入图片描述
(1)创建项目和3个类
(2)配置依赖库
(3)添加资源文件
(4)实现这3个类

在eclipse中实现3步:
1 建好包,把3个java文件考进去
2 把配置文件.perproties放到src目录下
3 导包,导入hadoop包

3.7 序列化

在这里插入图片描述
在这里插入图片描述

3.8 自定义输出小案例(理解MapTask工作机制)

4 YARN

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

参考资料

1 看这个视频就够了,必须都学了,尚硅谷_Hadoop_概论
https://www.bilibili.com/video/BV1Qp4y1n7EN?p=4&spm_id_from=pageDriver&vd_source=eef37ea4f9af07ac3ada3c77ce1c6ec5

2 Hadoop Shell命令
https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html

3 Hadoop常用命令 - 走看看
http://t.zoukankan.com/hunttown-p-5809227.html

4 hdfs shell的基本操作以及hdfsWeb查看文件 - 知乎
https://zhuanlan.zhihu.com/p/374573384

5 HDFS查看文件的行数-前几行-后几行

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-09-21 00:35:41  更:2022-09-21 00:37:15 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 10:35:37-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码