IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hadoop系列——Hadoop练手、压测day2-2 -> 正文阅读

[大数据]Hadoop系列——Hadoop练手、压测day2-2

Hadoop练手

Hadoop HDFS简单使用

Hadoop本质上就是一个文件系统,所以他是有目录树的,可以分目录,主要用于对大文件进行处理

创建文件夹(目录)

命令式

语法:

hadoop fs -mkdir 文件夹名称

例子:

hadoop fs -mkdir /test

在这里插入图片描述

UI界面

在这里插入图片描述

上传文件

命令式

语法:

hadoop fs -put 文件名称 文件夹名称

例子:

hadoop fs -put hello.txt /test

在这里插入图片描述
可以看到已经上传上去了
在这里插入图片描述

UI界面

在这里插入图片描述

Hadoop MapReduce简单使用

MapReduce本质上是个程序
由于yarn管理程序执行的运算资源,所以MapReduce需要首先对yarn进行访问
适合处理大数据场景
MapReduce

测试计算圆周率

//进入mapreduce案例目录
cd /export/server/hadoop-3.3.4/share/hadoop/mapreduce
//运行jar包
hadoop jar hadoop-mapreduce-examples-3.3.4.jar pi 2 4

你应该看到如下的显示:
在这里插入图片描述
执行完后我们在监视页(端口:8088,如:http://node1:8088/cluster)也可以看到
在这里插入图片描述

词频统计

我们创建一个txt文件插入如下内容:

 中国共产党第二十次全国代表大会新闻发言人定于20221015日(星期六)下午在人民大会堂举行新闻发布会。新闻发布会在北京新世纪日航饭店三层世纪厅设分会场,记者在分会场参会。欢迎各位记者报名参加。

境内记者接待组

电话:6835620068356300

传真:6835670068356800

港澳台记者接待组

电话:6835070068350800

传真:6835090068351900

外国记者接待组

电话:6835010068350200

传真:6835040068350500

外国记者需通过后附小程序报名。

然后上传到hadoop上

 hadoop fs -put word.txt /test/wordcount/input
 hadoop jar hadoop-mapreduce-examples-3.3.4.jar wordcount /test/wordcount/input /test/wordcount/output

执行成功后我们可以看到
在这里插入图片描述

我们将文件进行下载:
在这里插入图片描述
文件内容如下:
可以发现统计的话是按照一行一行进行计算统计的
我们可以稍微修改一下word.txt再此尝试
我们将电话和传真都改成一样之后发现
(注意如果重新测试需要删除原始输出目录或更换原始输出目录)
统计没有问题

Hadoop压测

测试写入速度

我们会用到hadoop-mapreduce-client-jobclient-3.3.4-tests.jarjar包在我们的/export/server/hadoop-3.3.4/share/hadoop/mapreduce目录下
语法

//向HDFS文件系统中写入数据,10个文件,每个文件10MB
//文件存放到/benchmarks/TestDFSIO中
hadoop jar hadoop-mapreduce-client-jobclient-3.3.4-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 10MB
  • Throughput∶吞吐量
  • Average IO rate:平均IO率
  • IO rate std deviation : IO率标准偏差

执行结果如下:
在这里插入图片描述

测试读取速度

//向HDFS文件系统中读取数据,10个文件,每个文件10MB
hadoop jar hadoop-mapreduce-client-jobclient-3.3.4-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 10MB

在这里插入图片描述

删除测试数据

测试数据如下
在根目录下的/benchmarks/TestDFSIO
在这里插入图片描述
接下来用以下命令进行清除

hadoop jar hadoop-mapreduce-client-jobclient-3.3.4-tests.jar TestDFSIO -clean
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-10-17 12:41:07  更:2022-10-17 12:41:42 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年6日历 -2025/6/4 12:52:15-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码