开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 大数据处理实验（四）使用docker构建spark运行环境 -> 正文阅读

[大数据]大数据处理实验（四）使用docker构建spark运行环境

一、安装docker与docker-compose

查询docker版本号。

在host上执行。

sudo docker -v

根据查询到的版本号，在下列网站找到对应的docker-compose版本。

https://github.com/docker/compose/releases

这里，我们使用最新的1.25.5版本。

执行下列命令，安装docker-compose。

docker-compose为单一可执行文件，将其放到/usr/local/bin中，给予文件执行权限即可使用。

当前使用的是1.25.5版本。

sudo curl -L "https://github.com/docker/compose/releases/download/1.25.5/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose

sudo chmod +x /usr/local/bin/docker-compose
sudo chmod 777 /usr/local/bin/docker-compose

在这里插入图片描述

安装docker-compose 最新版本2.4.1 [https://github.com/docker/compose/releases]
在这里插入图片描述

二、系统构架图

请添加图片描述

使用docker hub查找我们需要的镜像。
在这里插入图片描述

在这里插入图片描述

三、docker compose部署文件

进入文件

vi docker-compose.yml

添加以下内容

version: '3'

services:
  spark-master:
    image: bde2020/spark-master:3.1.1-hadoop3.2
    container_name: spark-master
    ports:
      - "8080:8080"
      - "7077:7077"
    volumes:
      - <共享目录绝对路径>:/data
    environment:
      - INIT_DAEMON_STEP=setup_spark
  spark-worker-1:
    image: bde2020/spark-worker:3.1.1-hadoop3.2
    container_name: spark-worker-1
    depends_on:
      - spark-master
    ports:
      - "8081:8081"
    volumes:
      - <共享目录绝对路径>:/data
    environment:
      - "SPARK_MASTER=spark://spark-master:7077"
  spark-worker-2:
    image: bde2020/spark-worker:3.1.1-hadoop3.2
    container_name: spark-worker-2
    depends_on:
      - spark-master
    ports:
      - "8082:8081"
    volumes:
      - <共享目录绝对路径>:/data
    environment:
      - "SPARK_MASTER=spark://spark-master:7077"

在这里插入图片描述

四、使用yml部署文件部署spark环境

在yml文件所在的目录下，执行命令：

sudo docker-compose up -d

检查docker在命令行的输出确认容器的部署顺利完成。
1.25.1

2.4.1

图一为docker compose1.25.5版本下运行截图，图二为2.4.1版本下运行截图

查看容器创建与运行状态

sudo docker ps

在这里插入图片描述

对输出进行格式化

sudo docker ps --format '{{.ID}} {{.Names}}'

在这里插入图片描述

使用浏览器查看master的web ui界面

在这里插入图片描述

进入spark-master容器

sudo docker exec -it <master容器的id，仅需输入一部分即刻> /bin/bash

查询spark环境，安装在/spark下面。

ls /spark/bin

在这里插入图片描述

进入spark-shell

/spark/bin/spark-shell --master spark://spark-master:7077 --total-executor-cores 1 --executor-memory 1024m

根据worker内存的具体情况修改cores数量及内存大小
![在这里插入图片描述](https://img-blog.csdnimg.cn/2a5096c3

进入浏览器查看spark-shell的状态

在这里插入图片描述

五、完成创建RDD与filter处理的实验

创建一个RDD

val rdd=sc.parallelize(Array(1,2,3,4,5,6,7,8))

在这里插入图片描述

打印rdd内容

rdd.collect()

在这里插入图片描述

查询分区数

rdd.partitions.size

在这里插入图片描述

选出大于5的数值

val rddFilter=rdd.filter(_ > 5)

在这里插入图片描述

打印rddFilter内容

rddFilter.collect()

在这里插入图片描述

退出spark-shell

:quit

在这里插入图片描述

创作打卡挑战赛

赢取流量/现金/CSDN周边激励大奖

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2022-05-01 15:49:32 更:2022-05-01 15:50:24

360图书馆购物三丰科技阅读网日历万年历 2025年10日历

-2025/10/22 7:50:15-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码