IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 基于docker构建spark运行环境 -> 正文阅读

[大数据]基于docker构建spark运行环境

基于docker构建spark运行环境

一、安装docker与docker-compose

参考之前的实验进行docker和docker-compose的安装。

二、系统构架图:

在这里插入图片描述

三、安装相关镜像

使用docker hub查找我们需要的镜像。

  1. spark-master
    在这里插入图片描述

  2. spark-worker
    在这里插入图片描述

四、docker compose部署文件准备

docker-compose.yml文件可以从本机编辑好再上传的虚拟机或服务器。
将docker-compose.yml文件拷贝到/usr/local/bin/内部并通过以下命令给予执行权限。
chmod 777
docker-compose.yml文件内容如下:
version: ‘3’

services:
spark-master:
image: bde2020/spark-master:3.1.1-hadoop3.2
container_name: spark-master
ports:
- “8080:8080”
- “7077:7077”
volumes:
- <共享目录绝对路径>:/data
environment:
- INIT_DAEMON_STEP=setup_spark
spark-worker-1:
image: bde2020/spark-worker:3.1.1-hadoop3.2
container_name: spark-worker-1
depends_on:
- spark-master
ports:
- “8081:8081”
volumes:
- <共享目录绝对路径>:/data
environment:
- “SPARK_MASTER=spark://spark-master:7077”
spark-worker-2:
image: bde2020/spark-worker:3.1.1-hadoop3.2
container_name: spark-worker-2
depends_on:
- spark-master
ports:
- “8082:8081”
volumes:
- <共享目录绝对路径>:/data
environment:
- “SPARK_MASTER=spark://spark-master:7077”

五、使用yml部署文件部署spark环境

  1. 在yml文件所在的目录下,执行命令:
    sudo docker-compose up -d

  2. 检查docker在命令行的输出确认容器的部署顺利完成。
    在这里插入图片描述

  3. 查看容器创建与运行状态
    sudo docker ps
    在这里插入图片描述

  4. 对输出进行格式化(可选)
    sudo docker ps --format ‘{{.ID}} {{.Names}}’
    在这里插入图片描述

  5. 使用浏览器查看master的web ui界面
    在这里插入图片描述

  6. 进入spark-master容器
    sudo docker exec -it <master容器的id,仅需输入一部分即刻> /bin/bash
    在这里插入图片描述

  7. 查询spark环境,安装在/spark下面。
    ls /spark/bin
    在这里插入图片描述

  8. 进入spark-shell
    /spark/bin/spark-shell --master spark://spark-master:7077 --total-executor-cores 4 --executor-memory 1280m
    在这里插入图片描述

  9. 进入浏览器查看spark-shell的状态
    在这里插入图片描述

六、完成创建RDD与filter处理的实验

  1. 创建一个RDD
    val rdd=sc.parallelize(Array(1,2,3,4,5,6,7,8))
    在这里插入图片描述

  2. 打印rdd内容
    rdd.collect()
    在这里插入图片描述

  3. 查询分区数
    rdd.partitions.size
    在这里插入图片描述

  4. 选出大于5的数值
    val rddFilter=rdd.filter(_ > 5)
    在这里插入图片描述

  5. 打印rddFilter内容
    rddFilter.collect()
    在这里插入图片描述

  6. 退出spark-shell
    :quit
    :quit

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-04-28 11:56:15  更:2022-04-28 11:56:49 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/16 10:49:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码