IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Spark3.1.2 快速入门 -> 正文阅读

[大数据]Spark3.1.2 快速入门

一、特别说明


1.1 Spark3.1.2编程抽象Dataset

在Spark 2.0之前,Spark的主要编程接口是RDD。在Spark2.0之后,RDD被Dataset所取代,Dataset像RDD一样是强类型的,但在底层有更丰富的优化。RDD接口仍然受到支持,您可以在RDD编程指南中获得更详细的参考。但是,我们强烈建议您改用Dataset,它的性能比RDD更好,请参阅SQL编程指南以获得关于Dataset的更多信息。

1.2 Spark3.1.2安全性说明

Spark中的安全默认为“OFF”。这可能意味着默认情况下您很容易受到攻击。运行Spark前请参见《Spark安全》

1.3 环境说明

  • Scala版本:2.12.14
  • Spark版本:3.1.2
  • Spark安装环境:Spark Standalone

二、Spark Shell 交互式操作


Spark的shell提供了一种简单的方法来学习API,以及一个强大的工具来交互分析数据。它可以在Scala(运行在Java VM上,因此是使用现有Java库的好方法)或Python中使用。

  • 启动spark-shell,如以配置了环境变量则可在任意路径下执行如下命令,否则可以在Spark安装目录下得bin目录下运行如下命令启动:
    spark-shell

Spark的主要抽象是一个称为Dataset的分布式项集合。数据集可以从Hadoop InputFormats(如HDFS文件)或通过转换其他数据集创建。让我们从Spark源目录的README文件的文本创建一个新的Dataset:

  • 创建Dataset代码:
    val textFile = spark.read.textFile("/home/niit/training/spark-3.1.2-bin-hadoop2.7/README.md")

    如下图所示:
    在这里插入图片描述

三、Spark Shell 实现Wordcount


  1. 读取文件

    val textFile = spark.read.textFile("/home/niit/training/spark-3.1.2-bin-hadoop2.7/README.md")
    
  2. 分词统计

    val wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()
    
  3. 验证结果

    wordCounts.collect()
    

    结果如截图所示:
    在这里插入图片描述

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-15 15:39:36  更:2021-08-15 15:42:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年6日历 -2024/6/18 20:30:06-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码