IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Spark 之 SparkSQL -> 正文阅读

[大数据]Spark 之 SparkSQL


前言

本文介绍SparkSQL的相关知识;


Spark 知识系列文章

?? 此处罗列了有关Spark相关知识的其他文章,有需要的可以进行点击查阅。

?? Spark 之 Spark框架及部署

?? Spark 之Spark三大数据结构

?? Spark 之 RDD转换算子

?? Spark 之 RDD行动算子

?? Spark 之 SparkStreaming

一、SparkSQL 概述

?? SparkSQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象:DataFrame,DataSet,并且作为分布式Sql查询引擎的作用。

1.1 DataFrame

?? DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema。同时,与Hive类似,DataFrame也支持嵌套数据类型(struct、array和map)。DataFrame是为数据提供了Schema的视图。可以把它当做数据库中的一张来对待,DataFrame也是懒执行的。性能上比RDD要高主要原因
?? 优化的执行计划:查询计划通过Spark catalyst optimiser进行优化。

1.2 DataSet

?? RDD中的数据是没有结构的 + 数据结构 -> DataFrame + 类和属性 –> DataSet

1.3 RDD、DataFrame和DataSet三者的关系

在这里插入图片描述

二、SparkSQL的编程

2.1 DataFrame

?? 在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:通过Spark的数据源进行创建;从一个存在的RDD进行转换;还可以从Hive Table进行查询返回。

2.1.1 通过Spark的数据源进行创建

(1)通过SQL语法实现:
代码如下:

val df = Spark.read.json(“file:///opt/module/data/input/2.json”)   #读取Json文件内  
df.show
df.creatTempView(“student”)  #将DataFrame对象转化成一个临时视图,方便用Sql查询
spark.sql(“select *  from student”).show   #就可以写SQL了

注意:临时表是Session范围内的,Session退出后,表就失效了。如果想应用范围内有效,可以使用全局表。注意使用全局表时需要全路径访问,如:global_temp.people

代码如下:

df.createGlobalTempView("emp")
spark.sql("SELECT * FROM global_temp.emp").show()

(2)DSL语法风格:

1、只查看”name”列数据:
?? df.select(“name”).show()

2、查看”name”列数据以及”age+1”数据:
?? df.select($“name”, $“age” + 1).show()

3、查看”age”大于”21”的数据 :
?? df.filter($“age” > 21).show()

4、按照”age”分组,查看数据条数:
?? df.groupBy(“age”).count().show()

2.1.2 RDD转换为DataFrame

2.1.2.1 手动转换

代码如下:

import spark.implicits._ //导入隐式转换
val rdd = sc.makeRDD(List((1,"zhangsan",20),(2,"lisi",12),(3,"wangwu",52)))
val df = rdd.toDF("id","name","age")

2.1.2.2 通过样例类

代码如下:

case class people(id:Int,name:String,age:Int) //构造样例类
val rdd = sc.makeRDD(List((1,"zhangsan",20),(2,"lisi",12),(3,"wangwu",52)))
val peopleRDD = rdd.map(t=>{people(t._1,t._2,t._3)})
val df = peopleRDD .toDF()

2.1.3 将DataFrame转化为RDD

直接调用RDD即可;

代码如下:

val dfToRDD = df.rdd

2.2 DataSet

Dataset是具有强类型的数据集合,需要提供对应的类型信息。

2.2.1 通过样例类创建

代码如下:

case class people(name:String,age:Int) //构造样例类
val caseclassDS = Seq(people("andy",12)).toDS //创建DataSet

2.2.2 RDD转换为DataSet

转化过程:RDD + 结构 -> DataFrame + 类型 -> DataSet

代码如下:

case class people(name:String,age:Int) //构造样例类
val peopleRDD = rdd.map(t=>{people(t._1,t._2)})//将RDD加上结构就是person
val peopleDS = peopleRDD.toDS //转化成DataSet,注意转化成DataFrame是.toDF

2.2.3 DataSet转化为RDD、DataFrame

直接用ds.rdd即可;

DataFrame -> DataSet: df.as[person],即加上类型就会自动转换了;

DataSet -> DataFrame: ds.toDF

2.3 RDD,DataFrame,DataSet相互转换示意图

在这里插入图片描述

2.4 IDEA实现三者相互转换

创建样例类:
在这里插入图片描述
实现三者转换:
在这里插入图片描述
实现由RDD直接转化成DataSet:
在这里插入图片描述

2.5 用户自定义函数

2.5.1 用户自定义UDF函数

代码如下:

val df = Spark.read.json(“file:///opt/module/data/input/2.json”) #读取数据构建DataFrame对象
//自定义函数:在传过来的字符串前面加上“name”字符串:
spark.udf.register("addName",(x:String)=>"Name:"+x)
df.createTempView("users")//建立临时视图
spark.sql("select addName(name) from users").show //调用函数查看效果

2.5.2 用户自定义聚合函数

自定义求年龄的平均值的聚合函数

2.5.2.1 弱类型

在这里插入图片描述
调用函数:
在这里插入图片描述

2.5.2.2 强类型

设置泛型 -> 增加样例类在这里插入图片描述
在这里插入图片描述
自定义类型转码就用这个(红框标注的),double等类型转码就用这个,是固定的;

调用函数:
在这里插入图片描述

三、SparkSQL 的数据源

?? Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时,Spark SQL可以方便的执行所有的操作。修改配置项spark.sql.sources.default可修改默认数据源格式。

在这里插入图片描述
?? 当数据源格式不是parquet格式文件时,需要手动指定数据源的格式。数据源格式需要指定全名(例如:org.apache.spark.sql.parquet),如果数据源格式为内置格式,则只需要指定简称定json, parquet, jdbc, orc, libsvm, csv, text来指定数据的格式。
在这里插入图片描述
文件保存,默认保存格式parquet:
在这里插入图片描述
保存为目标格式(json):
在这里插入图片描述
设置文件写入模式-追加:
在这里插入图片描述
文件写入的其他模式:
(1)error(默认) 如果文件存在就报错
(2)append 追加
(3)overwrite 覆写
(4)ignore 数据存在则忽略


总结

本文介绍了SparkSQL的相关知识;如果有不足之处或者表述不当的地方欢迎大家指正。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-12-03 13:06:19  更:2021-12-03 13:06:58 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/17 14:07:54-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码