IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Spark SQL说明和操作 -> 正文阅读

[大数据]Spark SQL说明和操作

DataFrame关联密切的是Spark SQL技术,作为Spark中的4大模块之一,在DataFrame的基础上,将其注册为表,然后使用SQL语句进行读取处理。
主要的处理步骤如下:

操作的对应的视频如下,在腾讯课堂可免费查看所有的视频与下载简介资料

个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com)

PySpark的认识和使用

1-创建DataFrame,对于Spark2使用SparkSession;对于Spark 1使用SQLContext
?

# 1 在Spark2中使用SparkSession对象
from Pysparkimport SparkContext
from Pyspark.sql import SparkSession
sc=SparkContext(appName="test_sc") 
spark=SparkSession.builder.appName('xxx_session').getOrCreate()

# 2在Spark1中使用SQLContext对象
from Pyspark.sql import SQLContext
sql_sc = SQLContext(sc)

# 3使用read进行读取各种数据源的创建DataFrame,Spark 1和Spark 2操作方法一样
df = spark.read.csv(....)
df = spark.read.json(....)
df = spark.read.jdbc(....)
df = spark.read.textFile(....)

# 或直接使用CreateDataFrame函数构建
df=spark.createDataFrame(…)

2-获取数据

可以是通过Python Pandas读取数据,或是通过SparkSession中的read属性,它是pyspark.sql.readwriter 模块中的DataFrameReader类型,在文档中可以搜索DataFrameReader,可以发现针对不同的数据源的读取函数。pyspark.sql.readwriter

3-在DataFrame的基础上构建表或视图,有很多的函数创建具有不同生命周期的视图或表

  1. createGlobalTempView(name) 使用此DataFrame创建全局临时视图,其生命周期和Spark应用程序
  2. createOrReplaceGlobalTempView(name) 使用给定的名称创建或替换全局临时视图。
  3. createTempView(name) 用DataFrame创建一个本地临时视图
  4. createOrReplaceTempView(name) 用DataFrame创建或替换一个本地临时视图
  5. registerTempTable(name) 使用此给定名称注册此DataFrame作为临时表

删除Spark SQL表或试图

  1. spark.catalog.dropGlobalTempView(name)
  2. spark.catalog.dropTempView (name)
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-10-29 13:06:54  更:2021-10-29 13:08:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 4:46:59-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码