[大数据] Spark RDD持久化

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Spark RDD持久化 -> 正文阅读

[大数据]Spark RDD持久化

1、RDD性质

RDD数据是过程数据，即计算得到后一个RDD时，前一个RDD就会被释放。如图就是当RDD4被计算出来RDD3就会被释放。

2、为什么要持久化呢？

如图，一个应用程序中存在两个collect，中间链路都调用了RDD3，可是在第一个collect执行完时，由于RDD时过程数据，RDD3已经被释放，所以执行第二个collect需要重新计算RDD1、RDD2、RDD3，这样就浪费资源。为了避免重新计算RDD3，则对RDD3进行持久化。

3、RDD持久化方法

rdd3.cache()                            # 等效于下一行代码
rdd3.persist(StorageLevel.MEMORY_ONLY)    # 在内存中持久化
rdd3.persist(StorageLevel.DISK_ONLY)    # 在硬盘中持久化

4、测试RDD持久化效果?

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    def f(x):
        print("rdd1")
        return x * 10


    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)
    rdd = sc.parallelize([1, 2, 3])
    rdd1 = rdd.map(f)
    rdd1.cache()
    rdd2 = rdd1.map(lambda x: -x)
    print(rdd2.collect())
    rdd3 = rdd1.map(lambda x: x+100)
    print(rdd3.collect())
    rdd1.persist()

rdd1
rdd1
rdd1
[-10, -20, -30]
[110, 120, 130]

此代码修改将f方法作为rdd1.map中的方法，通过运行代码可得，在对rdd1进行持久化的情况下，print("rdd1")只在第一次调用collect的时候执行，第二次调用collect时不被执行

创作打卡挑战赛

赢取流量/现金/CSDN周边激励大奖

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2022-05-01 15:49:32 更:2022-05-01 15:50:13

360图书馆购物三丰科技阅读网日历万年历 2025年12日历

-2025/12/5 8:36:02-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码