[大数据] Apache Spark：主要使用理念

1. 声明

当前内容主要为记录学习Learning Spark书籍中部分的内容，并作出使用上面的总结

1.由于使用懒计算的方式，所以只有action的操作才会执行，transform操作不会执行

2.使用数据的时候，如果当前的RDD未持久化或者缓存，那么每次action操作都会出现重头开始的计算，非常不高效

3.Spark默认采用Scala语言编写，所以SparkContext就是scala的，java中需要使用JavaSparkContext

4.基本所有的操作都是通过函数方式

遵循的基本原则：只要是返回一个RDD的基本上算是一个transform!

例如：

…等其他操作

该操作会等待直到遇到一个action时才会从头开始执行，最后计算

例如：只有textFile时，Spark不会真的读取所有文件，只是加入到执行计划中

遵循的基本原则：不返回RDD的基本上算是一个action

例如：

… 等其他的操作

如果RDD未缓存，那么action就从头开始计算

可以让计算结果保存起来，再次遇到action的时候会重用(persist())

优点：提高某个RDD结果使用率，提高效率
缺点：缓存太大，容易出现缓存失败的问题，可以通过unpersist解除缓存，必须在下次action之前使用

加:2021-08-29 09:09:56 更:2021-08-29 09:26:16

-2025/8/9 22:31:24-

网站联系: qq:121756557 email:121756557@qq.com IT数码