import pyspark
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("rdd_tutorial").setMaster("local[4]")
sc = SparkContext(conf=conf)
print(pyspark.__version__)
一,创建RDD
textFile加载本地或者集群文件系统中的数据,或者parallelize方法将Driver中的数据结构并行化成RDD
#从本地文件系统中加载数据
file = "./data/hello.txt"
rdd = sc.textFile(file,3)
rdd.collect()
#['hello world',
#'hello spark',
#'spark love jupyter',
#'spark love pandas',
#'spark love sql']
#parallelize将Driver中的数据结构生成RDD,第二个参数指定分区数
rdd = sc.parallelize(range(1,11),2)
二,Action操作
Action操作将触发基于RDD依赖关系的计算。
#collect
rdd = sc.parallelize(range(10),5)
all_data = rdd.collect()
all_data
#[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
#take操作将前若干个数据汇集到Driver,相比collect安全
rdd = sc.parallelize(range(10),5)
part_data = rdd.take(4)
part_data
|