数据准备

data/score.txt

孙悟空,语文,87
孙悟空,数学,95
孙悟空,英语,68
大海,语文,94
大海,数学,56
大海,英语,84
宋宋,语文,64
宋宋,数学,86
宋宋,英语,84
婷婷,语文,65
婷婷,数学,85
婷婷,英语,78

读取本地文件

# coding:utf8
from pyspark.sql import SparkSession

if __name__ == '__main__':
    # 构建执行环境入口对象
    spark = SparkSession.builder.appName("test").master("local[*]").getOrCreate()
    # 通过SparkSession对象获取SparkContext对象
    sc = spark.sparkContext

    # 读取本地文件，并且转换数据类型
    rdd = (sc.textFile("../data/score.txt")
           .map(lambda x: x.split(','))
           .map(lambda x: (x[0], x[1], int(x[2]))))

1. 基于RDD和python列表创建

# 构建DataFrame对象
df = spark.createDataFrame(rdd, schema=['name', 'subject', 'score'])

2. 基于表结构描述对象StructType创建

from pyspark.sql.types import StringType, IntegerType, StructType, StructField

# 表结构描述对象, StructType，可以传入一个表字段描述对象列表，也可以使用链式添加。
# StructField：表字段描述对象，三个参数分别为：字段名，字段类型，是否允许为空
schema = StructType([
      StructField('name', StringType(), nullable=True),
      StructField('subject', StringType(), nullable=False),
      StructField('score', IntegerType(), nullable=True)
])

# 构建DataFrame对象
df = spark.createDataFrame(rdd, schema=schema)

3. toDF的方式创建

方式一、toDF( list )

df = rdd.toDF(['name', 'subject', 'score'])

方式二、toDF( StructType )

# toDF的方式2 通过StructType来构建，链式添加
schema = (StructType()
           .add("name", StringType(), nullable=False)
           .add("subject", StringType(), nullable=True)
           .add("score", IntegerType(), nullable=False)
           )
df1 = rdd.toDF(schema)

4. 基于Pandas的DataFrame创建

import pandas as pd

# 基于Pandas的DataFrame构建DataFrame
pd_df = pd.DataFrame({
    "id": [1, 2, 3]
    , "name": ['坤坤', '鸡哥', '倒戈']
    , "age": [12, 14, 21]
})

df = spark.createDataFrame(pd_df)