[大数据] spark指定类型+列名将RDD转化成DataFrame

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> spark指定类型+列名将RDD转化成DataFrame -> 正文阅读

[大数据]spark指定类型+列名将RDD转化成DataFrame

package lambda.sql

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}

/**
  * 演示sparksql-rdd-DATAFRAME --指定类型和列名
  *
  * @Author wangyijie
  * @Date 2021/7/15 20:42
  * @Version 1.0
  */
object Demo03 {
  def main(args: Array[String]): Unit = {

    // TODO 0.准备环境
    val spark: SparkSession = SparkSession.builder().appName("Demo02").master("local[*]").getOrCreate()
    val sc: SparkContext = spark.sparkContext
    sc.setLogLevel("WARN")

    // TODO 1.加载数据
    val lines: RDD[String] = sc.textFile("")

    // TODO 2.处理数据
    val tupleRDD:RDD[(Int,String,Int)] = lines.map(line => {
      val arr: Array[String] = line.split(" ")
      (arr(0).toInt, arr(1), arr(2).toInt)
    })       //获取到了PersonrRDD

    // RDD->DF
    import spark.implicits._ // 这里的spark是上面的定义生产的spark对象
    val personDF:DataFrame = tupleRDD.toDF("id","name","age")

    // TODO 3.输出结果
    personDF.printSchema()
    personDF.show()


    sc.stop()
  }

}