[大数据] 2021.12.12Spark DataFrame、DataSet、SparkToHive、SparkToMysql

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 2021.12.12Spark DataFrame、DataSet、SparkToHive、SparkToMysql -> 正文阅读

[大数据]2021.12.12Spark DataFrame、DataSet、SparkToHive、SparkToMysql

DataFrameDemo

??DataSetDemo

?SparkToHive

?SparkToMysql

DataFrameDemo

package cn.kgc.ds


import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Row, SparkSession}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}

object DataFrameDemo {
  def main(args: Array[String]): Unit = {


    val spark: SparkSession = SparkSession.builder().master("local[*]").appName("dsdemo1").getOrCreate()
    val sc: SparkContext = spark.sparkContext

    import spark.implicits._
    val people: RDD[String] = sc.textFile("in/people.txt")
    people.foreach(println)

    //DataFrame ==> rdd[ROW]  schema =>> [StructType(Array(StructField)]


//     //数组map 非 RDD map

    val schemaString="id name age"
    val fields: Array[StructField] = schemaString.split(" ").map(x => StructField(x, StringType, true))
    val schema: StructType = StructType(fields)

    val peopleRddRow: RDD[Row] = people.map(x => {
      val strings: Array[String] = x.split(" ")
      Row(strings(0), strings(1), strings(2))
    })


    val df1: DataFrame = spark.createDataFrame(peopleRddRow,schema)
    df1.printSchema()
    df1.show()


    //DataFrame ==> rdd[ROW]  schema =>> [StructType(Array(StructField)]

//    val fields = Array(
//      StructField("id", IntegerType, true),
//      StructField("name", StringType, true),
//      StructField("age", IntegerType, true)
//    )
//
//    val schema: StructType = StructType(fields)
//
//        val peopleRddRow: RDD[Row] = people.map(x => {
//          val strings: Array[String] = x.split(" ")
//          Row(strings(0).toInt, strings(1), strings(2).toInt)
//        })
//
//    val frame: DataFrame = spark.createDataFrame(peopleRddRow,schema)
//    frame.printSchema()
//    frame.show()










  }

}

??DataSetDemo

package cn.kgc.ds

import java.util.Locale.Category

import cn.kgc.ds
import org.apache.spark
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.types.{DoubleType, LongType}
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}
import org.apache.spark.{SparkConf, SparkContext}


//样例类
case class Point(label:String,x:Double,y:Double)
case class Category(id:Long,name:String)


object DataSetDemo {
  def main(args: Array[String]): Unit = {


//    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("dsdemo")
//    val sc: SparkContext = SparkContext.getOrCreate(conf)


    val spark: SparkSession = SparkSession.builder().master("local[*]").appName("ds1demo").getOrCreate()
    val sc: SparkContext = spark.sparkContext

    import spark.implicits._

//    val rdd1: RDD[Int] = sc.parallelize(1 to 6)

//    val ds1: Dataset[Int] = spark.createDataset(1 to 6)  //ds => rdd schema
//    ds1.printSchema()
//    ds1.show()
//
//    val ds2: Dataset[(String, Int)] = spark.createDataset(List(("a",1),("b",2)))  //ds2.DataSet => rdd schema
//    ds2.printSchema()
//    ds2.show()
//
//    val df = ds2.withColumnRenamed("_1","name").withColumnRenamed("_2","id")
//    df.printSchema()
//    df.show()
//
//    val df2: DataFrame = df.withColumn("id",$"id".cast(LongType))
//    df2.printSchema()
//
//    val ds3: Dataset[(String, Int, Int)] = spark.createDataset(sc.parallelize(List(("gree",38,60),("ant",9,25))))
//    ds3.printSchema()
//    ds3.show()
//
//
//    val df3 = ds3.withColumnRenamed("_1","name").withColumnRenamed("_2","age").withColumnRenamed("_3","weight")
//    df3.printSchema()
//    df3.show()
//
//    val df4 = df3.withColumn("weight",$"weight".cast(DoubleType))
//    df4.printSchema()


//    val points: Seq[Point] = Seq(Point("jsnj",32.12,43.12),Point("scdt",65.23,54.12))
//    val pointDS: Dataset[Point] = points.toDS()
//
//    pointDS.printSchema()
//    pointDS.show()
//
//    val categories = Seq(Category(1,"jsnj"),Category(2,"sxdt"))
//    val categoriesDS: Dataset[Category] = categories.toDS()
//    categoriesDS.printSchema()
//    categoriesDS.show()
//
//    val df2: DataFrame = pointDS.join(categoriesDS,pointDS("label")===categoriesDS("name"))
//    df2.printSchema()
//    df2.show()


    val pointRDD: RDD[(String, Double, Double)] = sc.parallelize(List(("jsnj",32.12,43.12),("sxdt",65.23,54.12)))
    val categoriesRDD: RDD[(Long,String)] = sc.parallelize(List((1,"jsnj"),(2,"sxdt")))


    val pointDS: Dataset[Point] = pointRDD.map(x=>Point(x._1,x._2,x._3)).toDS()
    pointDS.printSchema()
    pointDS.show()

    val categoriesDS: Dataset[Category] = categoriesRDD.map(x=>ds.Category(x._1,x._2)).toDS()
    categoriesDS.printSchema()
    categoriesDS.show()








  }

}

?SparkToHive

package cn.kgc.ds

import org.apache.spark
import org.apache.spark.sql.{DataFrame, SparkSession}

object SparkToHive {
  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("sparktohive")
      .master("local[*]")
      .config("hive.metastore.uris", "thrift://192.168.111.131:9083")
      .enableHiveSupport()
      .getOrCreate()



    val torontoDF: DataFrame =spark.sql ("select * from spark.toronto")
    torontoDF.printSchema()
    torontoDF.show()


//    val orderDF: DataFrame =spark.sql ("select orderid,count(1) cishu from lalian.orders group by orderid ")
//    orderDF.printSchema()
//    orderDF.show()

//    orderDF.write.saveAsTable("lalian.orderscount")


  }

}

?SparkToMysql

package cn.kgc.ds

import java.util.Properties

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object SparkToMysql {
  def main(args: Array[String]): Unit = {


    val spark = SparkSession.builder().appName("sparktosql" )
      .master("local[*]")
//      .config("hive.metastore.uris", "thrift://192.168.111.131:9083")
//      .enableHiveSupport()
      .getOrCreate()


    val url="jdbc:mysql://192.168.111.131:3306/mybatisdb"
    val driver="com.mysql.jdbc.Driver"
    val user="root"
    val pwd="root"
    val properties = new Properties()
    properties.setProperty("user",user)
    properties.setProperty("password",pwd)
    properties.setProperty("driver",driver)



    val tblsDF: DataFrame = spark.read.jdbc(url,"student",properties)
    tblsDF.printSchema()
    tblsDF.show()



    import org.apache.spark.sql.functions._
    val frame: DataFrame = tblsDF.agg(
      max("age").as("maxage"),
      min("age").as("minage"),
      avg("age").as("avgage")

    )
    frame.printSchema()
    frame.show()

    //覆盖
    frame.write.mode(SaveMode.Overwrite).jdbc(url,"maxage",properties)




  }

}

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-12-14 16:00:53 更:2021-12-14 16:01:20

360图书馆购物三丰科技阅读网日历万年历 2026年5日历

-2026/5/5 11:25:02-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码