IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 2021.12.12Spark DataFrame、DataSet、SparkToHive、SparkToMysql -> 正文阅读

[大数据]2021.12.12Spark DataFrame、DataSet、SparkToHive、SparkToMysql

目录

DataFrameDemo

??DataSetDemo

?SparkToHive

?SparkToMysql


?

DataFrameDemo

package cn.kgc.ds


import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Row, SparkSession}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}

object DataFrameDemo {
  def main(args: Array[String]): Unit = {


    val spark: SparkSession = SparkSession.builder().master("local[*]").appName("dsdemo1").getOrCreate()
    val sc: SparkContext = spark.sparkContext

    import spark.implicits._
    val people: RDD[String] = sc.textFile("in/people.txt")
    people.foreach(println)

    //DataFrame ==> rdd[ROW]  schema =>> [StructType(Array(StructField)]


//     //数组map 非 RDD map

    val schemaString="id name age"
    val fields: Array[StructField] = schemaString.split(" ").map(x => StructField(x, StringType, true))
    val schema: StructType = StructType(fields)

    val peopleRddRow: RDD[Row] = people.map(x => {
      val strings: Array[String] = x.split(" ")
      Row(strings(0), strings(1), strings(2))
    })


    val df1: DataFrame = spark.createDataFrame(peopleRddRow,schema)
    df1.printSchema()
    df1.show()


    //DataFrame ==> rdd[ROW]  schema =>> [StructType(Array(StructField)]

//    val fields = Array(
//      StructField("id", IntegerType, true),
//      StructField("name", StringType, true),
//      StructField("age", IntegerType, true)
//    )
//
//    val schema: StructType = StructType(fields)
//
//        val peopleRddRow: RDD[Row] = people.map(x => {
//          val strings: Array[String] = x.split(" ")
//          Row(strings(0).toInt, strings(1), strings(2).toInt)
//        })
//
//    val frame: DataFrame = spark.createDataFrame(peopleRddRow,schema)
//    frame.printSchema()
//    frame.show()










  }

}

??DataSetDemo

package cn.kgc.ds

import java.util.Locale.Category

import cn.kgc.ds
import org.apache.spark
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.types.{DoubleType, LongType}
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}
import org.apache.spark.{SparkConf, SparkContext}


//样例类
case class Point(label:String,x:Double,y:Double)
case class Category(id:Long,name:String)


object DataSetDemo {
  def main(args: Array[String]): Unit = {


//    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("dsdemo")
//    val sc: SparkContext = SparkContext.getOrCreate(conf)


    val spark: SparkSession = SparkSession.builder().master("local[*]").appName("ds1demo").getOrCreate()
    val sc: SparkContext = spark.sparkContext

    import spark.implicits._

//    val rdd1: RDD[Int] = sc.parallelize(1 to 6)

//    val ds1: Dataset[Int] = spark.createDataset(1 to 6)  //ds => rdd schema
//    ds1.printSchema()
//    ds1.show()
//
//    val ds2: Dataset[(String, Int)] = spark.createDataset(List(("a",1),("b",2)))  //ds2.DataSet => rdd schema
//    ds2.printSchema()
//    ds2.show()
//
//    val df = ds2.withColumnRenamed("_1","name").withColumnRenamed("_2","id")
//    df.printSchema()
//    df.show()
//
//    val df2: DataFrame = df.withColumn("id",$"id".cast(LongType))
//    df2.printSchema()
//
//    val ds3: Dataset[(String, Int, Int)] = spark.createDataset(sc.parallelize(List(("gree",38,60),("ant",9,25))))
//    ds3.printSchema()
//    ds3.show()
//
//
//    val df3 = ds3.withColumnRenamed("_1","name").withColumnRenamed("_2","age").withColumnRenamed("_3","weight")
//    df3.printSchema()
//    df3.show()
//
//    val df4 = df3.withColumn("weight",$"weight".cast(DoubleType))
//    df4.printSchema()


//    val points: Seq[Point] = Seq(Point("jsnj",32.12,43.12),Point("scdt",65.23,54.12))
//    val pointDS: Dataset[Point] = points.toDS()
//
//    pointDS.printSchema()
//    pointDS.show()
//
//    val categories = Seq(Category(1,"jsnj"),Category(2,"sxdt"))
//    val categoriesDS: Dataset[Category] = categories.toDS()
//    categoriesDS.printSchema()
//    categoriesDS.show()
//
//    val df2: DataFrame = pointDS.join(categoriesDS,pointDS("label")===categoriesDS("name"))
//    df2.printSchema()
//    df2.show()


    val pointRDD: RDD[(String, Double, Double)] = sc.parallelize(List(("jsnj",32.12,43.12),("sxdt",65.23,54.12)))
    val categoriesRDD: RDD[(Long,String)] = sc.parallelize(List((1,"jsnj"),(2,"sxdt")))


    val pointDS: Dataset[Point] = pointRDD.map(x=>Point(x._1,x._2,x._3)).toDS()
    pointDS.printSchema()
    pointDS.show()

    val categoriesDS: Dataset[Category] = categoriesRDD.map(x=>ds.Category(x._1,x._2)).toDS()
    categoriesDS.printSchema()
    categoriesDS.show()








  }

}

?SparkToHive

package cn.kgc.ds

import org.apache.spark
import org.apache.spark.sql.{DataFrame, SparkSession}

object SparkToHive {
  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("sparktohive")
      .master("local[*]")
      .config("hive.metastore.uris", "thrift://192.168.111.131:9083")
      .enableHiveSupport()
      .getOrCreate()



    val torontoDF: DataFrame =spark.sql ("select * from spark.toronto")
    torontoDF.printSchema()
    torontoDF.show()


//    val orderDF: DataFrame =spark.sql ("select orderid,count(1) cishu from lalian.orders group by orderid ")
//    orderDF.printSchema()
//    orderDF.show()

//    orderDF.write.saveAsTable("lalian.orderscount")


  }

}

?SparkToMysql

package cn.kgc.ds

import java.util.Properties

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object SparkToMysql {
  def main(args: Array[String]): Unit = {


    val spark = SparkSession.builder().appName("sparktosql" )
      .master("local[*]")
//      .config("hive.metastore.uris", "thrift://192.168.111.131:9083")
//      .enableHiveSupport()
      .getOrCreate()


    val url="jdbc:mysql://192.168.111.131:3306/mybatisdb"
    val driver="com.mysql.jdbc.Driver"
    val user="root"
    val pwd="root"
    val properties = new Properties()
    properties.setProperty("user",user)
    properties.setProperty("password",pwd)
    properties.setProperty("driver",driver)



    val tblsDF: DataFrame = spark.read.jdbc(url,"student",properties)
    tblsDF.printSchema()
    tblsDF.show()



    import org.apache.spark.sql.functions._
    val frame: DataFrame = tblsDF.agg(
      max("age").as("maxage"),
      min("age").as("minage"),
      avg("age").as("avgage")

    )
    frame.printSchema()
    frame.show()

    //覆盖
    frame.write.mode(SaveMode.Overwrite).jdbc(url,"maxage",properties)




  }

}

?

?

?

?

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-12-14 16:00:53  更:2021-12-14 16:01:20 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/17 7:52:23-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码