IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> scala spark 连接 redis -> 正文阅读

[大数据]scala spark 连接 redis

github

GitHub - RedisLabs/spark-redis: A connector for Spark that allows reading and writing to/from Redis cluster

大家给个星星o

pom下载

??????https://mvnrepository.com/artifact/com.redislabs/spark-redis



?

代码demo

import org.apache.spark.sql._
import com.redislabs.provider.redis._

object scala_redis {
  case class Person(name: String, age: Int)

  def main(args: Array[String]): Unit = {
    /*
    注意: 如果报错,两种情况: 1 pom里有其他jedis版本的包冲突了; 2 spark版本和spark-redis的版本不同.
    pom:  https://mvnrepository.com/artifact/com.redislabs/spark-redis
    github: https://github.com/RedisLabs/spark-redis
    dataframe demo: https://github.com/RedisLabs/spark-redis/blob/master/doc/dataframe.md
     */

    val spark = SparkSession
      .builder()
      .appName("redis-df")
      .master("local[1]")
      .config("spark.redis.host", "192.168.9.88")
      .config("spark.redis.port", 6379)
      .config("spark.ui.port","30101") //解决报错 SparkUI) to an available port or increasing spark.port.maxRetries
      .getOrCreate()


    val personSeq = Seq(Person("John", 30), Person("Peter", 45))
    val df = spark.createDataFrame(personSeq)

    df.write
      .format("org.apache.spark.sql.redis")
      .option("table", "person")
      .save()

    spark.stop()

  }

}

redis结果

key中person后随机数类似UUID,主要是为了不让重复.

数据读取

import org.apache.spark.sql._
import com.redislabs.provider.redis._

object scala_redis {
  case class Person(name: String, age: Int)

  def main(args: Array[String]): Unit = {

    val spark = SparkSession
      .builder()
      .appName("redis-df")
      .master("local[1]")
      .config("spark.redis.host", "192.168.9.88")
      .config("spark.redis.port", 6379)
      .config("spark.ui.port","30101") //解决报错 SparkUI) to an available port or increasing spark.port.maxRetries
      .getOrCreate()

    val df = spark.read
      .format("org.apache.spark.sql.redis")
      .option("table", "person")
      .load()

    df.show()

    spark.stop()

  }

}

返回:

sink支持 append overwrite等模式

测试 append模式

import org.apache.spark.sql._
import com.redislabs.provider.redis._
import org.apache.spark.sql.streaming.OutputMode._

object scala_redis {
  case class Person(name: String, age: Int)

  def main(args: Array[String]): Unit = {

    val spark = SparkSession
      .builder()
      .appName("redis-df")
      .master("local[1]")
      .config("spark.redis.host", "192.168.9.88")
      .config("spark.redis.port", 6379)
      .config("spark.ui.port","30101") //解决报错 SparkUI) to an available port or increasing spark.port.maxRetries
      .getOrCreate()


    val personSeq = Seq(Person("Thomas", 2),Person("Peter", 100))
    val df = spark.createDataFrame(personSeq)

    df.write
      .format("org.apache.spark.sql.redis")
      .option("table", "person")
      .mode(SaveMode.Append) // 这里支持spark sink的多个模式
      .save()

    spark.stop()

  }

}

注意: 这里peter相当于写了两次. 那么redis怎么存储以及查询结果是什么?

redis key存储的情况:

可以看出来. 因为前面用了随机数,所以相同name

?

?

api查询结果:

两个peter都在

?

?测试一下overwrite模式

import org.apache.spark.sql._
import com.redislabs.provider.redis._
import org.apache.spark.sql.streaming.OutputMode._

object scala_redis {
  case class Person(name: String, age: Int)

  def main(args: Array[String]): Unit = {

    val spark = SparkSession
      .builder()
      .appName("redis-df")
      .master("local[1]")
      .config("spark.redis.host", "192.168.9.88")
      .config("spark.redis.port", 6379)
      .config("spark.ui.port","30101") //解决报错 SparkUI) to an available port or increasing spark.port.maxRetries
      .getOrCreate()


    val personSeq = Seq(Person("Thomas", 11),Person("Peter", 22))
    val df = spark.createDataFrame(personSeq)

    df.write
      .format("org.apache.spark.sql.redis")
      .option("table", "person")
      .mode(SaveMode.Overwrite) // 这里支持spark sink的多个模式
      .save()

    spark.stop()

  }

}

结果:

?

?貌似并不支持update

从他存储结构也能看出来,支持update太困难...

schema

?

上述所有代码来自github项目 readme?

问题

执行报错注意看spark版本对应

scala版本对应

没有jedis包冲突

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-12-15 18:21:59  更:2021-12-15 18:23:54 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/17 5:45:50-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码