[大数据] Spark RDD的分区规则详解

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Spark RDD的分区规则详解 -> 正文阅读

[大数据]Spark RDD的分区规则详解

Spark RDD的分区规则

一.RDD中数据来源

2个地方：本地集合或外部数据源

sc.parallelize(本地集合，分区数)
sc.makeRDD(本地集合，分区数) 底层是parallelize
sc.textFile(HDFS/文件夹，分区数) 以行为单位读取数据
sc.wholeTextFiles(HDFS/文件夹，分区数) 以文件为单位，专门读取小文件，结果是元组，第一个元素是文件路径，第二个元素是文件内容

RDD本身是不保存数据的，只保存计算逻辑

二.读取内存数据分区规则

数据可以按照并行度的设定进行数据的分区操作，数据分区规则的
i代表分区的索引，从0开始。length代表本地数据的个数。左闭右开

def positions(length: Long, numSlices: Int): Iterator[(Int, Int)] = {
      (0 until numSlices).iterator.map { i =>
        val start = ((i * length) / numSlices).toInt
        val end = (((i + 1) * length) / numSlices).toInt
        (start, end)
      }
    }

示例

object RddNoKey {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Spark_RDD").setMaster("local[*]")
    val sc: SparkContext = new SparkContext(conf);

    val list = ListBuffer[Int]() // 可变List
    list.append(1,2,3,4,5)

    val nums: RDD[Int] = sc.parallelize(list,3)

    nums.saveAsTextFile("./output")
  }
}

集合中有5个元素，length = 5，设置了三个分区那么就会分为三个分区

对于分区0，由计算规则，得 [0,1)，所以分区0存放下标为0的元素1
对于分区1，由计算规则，得 [1,3)，所以分区1存放2和3
对于分区2，由计算规则，的 [3,5)，所以分区2存放4和5

在这里插入图片描述

三.读取文件数据分区规则

4.1 分区数量的计算规则

先说结论：产生的分区数和minPartitions相等或者minPartitions+1

什么时候加1什么时候相等，我们看个例子

我们读取一个文件时，可以设定一个最小分区数minPartitions = 5，不设置的话默认不会超过2
在这里插入图片描述

以文件为单位，看文件有多少个字节！
在这里插入图片描述
那么62/ 5 = 12（Byte）…2 也就说每个分区理论应该放12个字节（标准分区）的数据，但是还余下了2个字节，这时候要根据1.1规则进行判断，如果剩余的分区大于标准分区的10%，则成为一个新的分区，在这里 2 除以 12 = 0.167，所以会产生新的分区