IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Spark源码篇-分区:读取外部数据 -> 正文阅读

[大数据]Spark源码篇-分区:读取外部数据

package pro_spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}


/**
  * @author YaPeng Li
  * @version 0.0.1
  **/
object FileCreateRDDByPartition04{

  def main(args: Array[String]): Unit = {

    val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("FileCreateRDDByPartition")

    val sc = new SparkContext(sparkConf)

    val fileRDD: RDD[String] = sc.textFile("input")

    fileRDD.collect().foreach(println)

    """
      |
      |  def textFile(
      |      path: String,
      |      minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {
      |    assertNotStopped()
      |    hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],
      |      minPartitions).map(pair => pair._2.toString).setName(path)
      |  }
      |
      |  def hadoopFile[K, V](
      |      path: String,
      |      inputFormatClass: Class[_ <: InputFormat[K, V]],
      |      keyClass: Class[K],
      |      valueClass: Class[V],
      |      minPartitions: Int = defaultMinPartitions): RDD[(K, V)] = withScope {
      |    assertNotStopped()
      |
      |    // This is a hack to enforce loading hdfs-site.xml.
      |    // See SPARK-11227 for details.
      |    FileSystem.getLocal(hadoopConfiguration)
      |
      |    // A Hadoop configuration can be about 10 KiB, which is pretty big, so broadcast it.
      |    val confBroadcast = broadcast(new SerializableConfiguration(hadoopConfiguration))
      |    val setInputPathsFunc = (jobConf: JobConf) => FileInputFormat.setInputPaths(jobConf, path)
      |    new HadoopRDD(
      |      this,
      |      confBroadcast,
      |      Some(setInputPathsFunc),
      |      inputFormatClass,
      |      keyClass,
      |      valueClass,
      |      minPartitions).setName(path)
      |  }
      |
      |  val setInputPathsFunc = (jobConf: JobConf) => FileInputFormat.setInputPaths(jobConf, path)
      |
      |
      | long totalSize = 0;                           // compute total size
      |    for (FileStatus file: files) {                // check we have valid files
      |      if (file.isDirectory()) {
      |        throw new IOException("Not a file: "+ file.getPath());
      |      }
      |      totalSize += file.getLen();
      |    }
      |
      |    long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);
      |    long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.
      |      FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize);
      |      
      |     根据偏移量来进行存储。
      |
      |""".stripMargin

  }



}
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-05-18 17:42:19  更:2022-05-18 17:42:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 4:41:58-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码