| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> Spark的RDD介绍 -> 正文阅读 |
|
[大数据]Spark的RDD介绍 |
1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性的分布式数据集合,是Spark中最基本的数据抽象,它代表一个不可变、只读的,被分区的数据集。 弹性的体现:RDD可以通过lineage(血统)进行恢复、数据持久化(内存、磁盘、序列化)。 分布式的体现:RDD是被分区的。不同的分区在不同的worker上。 对开发者而言,RDD可以看作是Spark的一个对象,它本身运行于内存中,如读文件是一个RDD,对文件计算是一个RDD,结果集也是一个RDD ,不同的分片、数据之间的依赖都可以看做RDD。 2、RDD的5大特性1、一组分片(即partition),即数据集的基本组成单位 一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算。对于RDD来说,每个分片都会被一个计算任务处理,能够切分的数据才能并行计算,切分成多少分片决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值,默认值就是程序所分配到的CPU Core的数目。每个分片会被一个Task负责计算。 2、由一个函数计算每一个分片 Spark中的RDD的计算是以分片为单位的,每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合,不需要保存每次计算的结果。对一个分片进行计算,得出一个可遍历的结果。compute函数其实就父RDD分区数据同过传入的逻辑到子RDD分区数据的变换过程。 3、RDD之间的依赖关系列表 RDD的每次转换都会生成一个新的RDD,所以RDD之间就会形成类似于流水线一样的前后依赖关系。依赖分为宽依赖和窄依赖。在部分分区数据丢失时,Spark可以通过这个依赖关系重新计算丢失的分区数据,而不是对RDD的所有分区进行重新计算。 4、RDD的的分区函数 当前Spark中实现了两种类型的分区函数,一个是基于哈希的 HashPartitioner,另外一个是基于范围的 RangePartitioner。只有对于key-value的RDD,才会有Partitioner,非 key-value的RDD的Parititioner的值是None。Partitioner函数不但决定了RDD本身的分区数量,也决定了parent RDD Shuffle输出时的分区数量。还可以自定义分区器来实现控制分区数量。 5、每一分片的优先计算位置,比如HDFS的block的所在位置应该是优先计算的位置。 按照“移动数据不如移动计算”的理念,Spark在进行任务调度的时候,会尽可能地将计算任务分配到其所要处理数据块的存储位置。数据在本地上不用走网络,不过数据进行最后汇总的时候就要走网络。 3、如何创建RDD1、通过本地集合创建RDD
2、通过读取文件创建RDD
3、通过RDD之间的转换创建RDD
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/16 8:48:06- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |