IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> spark学习——RDD概念 -> 正文阅读

[大数据]spark学习——RDD概念

RDD定义

??RDD(Resilient Distributed Dataset)是弹性分布式数据集,是spark中最基本的数据抽象,代表一个不可变可分区可并行计算的数据集合。
??不可变:可认为RDD是分布式的列表(list)或数组(Array),它里面的值可增可减但是不可改变原有数据的值,这就是不可变,变量的声明使用 val;
??可分区:集合的数据被划分为很多部分,每部分称为分区(Partition);
??可并行计算:每个分区数据被一个任务(task)处理。
??RDD将spark的底层细节隐藏起来,让开发者可以像操作本地集合一样以函数式编程的方式操作RDD,RDD中很多处理数据函数与列表相同或相似。

RDD特性

??RDD有五大特性:

  1. A list of partitions
    RDD可看做是一个分区列表。首先它是一个列表,由于RDD是可分区的,所以这个列表是一个分区了的列表,也就是被划分成多个分片。划分的好处是可以并行计算,因为每个分片都会被一个 task 计算,分片数决定计算的并行度。在创建RDD时可以指定分片个数。
  2. A function for computing each split
    RDD的计算是通过函数进行的,由于RDD是分区的,所以函数必须分配到每个分区上。
  3. A list of dependencies on other RDDs
    一个RDD会依赖于其他多个RDD。RDD的每次转换都会生成一个新的RDD,所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时,spark可以通过这个依赖关系重新计算丢失的分区数据,而不是对RDD的所有分区进行重新计算(spark 的容错机制)。
  4. Optionally, a partitioner for key-val RDDs
    可选项,对于 key-value 类型的RDD会有一个 partitioner,即RDD的分区函数。当前spark实现了两种类型的分区函数,一个是基于哈希的 HashPartitioner,另一个是基于范围的 RangePartitioner。
  5. Optionally, a list of preferred locations to compute each split on
    可选项,一个列表,存储每个 Partition 的优先位置。按照”移动数据不如移动计算“的理念,spark在进行任务调度的时候,会尽可能选择那些存有数据的 worker 节点来进行任务计算。
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-26 12:08:54  更:2021-07-26 12:11:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 0:23:39-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码