IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Spark原理笔记 -> 正文阅读

[大数据]Spark原理笔记

分区

1 分区数

Spark 读取本地数据,默认分区数是电脑CPU核数,最小是4。如果设置分区小于4,分区数量依然是4
Spark 读取外部文件,默认分区数一般是2,是Math.min(2,CPU核数)

2 如何分区

读取外部文件 textFile,我们设置分区数参数时,赋予的值不是实际分区数,而是最小分区数
– 如果路径下所有文件内容总字节数能整除设置的最小分区数,则实际分区数则为设置分区数
– 如果不能整除,看下面例子
注意读取数据时,假设每个分区读取3个字节,读取到某一行时数据超过了3个字节,程序会读完整行数据 (按照 next readLine 方式读取),改分区会记录超过3个字节的整行数据。

设置最小分区为3,外部文件数据如下
例子1
1
2
3
4
四行数据占用10个字节,每个数字一个字节,每行最后会默认加 /r/n 两个字节,共10个字节。
会先3个分区每个分区写入3个字节,最后一个字节会写入第四个新分区。
虽然设置3个分区,但实际是用了4个分区。
最终输出结果,第一个分区 1,第二个分区2,第三个分区3,4 (因为按行读,4会写入),第四个分区空

例子2
123456
123456 占用6个字节。可以被3整除,所以实际分区数为3,每个分区放2个字节

例子3
文件19个字节,设置分区数为5
19/5 = 3,每个分区写入3个字节,所以需要7个分区

**

转换算子

**
懒加载,不会立刻执行

value 类型

map 每个元素一个一个执行
	data = data.map(_*2)
mapPartitions 以分区为单位,一个分区元素执行map

双value类型

key-value类型

**

集合算子

**
出发任务的执行
collect

未完待续

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-11-15 15:56:05  更:2021-11-15 15:57:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 6:03:21-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码