IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> pyspark入门 -> 正文阅读

[大数据]pyspark入门

SparkContext是任何spark功能的入口点,sc。

class pyspark.SparkContext (
   master = None, #连接到的集群的URL
   appName = None, #工作名称
   sparkHome = None,
   pyFiles = None, #要发送到集群并添加到PYTHONPATH的.zip或.py文件
   environment = None, #工作节点环境变量
   batchSize = 0, #为单个Java对象的Python对象的数量。设置1以禁用批处理,设置0以根据对象大小自动选择批处理大小,或设置为-1以使用无限批处理大小
   serializer = PickleSerializer(), #RDD序列化器。
   conf = None, #L {SparkConf}的一个对象,用于设置所有Spark属性
   gateway = None,
   jsc = None,
   profiler_cls = <class 'pyspark.profiler.BasicProfiler'>
)

case:?

from pyspark import SparkContext

def lcut(line):
    return jieba.lcut(line)

sc = SparkContext(master="local", appName="First App")
# sparkConf = SparkConf().setAppName('Python').setMaster('local') 或者这样
# sc = SparkContext(conf=sparkConf)
text = sc.textFile("file:/root/.../A.txt")
# 是file:/root/.../A.txt MapPartitionsRDD[1] at textFile at NativeMethodAccessorImpl.java:0
word_list = text.map(lcut).collect() #比直接for loop快将近一倍

速度对比:

RDD(Resilient Distributed Dataset),它们是在多个节点上运行和操作以在集群上进行并行处理的元素。主要有Transformation(如Filter、groupBy、map)和Action两种操作??https://codingdict.com/article/8883?

word_list= sc.parallelize(word_list) #其实原本就是RDD了,现在是变成并行化
print(word_list.count())

文件操作大全?https://blog.csdn.net/wc781708249/article/details/78251701

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-24 15:37:49  更:2021-08-24 15:40:53 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 12:50:43-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码