[大数据] pyspark入门

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> pyspark入门 -> 正文阅读

[大数据]pyspark入门

SparkContext是任何spark功能的入口点，sc。

class pyspark.SparkContext (
   master = None, #连接到的集群的URL
   appName = None, #工作名称
   sparkHome = None,
   pyFiles = None, #要发送到集群并添加到PYTHONPATH的.zip或.py文件
   environment = None, #工作节点环境变量
   batchSize = 0, #为单个Java对象的Python对象的数量。设置1以禁用批处理，设置0以根据对象大小自动选择批处理大小，或设置为-1以使用无限批处理大小
   serializer = PickleSerializer(), #RDD序列化器。
   conf = None, #L {SparkConf}的一个对象，用于设置所有Spark属性
   gateway = None,
   jsc = None,
   profiler_cls = <class 'pyspark.profiler.BasicProfiler'>
)

case：?

from pyspark import SparkContext

def lcut(line):
    return jieba.lcut(line)

sc = SparkContext(master="local", appName="First App")
# sparkConf = SparkConf().setAppName('Python').setMaster('local') 或者这样
# sc = SparkContext(conf=sparkConf)
text = sc.textFile("file:/root/.../A.txt")
# 是file:/root/.../A.txt MapPartitionsRDD[1] at textFile at NativeMethodAccessorImpl.java:0
word_list = text.map(lcut).collect() #比直接for loop快将近一倍

速度对比：

RDD（Resilient Distributed Dataset），它们是在多个节点上运行和操作以在集群上进行并行处理的元素。主要有Transformation（如Filter、groupBy、map）和Action两种操作??https://codingdict.com/article/8883?

word_list= sc.parallelize(word_list) #其实原本就是RDD了，现在是变成并行化
print(word_list.count())

文件操作大全?https://blog.csdn.net/wc781708249/article/details/78251701

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-08-24 15:37:49 更:2021-08-24 15:40:53

360图书馆购物三丰科技阅读网日历万年历 2026年3日历

-2026/3/10 5:38:57-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码