| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> Data.Analysis.with.Python.and.PySpark:PySpark的第一个程序 -> 正文阅读 |
|
[大数据]Data.Analysis.with.Python.and.PySpark:PySpark的第一个程序 |
命令行输入:pyspark 设置pyspark 启动时所使用的python版本参考:Data.Analysis.with.Python.and.PySpark:准备_lm19770429的专栏-CSDN博客The book focuses on Spark version 3.2How PySpark worksUnder the hood, it looks more like what’s on the right: you have some workbenches that some workers are assigned to. The workbenches are like the computers in our Spark cluster: there is a fixed ahttps://blog.csdn.net/lm19770429/article/details/123357275?spm=1001.2014.3001.5501?The SparkSession entry point通过使用getOrCreate()方法,您的程序将在交互式和批处理模式下工作,避免创建新的SparkSession(如果已经存在)。 ?配置日志级别:
Keyword Signification DEBUG Will provide debug information on your jobs. Reading data into a data frame with spark.read? PySpark reads your data 读取txt:
您可能希望更清楚地显示模式。PySpark提供printSchema()以树形形式显示模式。 当我不记得要应用的确切方法时,我非常喜欢在对象上使用dir()
如果您不确定函数、类或方法的正确用法,可以打印_doc__;属性,或者,对于使用IPython的用户,可以使用后面的问号(如果需要更多详细信息,可以使用两个问号)。
从结构到内容:用show()探索我们的数据框架 默认情况下,它将显示20行并截断长值。
可选主题:非惰性Spark 也就是说,有些时候,尤其是在学习时,您希望在每次转换后对数据帧进行评估(我们称之为急切评估)。 如果要在shell中使用即时求值,可以在shell中粘贴以下代码:
简单的列转换:从一个句子移动到一个单词列表
Selecting specific columns using select()最基本的转变是特征,在那里你可以准确地返回提供给你的东西。如果您过去使用过SQL,您可能会认为这听起来像一个SELECT语句
PySpark为其数据帧中的每一列提供了一个指向该列的点符号。 PySpark提供了多种选择列的方法。我将在下一个列表中显示四种最常见的方法。
?Transforming columns: Splitting a string into a list of words?split函数将字符串列转换为数组列,其中包含一个或多个字符串元素。 重命名列:alias和WithColumnRename当使用指定要显示哪些列的方法时,如select()方法,请使用alias()。 如果只想重命名列而不更改数据框的其余部分,请使用WithColumnRename。重新命名。请注意,如果该列不存在,PySpark会将此方法视为无操作,不会执行任何操作。
重塑数据:将列表分解成行
Working with words: Changing case and removing punctuationLower the case of the words in the data frame
clean our words of any punctuation and other non-useful characters 我们只保留使用正则表达式的字母 Using regexp_extract to keep what looks like a word
?If you are interested in building your own, the RegExr (https://regexr.com/) website Filtering rowsPySpark provides not one, but two identical methods to perform this task. You can use either .filter() or its alias .where(). Filtering rows in your data frame using where or filter:?using “not equal,” or !=
? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/24 9:02:38- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |