[大数据] pandas dataframe转spark dataframe报错

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> pandas dataframe转spark dataframe报错 -> 正文阅读

[大数据]pandas dataframe转spark dataframe报错

作者:recommend-item-box-tow

本文并没有解决掉bug～

样例代码：
spark_df=spark.createdataframe(pandas_df)
注：pandas_df是一个pandas dataframe变量

报错信息：
session.py line 584 createDataFrame
session.py line 420 in _createFromLocal
context.py line 474 in parallelize
context.py line 399 defaultParallelism
AttributeError：“Nonetype” object has no attribute “defaultParallelism”

解决思路：
1、NoneType一般都是数据出问题
fillna将None都替换为‘’后，仍报错。
fillna将None都替换为‘-999’后，仍报错。
2、除了pandas_df只有一个变量就是spark,所以看看spark
首先在NoteBook中输入spark??查看，
找到的createDataFrame方法，也找到了报错信息中提到的_createFromLocal
继续深挖_createFromLocal中的parallelize,
parallelize中的defaultParallelism
发现整个调用大概是
定位至spark中某个属性为Nonetype
于是乎,决定print所有涉及到的对象,看看会发生什么

print(spark) print(spark._sc)
print(spark._sc.parallelize)
print(spark._sc._jsc.str)
print(spark._sc._jsc)
print(spark._sc.sc())
print(spark._sc.sc().defaultParallelism)

在spark刚初始化结束,与报错前都添加了以上代码,奇怪的事情发生了…
某几个对象刚初始化是正常的,但在转pandasdataframe时,为null了.神奇.

然后就想看从spark初始化,到报错前,具体哪一小段代码,发生了对象为null的情况,
将以上print代码复制粘贴了7-8吧,重跑代码…

问题不能重现了,一直跑了20多遍的无法复现…

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景