本文并没有解决掉bug~
样例代码: spark_df=spark.createdataframe(pandas_df) 注:pandas_df是一个pandas dataframe变量
报错信息: session.py line 584 createDataFrame session.py line 420 in _createFromLocal context.py line 474 in parallelize context.py line 399 defaultParallelism AttributeError:“Nonetype” object has no attribute “defaultParallelism”
解决思路: 1、NoneType一般都是数据出问题 fillna将None都替换为‘’后,仍报错。 fillna将None都替换为‘-999’后,仍报错。 2、除了pandas_df只有一个变量就是spark,所以看看spark 首先在NoteBook中输入spark??查看, 找到的createDataFrame方法,也找到了报错信息中提到的_createFromLocal 继续深挖_createFromLocal中的parallelize, parallelize中的defaultParallelism 发现整个调用大概是 定位至spark中某个属性为Nonetype 于是乎,决定print所有涉及到的对象,看看会发生什么
print(spark) print(spark._sc) print(spark._sc.parallelize) print(spark._sc._jsc.str) print(spark._sc._jsc) print(spark._sc.sc()) print(spark._sc.sc().defaultParallelism)
在spark刚初始化结束,与报错前都添加了以上代码,奇怪的事情发生了… 某几个对象刚初始化是正常的,但在转pandasdataframe时,为null了.神奇.
然后就想看从spark初始化,到报错前,具体哪一小段代码,发生了对象为null的情况, 将以上print代码复制粘贴了7-8吧,重跑代码…
问题不能重现了,一直跑了20多遍的无法复现…
|