问题
cluster 模式提交 StartUp (shade)包到 spark 集群执行:
首先报错:
java.lang.NoClassDefFoundError: Could not initialize class XXX
分析
在类 XXX 初始化的时候出了问题,而类中有几个静态变量
/* other static final variable */
private static final Set<Object> ASYNC_OBJECT = Sets.newConcurrentHashSet();
于是,就把这些静态常量的初始化工作放到一个static代码块中,并尝试捕捉其异常:
public class LockDataManager {
/* other static final variable */
private static final Set<Object> ASYNC_OBJECT;
static {
try {
/* other initial */
ASYNC_OBJECT = Sets.newConcurrentHashSet();
} catch (Throwable throwable) {
LoggerUtils.info("init error at LockDataManager.class");
LoggerUtils.error(throwable);
throw throwable;
}
}
/* ... */
}
重新打包,提交并运行,查看日志:
java.lang.NoSuchMethodError: com.google.common.collect.Sets.newConcurrentHashSet()Ljava/util/Set;
发现了NoClassDefFoundError 是由于 NoSuchMethodError引起的,而这个方法(com.google.common.collect.Sets.newConcurrentHashSet()Ljava/util/Set;)是新版本增加的旧版本没有 。于是怀疑集群环境中可能有更低版本的 guava 包,该版本包中没有 newConcurrentHashSet 方法。去集群看:
[hadoop@bigdata0 spark-3.0.0-bin-hadoop3.2]$ ll jars/ | grep guava
-rw-r--r-- 1 hadoop hadoop 2189117 6月 6 2020 guava-14.0.1.jar
问题确定了,但是还需要再验证下:在启动任务的主方法中加入以下代码验证:
String LOCATION = "";
String URLLOCATION = "";
try {
LOCATION = Sets.class.getProtectionDomain().getCodeSource().getLocation().getFile();
URLLOCATION = URLDecoder.decode(LOCATION, "UTF-8");
} catch (UnsupportedEncodingException e) {
LoggerUtils.error(Main.class, e);
}
LoggerUtils.info("***loc=" + LOCATION + "\\nURLLoc=" + URLLOCATION);
再次打包,提交并运行,查看日志:
***loc=/opt/software/spark-3.0.0-bin-hadoop3.2/jars/guava-14.0.1.jar
URLLoc=/opt/software/spark-3.0.0-bin-hadoop3.2/jars/guava-14.0.1.jar
于是,找到问题根源并验证了。
小结
出现NoClassDefFoundError 、NoSuchMethodError 等错误是因为 在编译时找到了对应的类(或方法等内容),但运行时没找到。其多半是因为环境中有重复的类(类全限定类名相同)
- 比如加载了两个不同版本的jar包,而二则不兼容:代码中使用了高版本jar包中的类中的方法,但是运行时加载到了低版本的类中的方法。就会导致找不到方法的异常。
解决方法:保证环境中类(或 jar)的唯一性
- 对于maven依赖,如果两个模块实在需要依赖不同版本的jar。那么可以将其中一个打成shade包,并relocation(重命名)package。
|