开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Spark on yarn运行时Jar包加载踩坑经历 -> 正文阅读

[大数据]Spark on yarn运行时Jar包加载踩坑经历

小菜鸟的个人博客已经正式上线且对外开放啦…

博客访问地址：小菜鸟的大梦想

欢迎各位同学扫码关注本人公众号 ↓↓↓ 更多优质内容将首发公众号
在这里插入图片描述

前言

本文起因于近段时间在做的项目，百亿级数据的存储与实时检索。项目主要采用HBase存储全量数据，Elasticsearch作为二级索引库，数据入库采用Spark批量写入，最终数据通过微服务平台API接口对外提供实时线上访问。

HBase端采用saveAsNewHadoopFile算子生成HFile文件，然后通过HBase自带bulk load方式进行加载
Elasticsearch端采用批量bulk方式写入数据

具体方案由于工作原因，不便透漏，此处不再详细叙述，感兴趣的可以至本人博客留言板或者随心聊模块私信本人。

下面主要叙述项目上线后 Spark on yarn 运行时 Jar 包加载异常的解决方案。

生产异常报错

由于表入库时需要读取 Mysql 数据库当前表的配置信息，因此项目中添加了 Mysql 驱动的依赖，测试环境从开发到上线均正常运行。但一上生产通过调度工具调用起来直接就报错，我们这上线换版出现问题是比较严重的，所以当时还是小小惊了一下的，然后抓紧时间通过电话排查问题（此时我已经回家了）。

1.查看运行日志

// 主要日志
java.sql.SQLException: No suitable driver

后续日志省略...

很明显就是找不到合适的驱动，明显是挺明显，但是很懵逼…
明显的是驱动加载的问题，懵逼的是测试环境运行居然顺畅无阻。

懵逼归懵逼但还是要抓紧时间解决问题，中间又让同事在测试环境同步进行排查，并解压检查上线包里的mysql驱动是否package进去了，但是无疾而终。由于连接mysql这块的代码不是我开发的，具体情况也不太清楚，只知道测试环境跑的没有问题。没办法，只好想着先通过临时指定驱动包（submit提交时通过参数指定）的方式进行解决，但通过网上查到的方式，似乎有的可以有的不行，而我们这的生产环境又不让做任何尝试性的测试操作（很扯dan）。由于不能百分百的确定可以，所以这种方式打算暂时放弃。后来想了想干脆直接把mysql驱动包放到${SPARK_HOME}/jars目录下得了，这样在运行时肯定是会被加载到的。结果自然是可以运行了，但是对于源代码运行异常，还得需要进一步排查。

第二天到公司后，在测试环境开始分析可以运行的原因，最后发现测试环境每台服务器 ${JAVA_HOME}/jre/lib/ext 目录下都存在 mysql-jdbc 的驱动包（不知道哪位大佬先前埋下的坑，目前也无从查起），把驱动包手动移除之后再重新跑Spark任务，也开始报和生产一样的错，而生产环境后来检查了环境之后，发现JAVA_HOME目录下是没有这个包的。所以就可以解释生产异常而测试通过了。

环境不一致归不一致，但是理论上项目中已经加载了mysql驱动的依赖，并且也确定发版后驱动包也包含在内，那么还出现运行时加载异常的问题，就大致可以定位以下两种情况：

读取mysql部分的代码问题（代码中未明确指定Driver）
spark-submit脚本提交任务时参数（jar包加载）问题

Spark on yarn加载的jar

在进行试验之前先了解下 spark on yarn 运行时会加载的jar包：

spark-submit中指定的–jars
$SPARK_HOME/jars下的jar包
yarn提供的jar包
spark-submit通过参数spark.driver/executor.extraClassPath指定的jar包

spark-submit中指定jar

当使用如下的脚本提交应用时，会将应用本身的jar以及–jar指定的jar包上传到集群中。

./bin/spark-submit \
 --class org.apache.spark.examples.SparkPi \ 
 --jars a.jar,b.jar,c.jar \
 http://path/to/examples.jar \

–jar是以逗号分隔的jar包列表，不支持直接使用目录。
–jar上传的包会包含在Driver和Executor的classpath中

$SPARK_HOME/jars下的jar包

提交应用时，会将$SPARK_HOME/jars下的所有jar包打成一个zip包，上传到集群中。“打zip上传”这个操作会在每次提交应用时执行，会有一点的性能损耗。

yarn提供的jar包

在yarn-site.xml中会配置yarn.application.classpath，包含hadoop相关的一些包，这些包也会在应用提交的时候被加载。

<property>
	<name>yarn.application.classpath</name>
	<value>$HADOOP_CLIENT_CONF_DIR,$HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,$HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*,$HADOOP_YARN_HOME/*,$HADOOP_YARN_HOME/lib/*</value>
</property>

通过参数指定的jar包

spark.executor.extraClassPath #显式地将jar包注册到executor的classpath中
spark.driver.extraClassPath #与executor配置项同理
spark.driver.userClassPathFirst=true
spark.executor.userClassPathFirst=true

通过extraClassPath指定jar包的方式和之前通过 --jars 差不多，只不过extraClassPath可以通过指定目录的方式来指定,如/cdh/jars/*。
另外extraClassPath可以通过配置userClassPathFirst来保证用户指定的jar包先被加载，这在解决冲突时是作用很大的。

实验测试结果

在明确了上一部分的各种加载方式之后，针对驱动包的加载进行了测试，其结果如下：

spark-submit主要测试参数

--jars ${jdbcpath}
--driver-class-path ${jdbcpath}
--conf spark.driver.extraClassPath=${jdbcpath}
--conf spark.executor.extraClassPath=${jdbcpath}

代码读取mysql数据库

val url: String = "jdbc:mysql://IP:port/dbName"
val userPass: String = "user=xxx&password=xxx"

//方式一：不显示指定Driver
spark.read.jdbc(s"$url?$userPass", "tableName", new Properties())

//方式二
val properties: Properties = new Properties()
properties.put("driver", "com.mysql.jdbc.Driver")
properties.put("user", "xxx")
properties.put("password", "xxx")
spark.read.jdbc(url, "tableName", properties)

//方式三
spark.read.format("jdbc")
  .option("url", url)
  .option("driver", "com.mysql.jdbc.Driver")
  .option("user", "xxx")
  .option("password", "xxx")
  .option("dbtable", "tableName")
  .load()

最终测试结论

1. 驱动放入 SPARK_HOME/jars 或者 JAVA_HOME/jre/lib/ext 目录
不用重启任何服务，代码中不显示指定Driver，且spark-submit不用额外指定任何参数可以运行；
但不建议将驱动包放至JAVA_HOME中，避免引起较为严重的冲突问题。

2. 代码中指定Driver
spark on yarn client 和 cluster 模式提交任务均可运行成功，且spark-submit中无需额外指定驱动包相关路径参数。

3. 代码中不指定Driver
1) client模式提交

spark-submit提交需要显示指定以下参数，jdbcpath需设置为本地路径
--driver-class-path ${jdbcpath}
或
--jars ${jdbcpath}
--conf spark.driver.extraClassPath=${jdbcpath}
--conf spark.executor.extraClassPath=${jdbcpath}

jdbcpath 为 HDFS路径时 或 其它参数情况运行报错：java.sql.SQLException: No suitable driver

2) cluster模式提交

spark-submit提交指定以下参数，jdbcpath需设置为HDFS路径
--driver-class-path ${jdbcpath}
或
--jars ${jdbcpath}
--conf spark.driver.extraClassPath=${jdbcpath}
--conf spark.executor.extraClassPath=${jdbcpath}

jdbcpath 为 本地路径时 或 其它参数情况运行报错，YARN上报错日志：
Diagnostics:  User class threw exception: java.sql.SQLException: No suitable driver

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-09-03 11:59:18 更:2021-09-03 11:59:34

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/13 4:14:01-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码