[大数据] 【Spark案例】本地访问cdh集群不将配置文件放入resource目录方式

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 【Spark案例】本地访问cdh集群不将配置文件放入resource目录方式 -> 正文阅读

[大数据]【Spark案例】本地访问cdh集群不将配置文件放入resource目录方式

【Spark案例】本地访问cdh集群不将配置文件放入resource目录方式

背景故事

今天我领导，他想用pyspark连接集群中的hive，作数据分析用。于是这变成了一个在本地集群中如何访问远程集群的问题。
在python环境中使用pyspark构建sparkSession的过程当中，config参数选项里面配置了一个hive.metastore.uris的时候，sparkSession能够访问hive的数据库，及表信息。但是读取数据的时候会发生报错。

问题分析

在java中

如果是maven构建的java项目当中，使用spark远程连接集群的话，需要在项目中的resource文件目录下面将hadoop的配置文件如hdfs-site.xml,core-site.xml,mapred-site.xml,yarn-site.xml文件放置进resource目录中。接下来运行的时候，maven会将这些配置文件打包到classpath中。然后源代码中，就会加载这些配置文件，相关的代码如下：
代码路径：org/apache/hadoop/conf/Configuration.java
在这里插入图片描述

在python中

那么python中没有似乎没有resource文件夹，好像也不能像java一样package，那么我们如何做呢？
我们将里面这些xml里面的配置文件，用文本编辑器打开。提取出所有的键值对，然后在启动sparkSession的时候调用config(key,value)添加这些键值对，在每个键的前面加上spark.hadoop前缀，该代码写在这里：
代码路径：org/apache/spark/deploy/SparkHadoopUtil.scala
在这里插入图片描述
返回来的SparkSession就可以访问正常调用sql方法访问数据啦。