[大数据] Python Spark+hadoop安装配置及安装包

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Python Spark+hadoop安装配置及安装包 -> 正文阅读

[大数据]Python Spark+hadoop安装配置及安装包

                        **Python Spark+hadoop安装配置及安装包**
最近有用到python的spark框架，所以和大家来聊聊这些配置安装方面的问题，后期会更新spark方面的知识。
我采用的spark版本是spark-3.0.3-bin-hadoop2.7
hadoop的版本是hadoop-2.8.3
废话不多说，先直接贴下载地址
我的百度云链接链接：https://pan.baidu.com/s/1z4a4J1D01Clbeoy5NRKCQQ 
提取码：krqi

永久有效，无效可私聊本人

前提：jdk8的配置安装，这里我就不多做描述了，大家可以百度看看
1.spark解压及配置
下载完以后首先将spark-3.0.3-bin-hadoop2.7解压
解压
这是在这里插入图片描述
这个是解压以后的目录
配置环境变量
新增环境变量
变量名：SPARK_HOME
变量值：D:\spark
注意，变量值是你解压后的spark的文件路径

然后需要在环境变量PATH下新增变量值

%SPARK_HOME%\bin和%SPARK_HOME%\sbin
如图
在这里插入图片描述
2.hadoop解压及配置
同理

其他的目录我删除了，我没有用到，有需要的小伙伴可以重新下载
配置
新增系统变量
变量名：HADOOP_HOME
变量值：D:\hadoop\hadoop-2.7.3
变量值是解压以后的hadoop地址
同理Path下也需要进行配置
在这里插入图片描述
sbin目录没有可以不进行配置
做到这里其实差不多配置好了
但是我发现启动python脚本的时候发现有报错
报错的原因是因为pycharm找不到spark的位置，需要初始化
有两种结局方式
方式1：
在脚本上面加这两句
import findspark
findspark.init()