记录一下自己花了一下午时间在pyspark读取minio数据文件遇到的坑

因为spark没法直接进行像pd.read_csv一样对HTTPresponse的url的读取，但是minio支持s3的接口，所以按照对于s3的读取就ok了。

spark读取s3文件时，需要两个额外的jar外部依赖包，hadoop-aws.jar 和aws-java-sdk.jar ，同时这两个版本是需要对应的。并且要确保hadoop-common和hadoop-aws的版本必须一致，否则会出现org/apache/hadoop/fs/StreamCapabilities的报错。
我使用的版本

我使用的版本

pyspark读取s3上的文件代码如下`

   AWS_ID = 'admin'
   AWS_KEY = 'admin'
   sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", AWS_ID)
   sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key",AWS_KEY)
   sc._jsc.hadoopConfiguration().set("fs.s3a.endpoint", "http://端口")
   df = spark.read.format('csv').load("s3a://minio路径.csv)
   df.show()

参考：

[1]https://hadoop.apache.org/docs/current3/hadoopaws/tools/hadoop-aws/index.html#Getting_Started
[2]https://blog.csdn.net/helloword4217/article/details/99691961
[3] https://blog.csdn.net/hzy459176895/article/details/83616465
[4]https://stackoverflow.com/questions/52310416/noclassdeffounderror-org-apache-hadoop-fs-streamcapabilities-while-reading-s3-d

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-08-11 12:28:56 更:2021-08-11 12:30:59

360图书馆购物三丰科技阅读网日历万年历 2025年12日历

-2025/12/1 0:10:41-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码