环境准备

            Maven 版本： 3.5.4
            Scala 版本 ： 2.11.12 
            Spark版本： 2.4.0
            Hadoop版本： 3.0.0 
            carbondata 2.3.0 （当前最新）

源码修改

1: 将源码中的files.toArray 改为 files.toSeq 否则编译报错

 polymorphic expression cannot be instantiated to expected type

  def createFilePartition(index: Int, files: ArrayBuffer[PartitionedFile]): FilePartition = {
      FilePartition(index, files.toSeq)
  }

2: 编译spark的时由于将pom文件仓库改为了cloudrea 的仓库编译时有一个类找不到

org.apache.spark.sql.execution.datasources.orc.OrcFileFormat

OrcFileFormat 在原生spark-sql依赖中有该类在spark-sql-cdh6.3.2中没有
3: 编译hive模块时由于将pom文件仓库改为了cloudrea 的仓库编译时有一个类找不到

   org.apache.hadoop.hive.ql.metadata.StorageHandlerInfo

StorageHandlerInfo 类在原生hive-exce 依赖而在hive-exce-cdh6.3.2中找不到该类
4: 编译时遇到findbugs-maven-plugin插件的问题：

 Failed to execute goal org.codehaus.mojo:findbugs-maven-plugin:3.0.4:check (analyze-compile) on project carbondata-core: failed with 1 bugs and 0 errors

解决方案：
1: 将 maven-duplicate-finder-plugin 插件的版本设置为1.0.9
2: 将findbugs-maven-plugin 插件的阈值改为 High
在这里插入图片描述
5:Carbon-processing模块报错
解决方案：添加依赖

<dependency>
  <groupId>org.apache.htrace</groupId>
  <artifactId>htrace-core</artifactId>
  <version>3.1.0-incubating</version>
</dependency>

6: 找到hive-jdbc 依赖添加exclusion

<exclusions>
    <exclusion>
        <groupId>org.glassfish</groupId>
        <artifactId>javax.el</artifactId>
    </exclusion>
    <exclusion>
        <groupId>org.eclipse.jetty</groupId>
        <artifactId>jetty-runner</artifactId>
    </exclusion>
</exclusions>

编译

mvn  -DskipTests -Pspark-2.4 clean package

编译后产生的jar包路径

在这里插入图片描述

cdh hive集成 carbondata

     1: 第一步 ：将编译后产生的jar包放到hive auxlibs  目录中  并将 spark  jars 目录 中的spark-catalyst*.jar 和  scala*.jar  也复制到 hive auxlibs 目录中 
     (hive auxlibs 目录可以在cdh cm-web 控制台中找到）
     2: 复制编译后产生的jar包 放到 hive/lib/  和yarn/lib/ 
     
     第二步：修改hive-site.xml 配置

          在cm-web管理界面找到hive-site.xml 并添加如下的配置

 <property>
  <name>hive.metastore.pre.event.listeners</name>
  <value>org.apache.carbondata.hive.CarbonHiveMetastoreListener</value>
</property>

编译后的源码地址：

https://github.com/liutaobigdata/cdh_integrate_carbondata2.3

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2022-06-26 16:58:01 更:2022-06-26 16:59:23

360图书馆购物三丰科技阅读网日历万年历 2025年12日历

-2025/12/1 21:53:51-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码