IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 使用waterdrop将kudu数据抽取到clickhouse -> 正文阅读

[大数据]使用waterdrop将kudu数据抽取到clickhouse

1.waterdrop下载

下载链接:https://github.com/InterestingLab/waterdrop/releases
在这里插入图片描述
根据waterdrop官网提示:我本地测试环境spark版本是2.4.8,waterdrop版本是1.5.1。

先解压缩:tar -zxvf waterdrop-1.5.1.zip -C /opt/
然后修改配置文件:vim /opt/waterdrop-1.5.1/config/waterdrop-env.sh
# 添加spark执行环境
SPARK_HOME=/opt/spark-2.4.8-bin-hadoop2.7

2.kudu数据准备

kudu表结构如下图所示:
在这里插入图片描述

3.clickhouse建表

CREATE TABLE test.user_info
(
    `id` String,
    `name` String,
    `sex` String,
    `city` String,
    `occupation` String,
    `tel` String,
    `fixPhoneNum` String,
    `bankName` String,
    `address` String,
    `marriage` String,
    `childNum` String
)
ENGINE = MergeTree
ORDER BY id;

4.配置文件

spark {
  #程序名称
  spark.app.name = "Waterdrop"
  #executor的数量(数据量大可以适当增大)
  spark.executor.instances = 1
  #每个excutor核数(并行度,数据量大可以适当增大到服务器核数一半以下,尽量不要影响clickhouse)
  spark.executor.cores = 1
  #每个excutor内存(不能小于512m)
  spark.executor.memory = "1g"
}
 
input {
 kudu{
   kudu_master="node04:7051"
   kudu_table="user_info"
 
  #输出中需要指定sourcex_table_name="kudu_source"
   result_table_name="user_info"
 }
}
 
filter {
}
 
output {
 
 clickhouse {
 
  #指定从哪个源临时表输出
    source_table_name="user_info"
    host = "node04:8123"
    clickhouse.socket_timeout = 50000
    database = "test"
    table = "user_info"
    fields = ["id","name","sex","city","occupation","tel","fixPhoneNum","bankName","address","marriage","childNum"]
    username = ""
    password = ""
    bulk_size = 20000
}
}

5.效果展示

启动任务:/opt/waterdrop-1.5.1/bin/start-waterdrop.sh --master local[1] --deploy-mode client --config /opt/waterdrop-1.5.1/config/kudu2clickhouse.conf

查询clickhouse表:select * from test.user_info;
在这里插入图片描述

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-31 16:42:40  更:2021-07-31 16:44:58 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/4 14:26:32-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码