IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 使用 DataEase 内置的 Kettle 进行数据清洗 -> 正文阅读

[大数据]使用 DataEase 内置的 Kettle 进行数据清洗

安装使用背景:

由于公司进行对数据进行分析,我是从 2021 年 12 月份开始接触到 DataEase,其官方介绍 DataEase 是一款人人可用的数据可视化分析工具,可帮助用户快速分享数据并洞察业务趋势,从而实现业务的改进与优化。

DataEase 支持丰富的数据源链接,能够通过拖拉拽快速制作图表,并方便与他人进行分享。

安装准备:

从官网了解到 DetaEase 是以 Docker 的方式运行安装的,刚好自己也有了解到 Docker 相关的知识。??

安装完毕的截图如下:

默认映射了服务的 80 端口和 MySQL 的 3306 端口

但是 kettle 和 Doris 的端口没有映射出来,从官网的说明中我们看到 docker-compose 文件的相关目录:

我将 Doris 的 9030 和 8030? 端口映射,修改 /opt/dataease/docker-compose-doris.yml 和 /opt/dataease/docker-compose-kettle.yml 文件,修改后的内容如下:

version: '2.1'
services:

  doris-fe:
    image: registry.cn-qingdao.aliyuncs.com/dataease/doris:v1.0.0-0424
    container_name: doris-fe
    environment:
      - DORIS_ROLE=fe-leader
    volumes:
      - ${DE_BASE}/dataease/data/fe:/opt/doris/fe/doris-meta
      - ${DE_BASE}/dataease/logs/fe:/opt/doris/fe/log
      - ${DE_BASE}/dataease/conf/fe.conf:/opt/doris/fe/conf/fe.conf
      - ${DE_BASE}/dataease/bin/doris:/docker-entrypoint-initdb.d/
    ports:
      - 9030:9030
      - 8030:8030
    networks:
      dataease-network :
        ipv4_address: ${DE_DORIS_FE_IP}
    restart: always
    depends_on:
      doris-be:
        condition: service_healthy
    healthcheck:
      test: [ "CMD-SHELL", "curl -sS 127.0.0.1:8030 || exit 1" ]
      interval: 10s
      timeout: 5s
      retries: 3

  doris-be:
    image: registry.cn-qingdao.aliyuncs.com/dataease/doris:v1.0.0-0424
    container_name: doris-be
    environment:
      - DORIS_ROLE=be
    volumes:
      - ${DE_BASE}/dataease/data/be:/opt/doris/be/storage
      - ${DE_BASE}/dataease/logs/be:/opt/doris/be/log
      - ${DE_BASE}/dataease/conf/be.conf:/opt/doris/be/conf/be.conf
    networks:
      dataease-network :
        ipv4_address: ${DE_DORIS_BE_IP}
    restart: always
    healthcheck:
      test: [ "CMD-SHELL", "curl -sS 127.0.0.1:8040 || exit 1" ]
      interval: 10s
      timeout: 5s
      retries: 3
version: '2.1'
services:

  kettle:
    image: registry.cn-qingdao.aliyuncs.com/dataease/kettle:v8.3-0318
    container_name: kettle
    environment:
      - PENTAHO_DI_JAVA_OPTIONS=-Xms1024m -Xmx4096m -XX:MaxPermSize=256m -Dfile.encoding=utf-8
    volumes:
      - ${DE_BASE}/dataease/conf/:/opt/dataease/conf
      - ${DE_BASE}/dataease/data/kettle:/opt/dataease/data/kettle
    ports:
      - 18080:18080
    networks:
      - dataease-network
    restart: always

官方自带了 dectl 运维工具

?执行 dectl reload 重新加载 docker-compose 文件:

此时 kettle 和 Doris 的端口已经暴露出来了。

我在 kettle 中文网已经下载 kettle 并安装在本地。可参考??????Kettle中文网 – Kettle安装、Kettle使用、Kettle中文?进行下载安装

因为 DataEase 本地模式自带 Kettle,可使用以下命令直接从镜像里拷贝

 docker cp -a kettle:/opt/kettle /root/kettle && zip -r kettle.zip kettle

我是 windows 系统,将文件拷贝到 windows 点击以下图标直接打开

下面我们来编辑一个作业:

数据准备:

济南市公共数据开放网 (jinan.gov.cn)

原始数据:

我们需要对这两列数据进行处理,将每路的 GPS 定位的经纬度生成一个字段

转换文件:

清洗后的数据如下:

最终的展示效果如下:

?

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-06-25 18:11:43  更:2022-06-25 18:14:07 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 21:36:20-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码