IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> KETTLE学习篇1 -> 正文阅读

[大数据]KETTLE学习篇1

一、Kettle简介

首先,学习Kettle前先了解一下ETL的概念;ETL是取Extract-Transform-Load的第一个首字母拼成,即指数据抽取、转换和装载的过程,日常工作上,我们经常会遇到各种数据的处理,转换,迁移,使用ETL工具就可以帮助我们解决这些数据的处理,所以了解并掌握一种ETL工具的使用是很必要的。

Kettle是一款国外开源的ETL工具,纯JAVA编写,可以在Windows、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。(题外话:当然现在有各种基于Kettle二开的版本,效率啥的都有提升,本文不涉及那些)

Kettle中文名称是水壶,Kettle的开发者希望把各种数据放在一个水壶里,然后以一种特定的格式流出,用水壶来形容真的很合适。

还有三个概念需要掌握,Kettle有两种脚本文件,transformationjob,transformation完成针对数据的基础转换,job则完成整个工作流的控制(我个人的理解就是如果把一件工作当做是做一台车的话,transformation就是轮胎,引擎,座椅等各种组成元件是怎么做成的具体流程,而job就是怎么这些元件怎么拼起来的流程)。

Spoon是构建ETL Jobs和Transformations的工具,Spoon以拖拽的方式化设计,能够通过spoon调用专用的数据集成引擎或者集群,简单来说就是让你能够图形化可视化去操作那些流程。

一开始先了解这些基础概念就行了,不然说太多晕乎乎的,反正我自己是这样。

二、Kettle下载

下载网址:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net

?????

目前最新版本已更新到9.2,选择你需要的版本下载即可

我下载的是最新版,解压之后的目录结构如下:

classes:生命周期监听、注册表拓展、日志的配置文件

Data Integration.app:数据集成应用

Data Service JDBC Driver: JDBC驱动程序的数据服务

docs:文档

launcher:Kettle的启动配置

lib:支持库jar包

libswt:Kettle图形库jar

plugins:插件

pwd:kettle集群配置文件

samples:自带例子

simple-jndi:jndi连接配置

system:系统目录

ui:软件界面

在linux系统运行点击spoon.sh,在windows系统运行点击spoon.bat文件。

?

?三、Kettle部署

1、安装JDK

从Kettle的简介可以知道Kettle是纯Java语言编写的软件,所以该软件的运行需要Java运行环境的依赖,所以第一步需要先安装JDK,先把运行环境装好。(如已经安装可忽略

安装过程双击一直下一步即可,这里不详细说明。

2、配置环境变量

安装完jdk后,配置环境变量,值分别为jdk和kettlle的安装路径,添加完成后Path里也添加一下这两个变量,如下图所示。

配置完成后,双击Spoon.bat,能正常打开就说明环境配置正确。(第一次打开比较久,耐心等下即可

?

?打开软件欢迎界面,到这一步就是已经部署好了软件了。

?四、Kettle界面简介

Kettle界面主要由这四个方面组成,分别是工具栏,工具图标,树形列表和工作区组成,这里主要知道树形列表,如果你点击转换,那么核心对象里显示的就是转换的一些相关的方法啥的,如果你点击作业也同样对应相关的内容,通过拖拽的方式将左边的方法拉到工作区,后面内容会涉及,有个大概印象就行。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-03-16 22:27:35  更:2022-03-16 22:32:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 6:49:33-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码