IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> ETL VS ELT -> 正文阅读

[大数据]ETL VS ELT


ETL和ELT是两种数据集成方法,它们主要的任务就是将数据从一个地方转移到另一个地方。两者最大的区别是:ETL在转移之前会对数据进行转换;而ELT是在转移之后再进行数据转换。

ETL是一种存在已久的技术,而ELT则是伴随云数据库兴起的一种较为新的技术。

什么是ETL

ETL是 extract、 transform 和 load三个单词的缩写,它代表一种数据集成过程,属于方法学;它将来自多个数据源的数据组合成一个单一的、一致的数据存储,并将其加载到数据仓库或其他目标系统中。

ETL为数据分析和机器学习提供了基础。通过一系列业务规则,ETL以满足特定业务需求的方式清理和组织数据,比如月度报告,另外它还可以处理更高级的分析,这可以改善后续流程或用户体验。ETL的工作流程一般包含以下三个步骤

  • 提取数据
  • 清洗数据
  • 导入数据

ETL vs ELT

以OLAP系统为例,在线分析系统一般使用的都是关系型数据库,需要结构化的数据,此时就需要ETL处理程序来对源头数据进行清洗,对不合格的数据进行转换,然后再将数据导入OLAP系统中。

什么是ELT

ETL process explained

ELT是直接将原始数据导入目标数据库中,在这个过程中并不需要经过转换。

对于ELT来说,数据清洗、加工以及转换都发生在目标数据库内部。ELT适用于使用了云数据仓库的体系,例如,常见的云端数据仓库:

这些仓库都内置了各种数据处理程序,方便对导入的原始数据进行处理转化。

ETL vs ELT

ETL和ELT之间最明显的区别是操作顺序的不同。ELT从源位置复制或导出数据,但不是将其加载到暂存区域进行转换,而是将原始数据直接加载到目标数据库中,由目标数据库根据需要进行转换:

  • ETL在一个独立的服务器上对原始数据进行转换;而ELT在目标数据仓库内部进行数据转换
  • ETL不会把原始数据传输到目标数据库;而ELT中,目标数据库直接接受原始数据

ELT保留原始数据集,而ETL则相反;对于非结构化数据的处理,ELT更有优势,因为它提供了很多在这方面的工具。

在安全和隐私方面,ETL则相对有一定的优势,因为它在将数据传输到目标数据前可以对数据进行一定的处理,例如加密,脱敏等;而ELT传输的是原始数据,有一定的安全风险。

项目ETLELT
定义从上游系统提取数据,在另一个独立的系统上对数据进行转换,最后将转换后的数据导入下游系统从上游系统提取数据,直接将数据导入下游系统,在下游系统内部对数据进行转换
速度较为耗时更快,数据导入和转换可以并行进行
维护独立的转换系统增加了维护成本系统数量更少,维护成本降低
隐私较强
输出结构化的数据结构化、半结构化、非结构数据
数据量适合需要经过复杂转换的小数据集适合对时效性要求比较强的大数据集

相关框架-kestra介绍

  • Github地址:https://github.com/kestra-io/kestra
  • Demo演示:https://demo.kestra.io/

kestra是一个任务调度平台,同时具有ETL和ELT的特性,它提供丰富的插件以及自定义插件等功能,可以适配各类复杂的场景。

参考

  1. https://www.ibm.com/cloud/learn/etl
  2. https://rivery.io/blog/etl-vs-elt/
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-10-31 12:04:09  更:2022-10-31 12:07:00 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 10:44:39-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码