什么是ETL
ETL是一个数据管道,负责将分布的、异构的数据(Extract阶段)根据一定的业务规则进行数据清洗、转换、集成(Transform阶段),最终将处理后的数据加载到数据目的地(Load阶段),比如数据仓库。
数据抽取需要注意的点有哪些?
检查数据类型; 确保数据完整; 去除重复数据; 去除脏数据; 确保导出数据属性与源数据一致
数据抽取有哪几种方式
更新抽取 当源系统中有新的数据加入或发生数据更新操作时,系统会发出提醒。这是最简单的一种数据抽取方式。 全量抽取 当数据源中有新的数据加入或发生数据更新操作时,系统不会发出提醒。此时可以采用全量抽取。全量抽取类似于数据迁移或数据复制。它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。全量抽取比较简单,一般只在系统初始化时使用,全量一次后,就要每天采用增量抽取。 增量抽取 当数据源中有新的数据加入或发生数据更新操作时,系统不会发出提醒,但可以识别出更新的数据,此时可以采用增量抽取。增量抽取只抽取自上次抽取以来数据库表中新增或者修改的数据。在ETL中,增量抽取使用更加广泛。
数据加载有哪些方式
全量加载 Full Load 全表清空后再进行数据加载。 从技术角度上说,比增量加载简单。一般只需在数据加载之前,清空目标表,再全量导入源表数据即可。但当源数据量较大 、业务实时性较高时,大批量的数据无法在短时间内加载成功,此时需要与增量加载结合使用。 增量加载 Incremental Load 目标表仅更新源表中变化的数据。 增量加载难度在于更新数据的定位,必须设计明确的规则从数据源中抽取信息发生变化的的数据,并将这些变化的数据在完成相应的逻辑转换后更新到数据目的地中。
增量加载具体有哪些形式
系统日志分析方式 触发器方式 时间戳方式 全表比对方式 增量数据直接或转换后加载
加载方式好坏的评判标准有哪些
可按频率准确地捕获业务系统中的变化数据。 尽量降低对业务系统造成的压力,及对现有业务的影响。 能够很好的实现属性映射。 可快速恢复或回滚数据。
相比较ETL,ELT有哪些优点?
简化ETL架构。数据抽取后无需使用单独的转换引擎,数据转换和消耗在同一个地方。 降低抽取的时间和性能开销。在实际应用中,不同的业务对数据要求存在差异,需要对同一组数据做不同的转换操作。ETL需要多次抽取、转换、加载,而ELT能实现一次抽取、加载,多次转换,实现一份数据多次应用,降低时间和资源开销。
|