1、DataWorks概念
DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,提供了数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务和一站式开发管理的界面。
DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,提供专业高效、安全可靠的一站式大数据开发和治理的平台,自带阿里巴巴数据中台和数据治理的最佳实践。
计算和存储主要在计算引擎上,任务的调度和开发在DataWork上。
DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。
我们可以使用DataWorks,对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其它数据系统。
2、数据开发流程
数据开发的流程如下图所示:
- 数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。
- 数据收集与存储:您需要同步不同业务系统的数据至MaxCompute中,方可通过MaxCompute的海量数据存储与处理能力分析已有的数据。DataWorks提供数据集成服务,可以支持多种数据源类型,根据预设的调度周期同步业务系统的数据至MaxCompute。
- 数据分析与处理:完成数据的同步后,可以对MaxCompute中的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。
- 数据提取:分析与处理后的结果数据,需要同步导出至业务系统,以供业务人员使用其分析的价值。
- 数据展现与分享:数据提取成功后,可以通过报表、地理信息系统等多种展现方式,展示与分享大数据分析、处理后的成果。
3、任务调度
D
Dataworks提供日千万级大规模周期性任务调度服务,支持顺序/循环/分支/跨地域依赖、节点上下文传参。
|