| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> DataWorks概述 -> 正文阅读 |
|
[大数据]DataWorks概述 |
文章目录一、DataWorks概况1.1 定义DataWorks 是基于MaxCompute计算引擎的一站式开发工场,帮助企业快速完成数据集成、开发、治理、质量、安全等全套数据研发工作。 1.2 功能1.数据集成 能够支持多种异构数据源之间数据高速稳定的数据移动及数据同步。 2.可视化数据开发 帮助用户获得更加清晰的开发逻辑,SQL智能编辑器能够带来更人性化的开发体验,可视化开发界面,简单易上手。 3.强大调度功能 支持根据时间、依赖关系,进行任务触发的机制; 支持每日千万级别的任务,根据DAG关系准确、准时地运行; 支持分钟、小时、天、周和月多种调度周期配置。 4.数据服务 帮助用户实现数据API快速生成和注册服务。 5.可视化运维 提供上下游关系梳理、运行日志、补数据等完善的任务运维。 6.数据资产管理 包括元数据管理、数据血缘、数据资产大图等。 7.数据质量 数据质量探查、监控、校验和评分体系。 8.数据安全 数据权限管理,数据的分级达标、脱敏、以及数据的审计。 1.3 与MaxCompute的关系DataWorks就是基于MaxCompute的PaaS平台,可以简单理解为DataWorks是一个web形式的开发管理工具,而MaxCompute作为存储计算引擎,扮演了IaaS层支撑的角色。我们可以通过DataWorks来用MaxCompute。 MaxCompute 和DataWorks一起向用户提供完善的ETL和数仓管理能力,以及SQL、MR、Graph等多种经典的分布式计算模型,能够更快速地解决用户海量数据计算问题,有效降低企业成本,保障数据安全。 Maxcompute中的盘古就相当于Hadoop中的HDFS; Maxcompute中伏羲就相当于Hadoop中的Yarn; Maxcompute中MaxCompute Engine 就相当于Hadoop中的MapReduce。 二、基于DataWorks与MaxCompute构建云数仓数据采集:DataX、DataHub、RDS 数据存储与计算:MaxCompute、DataWorks 数据可视化: QuickBI 一站式大数据开发治理DataWorks学习大数据开发治理平台 DataWorks产品文档 DataWorks 是什么?DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。 DataWorks 业务构架 产品定位DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据传输、数据计算、数据治理、数据分享的各类复杂组合场景的能力。 同时,DataWorks持续打造符合企业级数仓、数据中台构建要求的功能模块,为企业业务的数字化转型提供支持。 产品受众从事数据开发、算法开发等岗位的技术人员 核心能力基于DataWorks,您可以获得如下能力:
总之,使用DataWorks,您不仅可以进行海量数据的离线加工分析,还能完成数据的汇聚集成、开发、生产调度与运维、离线与实时分析、数据质量治理与资产管理、安全审计、数据共享与服务、机器学习、应用搭建等覆盖大数据全生命周期的最佳实践。让数据从采集到展现、从分析到驱动应用得以一站式解决,真正实现数据业务化、业务数据化。 数据治理的概念、需求层次和目标对于数据治理概念的一些基本理解当我们在谈论数据治理时,经常会跟数据管理这一概念一起讨论。DataWorks设计数据治理产品功能时,参考的主要也是数据管理领域内的三大理论依据:第一个是数据管理协会知识体系,也就是大家熟知的DAMA、DMBOK2;第二个是DCMM数据管理能力成熟度评估;第三个是信通院的数据资产管理实践白皮书。 数据治理概念 从左右这两张图对比可以看出,DMBOK和DCMM对于数据管理和数据治理的范围和定义是略微有区别的。DMBOK将数据管理划分为十大职能领域,数据治理位于最中间的位置,用于串联其十大职能领域。而DCMM将数据管理定成八大过程域,数据治理是和数据质量、数据安全并列的过程域之一。显然,业界不同的组织和群体对于数据管理和数据治理概念的理解会存在一些出入。 数据治理的需求层次DAMS有这样的一个描述:在数据管理过程中,要保证一个组织已经将数据转换成有用的信息,这项工作所需要的流程和工具就是数据治理的工作。这里强调两个概念:第一,数据治理是数据管理的一部分;第二,数据治理的核心是流程和与之配套的工具的保障。DataWorks也是参考了这个定义,聚焦于保障与数据资产化配套的数据治理方面的需求来设计产品能力。当然产品能力建设也是一个逐步的过程,DataWorks的功能也在持续扩展中。 五个层次 这五个层次的需求,越下面的需求相对来说越基础,需要优先满足。但随着企业数字化转型过程的加深,上层的需求就会逐步地体现出来。阿里内部也是这样的过程,在十多年前最开始的阶段,阿里优先关注的是数据任务的运行稳定,数据能及时产出,数据是正确的、可用的。当这些需求被很好地满足和保障之后,现阶段阿里内部数据治理最关注的是金字塔顶端的需求,也就是成本的考量。 数据治理的目标在数据治理的实施策略上来说,有自下而上和自上而下两种方式。这两种方式相结合的方式在阿里内部实践验证后更行之有效。顶层用来解决全局的数据规划和组织建设,以及制度制定这些问题,为治理提供上层的赋权;而下层聚焦于核心业务流程的梳理、平台工具和运营体系的构建,为数据治理落地提供支撑。 数据治理的目标 通过自上而下和自下而上密切的结合,随后循环的演进,来进行数据治理的推动。而数据治理的需求分层,也为数据治理给出了一个启示,我们可以整体去规划数据治理的蓝图,但是需要分阶段去实施。在特定阶段,企业数据治理的诉求重点是有所区别的,建议结合企业的实际情况,关注重点层次的诉求,逐步迭代演进。 数据治理概要总结一、数据治理是数据管理的一个核心组成部分,是数据管理过程中的流程和工具的一个支撑。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/16 1:35:00- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |