摘录&总结于《华为数据之道》——华为公司数据管理部
元数据
Meta Data元数据是描述数据的数据,是数据体系中所是用的物理数据、技术和业务流程、数据规则,以及数据的物理与逻辑结构的信息。
同时,元数据可以被视作一种描述性标签,描述了数据(如数据库、数据仓库、数据模型、数据要素)、相关概念(如业务流程、应用系统、代码、技术架构)以及他们之间的联系。
华为将元数据治理贯穿整个数据价值流,覆盖了数据体系的全生命周期。 数据产生——>数据集成——>数据加工——>数据消费
作为描述数据的数据,元数据在治理、权限控制、影响分析等方面拥有着很大的应用,因此在各个业务线会依赖自建的元数据进行应用探索,在没有集中管控时这会导致元数据以数据烟囱的形式存在,易导致以下问题:
- 找不到:IT系统多且杂,没有数据集成整合的前瞻工作,导致无数可用
- 读不懂:业务层和技术层脱离,缺乏可解释性
- 不可信:元数据分散自建,一数多源,往往同一数据拥有各不相同的版本,不知如何去使用
这三个问题给数字化转型带来了极大的阻碍,其本质原因就是业务元数据&技术元数据的割裂,业务无法理解物理层数据,技术无法了解业务的实际数据需求。两者的协同强依赖于技术的人工翻译,导致协同成本很高,这是元数据管理的最大痛点。
华为依赖公司级的元数据管理机制来解决以上问题,确保『入湖有依据,出湖可检索』
元数据分类
元数据可以分类以下3类:
- 业务元数据:数据的业务视角描述,包括数据体系、表owner、表字段含义等
- 技术元数据:数据开发时是用的数据,如ETL规则,集成关系等
- 操作元数据:数据处理、数据访问、计算调度等日志
元数据可以作用到整个数据价值流上,自上而下为:
- 数据消费侧、数据服务侧、数据主题侧、数据湖侧、数据源侧
元数据管理
元数据管理架构包括产生元数据、采集元数据、注册元数据和运维元数据。
- 产生元数据:制定元数据管理相关流程与规范的落地方案,在IT产品开发过程中实现业务元数据与技术元数据的连接。
- 采集元数据:通过统一的元模型从各类IT系统中自动采集元数据。
- 元数据来源有:关系数据库、建模工具、数据集成工具、BI报表工具、调度工具、开发语言和脚本等
- 采集分为3步:选择适配器和元模型、配置数据源、配置采集任务
- 注册元数据:基于增量与存量两种场景,制定元数据注册方法,完成底座元数据注册工作。
- 需要有标准的元数据注册规范和统一的元数据注册方法,以实现增量、存量场景下业务元数据与技术元数据的高效连接
- 注册原则:责任到owner,按需注册,内部公开
- 注册模式:一对一模式、主从模式、主扩模式、父子模式
- 运维元数据:打造公司元数据中心,管理元数据产生、采集、注册的全过程,实现元数据运维。
- 描述元数据的数据,用于对元数据分析,发现数据注册、设计、使用现状&问题,确保完整性和准确性,同时可以反向校验架构设计与落地情况,起到了数据建设的监控作用
- 元数据管理方案:通过制定元数据标准、规范、平台与管控机制,建立企业级元数据管理体系,并推动其在公司各领域落地,支撑数据底座建设与数字化运营。
总结
数据可用的前提是质量过关,元数据也不例外。这种强管控、全链路、一点采集多方共用的管理方案大大降低了质量保障的落地难度,是十分值得借鉴的。但是实施起来需要自上而下的推动才可以落实,典型的短期协同换长效益。
|