数据仓库
数据仓库是==决策支持系统(dss)和联机分析应用数据源的结构化数据环境。==数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 特点:数据仓库是面向主题的,是集成的,是不可更新的,随时间而变化的,但当有了稳定的数据以只读格式保存,且不随时间改变。数据仓库是汇总的,容量大,非规范化的,元数据,数据源。 数据仓库往往有如下几点特点:
- 效率足够高
- 数据质量
- 扩展性
- 面向主题
数据湖
数据湖还有以下特点:
- 从源系统导入所有的数据,没有数据流失。
- 数据存储时没有经过转换或只是简单的处理。
- 数据转换和定义schema 用于满足分析需求。
数据集市
数据集市可以理解为是一种"小型数据仓库",它只包含单个主题,且关注范围也非全局。数据集市可以分为两种:
- 一种是独立数据集市,这类数据集市有自己的源数据库和ETL架构;
- 另一种是非独立数据集市,这种数据集市没有自己的源系统,它的数据来自数据仓库。当用户或者应用程序不需要/不必要/不允许用到整个数据仓库的数据时,非独立数据集市就可以简单为用户提供一个数据仓库的子集。
数据集市是一个结构概念,它是企业级数据仓库的一个子集,主要面向部门级业务,并且只面向某个特定的主题。
|