数据仓库和技术
首先对于数仓我们应该知道,相比较于传统数据库来说,它需要的操作要相对简单一些,在数仓中没有联机更新数据的需要,只有一些非常少的锁定需要 然后了解一下数据仓库都有什么需求
1、管理大量的数据
对于数仓而言,最本质的特点就是管理大数据量的数据,传统数据库一张表可能记录十万百万条数据,而数仓中一张hive表在TB级别是允许的 在谈及到数据仓库的时候,技术和效率是我们要考虑的,除此存储和处理的开销我们同样需要考虑
2、管理多介质
数仓的多种存储介质,不仅体现在DASA,同时服务器、日志等等介质 一个满载的数据仓库应该是存放在多种存储层次上
3、索引监视数据
对于数据的访问具有不确定性,不知道查找的数据存放在数仓的哪里 数仓的关键也在可以灵活的和对数据的不可预测的访问,这能够实现数仓的快速方便的访问数据 实现方式也有很多,比如双重粒度、数据分割、索引等等
4、多种技术的接口
可以通过多种技术接口获取和传输数据 接口不仅要高效,还要能够方便使用
5、数据存放位置的控制
6、数据的并行存储管理
并行存储可以提高数据仓库的存储效率
7、元数据管理
有关数据的数据,可以记录表的结构,表的属性,库的数据源,前世今生等等
8、语言接口
可以满足一次查询一组数据 可以满足一次查询一条数据 能够支持一个或多个索引 有sql接口 能够插入、修改、删除数据
9、高效装入
10、高效索引的利用
多级索引 映像的方法 将部分或全部索引装入内存 创建选择索引或范围索引
11、数据压缩
大数据量的入库出库,带来了过多的磁盘io,计算机的io资源比cpu资源少的多 常用的压缩算法也有很多,比如bzip、lzo、snap
12、加锁管理
和传统数据库的加锁操作很相似了,为了保证两个或两个以上的用户对同一个数据进行修改 但是又有很多不同,因为在数据仓库中很少涉及到更新,过多的依赖锁会造成资源浪费和运行代价,但是还是要仔细的设计锁结构
13、快速恢复
当可以从二级存储设备上恢复时,就可能节约大量开支。 如果没有能从二级存储设备上快速恢复的能力,通常的做法是将 DASD的数目增加一倍,然后将增加出的数目作为恢复/复原的存储区、
14、多维DBMS和数据仓库
多维数据库管理系统也称作是数据集市,可以看作是小型的数据仓库,数仓面向的是全面数据,而数据集市更像是一种面向单个主题或单个领域的小型数据仓库 相比较,数据集市的主题更细化,数据量更小
15、数据仓库的元数据
|