1.文件
- 刚有计算机的时候,数据是保存在文件中,我们在查找一个数据的时候,linux中有grep,awk等命令去查找,也可以使用java程序通过io流读取查找。
- 影响从磁盘中读取数据的因素:寻址(毫秒级别)和带宽(单位时间内有多少个字节流过去);而内存中的寻址是纳秒级别的,那么数据在内存中比在磁盘中的寻址要快10万倍。
- I/O buffer: 磁盘中有磁道和扇区,一个扇区存储512bit(字节),如果操作系统在读取数据的时候,要一个扇区一个扇区去读,成本太大,上层的索引成本变大(操作系统会准备一个索引来记录扇区地址区间);扇区越多索引越大;于是4k对其出现(一般磁盘默认格式化4k操作系统,不管读多少都是最少4k从磁盘拿数据)
**总结:**操作系统从磁盘读取数据的时候一次最少读取4k
2.数据库
按磁盘扇区存储,随着数据的变大,查询速度变慢,I/O成为瓶颈,于是数据库出现
- datepage(页–4k):数据库行级存储,例如一个表中的10万行数据就散在很多个4k的小格子里,每个4k小格子都有自己的编号;每次读取小格子的数据时正好和磁盘一次I/O的数据量相符,这样不会浪费I/O, 如果每个小格子是1k,那么一次磁盘I/O还是4k,就会造成I/O浪费;但是在查找数据的时候仍然是先把第一个4k读到内存,挨个去找,走的还是全量I/O; 表的数据变大,速度仍然很慢。于是数据的索引出现
- 索引: 索引也是一笔数据,采用的也是4k存储模型;4k里面放的是某一列,比如年龄这一列,这里面的每一个年龄都有一个标记用来记录这个年龄在哪一个datapage中;这样检索的时候先通索引查找到对应的datapage 然后在在datapage中查到对应的数据;避免了全量I/O。
- 约束:表中的每一个字段都有一个约束,用来说明该字段在datapage里的存储空间,即使在插入一条数据的时候有些字段没有给出值,在datapage中也会把字段需要的空间开辟出来(占位),占位的好处是未来对这条数据进行修改的时候,避免了移动数据,直接进行复写就可以了;
总结:数据库的表如果很大,建立索引后,检索速度和性能会提高吗? 如果是增删改性能降低,每次操作需要修改或者调整索引的位置,维护索引导致性能降低; 查询速度:1.并发量大的时候,检索速度会变慢,因为数据量变大,查询过程中就不是要获取一个datapage到内存中,数据量越大,读取到内存中的4k数量就越多,但是内存读取4k是挨个读取的,所以后面的就需要等待,导致查询变慢4.
3.内存存储
将数据全部存储到内存中,速度快,体积小(数据存储在内存中无需索引和指针),但是成本太贵,数据库代表SAP公司的HAHA数据库
4.缓冲
部分数据存储在内存中,磁盘仍然作为主存储区域;代表redis 附加:数据库系统对比排名和数据库系统说明:https://db-engines.com/en/
|