[数据结构与算法] kafka的数据结构和算法

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 数据结构与算法 -> kafka的数据结构和算法 -> 正文阅读

[数据结构与算法]kafka的数据结构和算法

文章目录

1.第一次分治

kafka通过topic给用户提供数据的读写，对于不同的业务来说，可以定义不同的topic来达到数据分治的目的，不同的业务写入或者读取不同的topic，且不同的topic会尽可能分散在不同的broker中，提高数据的IO效率。

在这里插入图片描述

虽然kafka没有限制topic的个数，但是也不要盲目多建，因为越多的topic，代表着越多的数据存储单元，容易导致同一个topic的数据在磁盘存储位置的不连续，从而降低数据读写的IO。

2.第二次分治

对于kafka的topic，我们在创建之初可以设置多个partition来存放数据，对于同一个topic的数据，每条数据的key通过哈希取模被路由到不同的partition中（如果没有设置key，则根据消息本身取模），以此达到分治的目的。

在这里插入图片描述
同样，对于每个topic的partition数量来说，也不宜过多，因为partition是kafka管理数据的基本逻辑组织单元，越多的partition意味着越多的数据存储文件（一个partition对应至少3个数据文件），同样容易隔断磁盘数据的连续性，影响数据读写的IO性能。
另外，过多的partition还会导致broker的操作系统内存OOM，即每一个partition文件至少对应2个索引文件(至少1个.index文件和1个.indextime文件)，而索引文件是需要常驻内存的，因此partition数量不宜过多。

3.第三次分治

索引+分治:

即原本一个partition对应一个文件的情况，变成了一个partition对应多个不同类型的文件，kafka将文件根据不同的功能分成了3大类：

在这里插入图片描述

.index文件：offset索引文件，用来记录log文件中真实消息的相对偏移量和物理位置，为了减少索引文件的大小，这里用了一种比较聪明的做法，叫稀疏索引，即只记录相对offset的范围段（后文详细说明），可用于快速定位目标offset的消息；
.timeindex文件：时间索引文件，类比.index文件，用来记录log文件中真实消息写入的时间情况，跟offset索引文件功能一样，只不过这个以时间作为索引，用来快速定位目标时间点的数据；
.log文件：用来记录producer写入的真实消息，即消息体本身；