Kafka

一、为什么要使用Kafka

? Kafka消费信息的offset信息是定义在Zookeeper中的，若果想要重复消费Kafka的消息，可以在redis中记录offset的checkpoint点，当想要重复消费数据的时候，通过Redis中的checkpoint点进行zookeeper的offset重新设置，这样就可以重新消费了

Kafka使用的磁盘存储。

顺序写入：硬盘的机械机构，喜欢顺序存储，使用顺序IO比较快
Memory Mapper Files（内存映射文件）：64位操作系统中一般可以表示20G的数据文件，它的工作原理是直接利用操作系统的Page来实现文件到物理内存的直接映射。完成映射之后你对物理内存的操作会被同步到硬盘上。
Kafka高效文件存储设计：Kafka把topic中一个Partition大文件分成多个小文件段，通过多个小文件段，就容易定期清除或删除已经消费完文件，减少磁盘占用。通过索引信息可以快速定位message和确定response的大小。通过index元数据全部映射到memory（内存映射文件），可以避免segment file的IO磁盘操作。通过索引文件稀疏存储，可以大幅降低index文件元数据占用空间大小。

注：

Kafka解决查询效率的手段之一是将数据文件分段，比如有100条Message，它们的offset是从0到99。假设将数据文件分成5段，第一段为0-19，第二段为20-39，以此类推，每段放在一个单独的数据文件里面，数据文件以该段中小的offset命名。这样在查找指定offset的
Message的时候，用二分查找就可以定位到该Message在哪个段中。
为数据文件建索引数据文件分段使得可以在一个较小的数据文件中查找对应offset的Message 了，但是这依然需要顺序扫描才能找到对应offset的Message。
为了进一步提高查找的效率，Kafka为每个分段后的数据文件建立了索引文件，文件名与数据文件的名字是一样的，只是文件扩展名为.index。

分三个角度保障：生产者端，消费者端，broker端

Kafka的ack机制：应答机制分为三种
- ack = 0，producer不等待同步完成确认，直接发送下一条（批）信息
- ack = 1，producer等待leader成功接收数据并得到确认，才发送下一条message
- ack = 2，producer等待follower确认之后，才发送下一条message

消费者数据不丢失

? 通过offset commit来保证数据的不丢失，Kafka自己记录了每次消费的offset的数值，下次消费的时候，会接着上一次消费的offset进行消费

?

? offset信息在Kafka0.8版本之前保存在zookeeper中，在0.8版本之后保存到topic中，及时消费者在运行过程中挂掉了，再次启动的时候会找到offset的值，找到之前消费信息的位置，接着消费，由于offset的信息斜入式并不是每一条信息消费完之后都会写入offset，所以可能出现重复消费，但是不会丢失数据。
Kafka集群中的broker的数据不丢失

? 每个broker中的partition我们一般都会设置有replication（副本）的个数，生产者写入的时候首先根据分发策略（有partition按partition，有key按照key，都没有就轮询）写入到leader中，follower（副本）再跟leader同步数据，这样就有了备份，可以保证数据的不丢失。

采集层主要可以使用Flume，Kafka等技术。

Flume: Flume是管道流方式，提供了很多的默认实现，让用户通过参数部署，及拓展API

Kafka: Kafka是一个可持久化的分布式的消息队列。Kafka 是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics。

相比之下,Flume是一个专用工具被设计为旨在往HDFS，HBase发送数据。它对HDFS有特殊的优化，并且集成了Hadoop的安全特性

结论：多个系统消费的话，使用kafka；如果数据被设计给Hadoop使用，使用Flume。

kafka 宕机了，首先我们考虑的问题应该是所提供的服务是否因为宕机的机器而受到影响，如果服务提供没问题，如果实现做好了集群的容灾机制，那么这块就不用担心了。

想要恢复集群的节点，主要的步骤就是通过日志分析来查看节点宕机的原因，从而解决，重新恢复节点

在Kafka中，生产者写入消息、消费者读取消息的操作都是与leader副本进行交互的，从而实现的是一种主写主读的生产消费模式

而kafka的主从主读的优点就很多了：