[大数据] 有关kafka

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 有关kafka -> 正文阅读

[大数据]有关kafka

消息队列的两种模式

1、点对点，一条消息只能被一个消费者所消费

在这里插入图片描述

2、发布订阅

生产者将消息发布后，订阅的消费者会拿到该消息
在这里插入图片描述

发布订阅模式分为推模式和拉模式两种:

1、推模式（producer将消息推送到可用的consumer中）

缺点：不能根据每个消费者的消费能力来选择性推送

2、拉模式（producer有消息后，consumer从topic中根据自己的消费能力拉取消息）

缺点：consumer需要维持一个长链接，一直查看topic中有没有新的消息，没有数据时会导致空轮询

? topic中要存一个消费者队列

针对这一点，kafka在拉取完数据后，还会获取到一个timeout参数，如果之后没有数据，会等待相应的时间。

Kafka架构

在这里插入图片描述

broker:就是一个kafka服务器，一个broker中有多个topic

topic：producer和consumer从topic中拿消息，topic相当于将消息进行了分类

partition:消息分区，将一个topic分为多个分区经行管理

注意： kafka中的leader和follower是针对partition来说的。一个partition的leader用来做数据的读写，而follower的作用只能做数据的备份。

replication:partition的副本，做数据备份

consumerGroup:消费者组，由多个消费者组成，一个partition的内容只能由一个组中的一个消费者消费，但是可以消费多个topic，消费组与组之间互不关联。

zookeeper：zk中存储kafka的集群信息，和消费者的offset（也就是consumer上次消费到的位置信息，类似计数器，保证consumer挂了后，再次启动仍继续消费）,0.9版本之后offset改为存储在kafka中，logs目录下

生产者可靠性、一致性的问题

一、可靠性，确保数据从producer 发送到partititon中

为了保证 producer 发送的数据，能可靠的发送到指定的 topic，topic 的每个 partition 收到producer 发送的数据后，都需要向 producer 发送 ack（acknowledgement 确认收到），如果producer 收到 ack，就会进行下一轮的发送，否则重新发送数据。

如何保证重发时候的幂等性

这时，如果producer发了一条消息后没有收到ACK，但是partion中已经将消息保存了，这时候它再重发的话导致消息重复了。

为了保证它的幂等性，kafka在发送消息时会携带一个PID 和 sequence NUM, 会和partition中的sequence NUM进行比较，如果一致，说明消息已经保存成功了，没必要重发，会返回给producer一个 ACK应答。