Flume事务机制
Flume事务有put和take机制,两者保证数据传输的准确性. Put事务:Source到Channel doPut:将数据从souce写入临时缓冲区putList doCommit:检查Channel内存队列是否足够合并 doRollback:channel 内存队列空间不足,则回滚数据 take事务:channel到sink doTake:将数据取到临时缓冲区takeList doCommit:如果数据全部发送成功,则清除临时缓冲区takeList doRollback:数据发送过程中如果出现异常,rollback 将临时缓冲区 takeList 中的数据归还给 channel 内存队列 数据丢失问题? 根据Flume的架构原理,采用FileChannel的Flume是不可能丢失数据的,因为其内部有完善的事务机制(ACID)。 put 和 take 这两个事务是独立的,并且这两个环节都不可能丢失数据,唯一可能丢失数据的是 Channel 采用 MemoryChannel: [1 ] 在 Agent 宕机时候导致数据在内存中丢失 [2 ] Channel 存储数据已满,导致 Source 不再写入数据,造成未写入的数据丢失 注:Flume不会丢失数据,但是可能会造成数据重复,例如数据已经由Sink发出,但是没有接收到响应,Sink会再次发送数据,导致数据重复。
|