Flume事务机制

Flume事务机制

  • Flume事务机制

Flume事务机制

Flume事务机制_第1张图片
Flume事务有put和take机制,两者保证数据传输的准确性.
Put事务:Source到Channel
doPut:将数据从souce写入临时缓冲区putList
doCommit:检查Channel内存队列是否足够合并
doRollback:channel 内存队列空间不足,则回滚数据
take事务:channel到sink
doTake:将数据取到临时缓冲区takeList
doCommit:如果数据全部发送成功,则清除临时缓冲区takeList
doRollback:数据发送过程中如果出现异常,rollback 将临时缓冲区 takeList 中的数据归还给 channel 内存队列
数据丢失问题?
根据Flume的架构原理,采用FileChannel的Flume是不可能丢失数据的,因为其内部有完善的事务机制(ACID)。
put 和 take 这两个事务是独立的,并且这两个环节都不可能丢失数据,唯一可能丢失数据的是 Channel 采用 MemoryChannel:
[1 ] 在 Agent 宕机时候导致数据在内存中丢失
[2 ] Channel 存储数据已满,导致 Source 不再写入数据,造成未写入的数据丢失
注:Flume不会丢失数据,但是可能会造成数据重复,例如数据已经由Sink发出,但是没有接收到响应,Sink会再次发送数据,导致数据重复。

你可能感兴趣的:(Flume)