红色绿豆糕

kafka日志对象（二）—— Log

日志（Log）是日志段（Log Segment）的容器，里面定义了很多管理日志段的操作。

Log 源码结构

Log 源码位于 Kafka core 工程的 log 源码包下，文件名是 Log.scala

Log Class & Object

Log Obj：

object Log {
  val LogFileSuffix = ".log"
  val IndexFileSuffix = ".index"
  val TimeIndexFileSuffix = ".timeindex"
  val ProducerSnapshotFileSuffix = ".snapshot"
  val TxnIndexFileSuffix = ".txnindex"
  val DeletedFileSuffix = ".deleted"
  val CleanedFileSuffix = ".cleaned"
  val SwapFileSuffix = ".swap"
  val CleanShutdownFile = ".kafka_cleanshutdown"
  val DeleteDirSuffix = "-delete"
  val FutureDirSuffix = "-future"
}

这是 Log Object 定义的所有常量。耳熟能详的.log、.index、.timeindex 和.txnindex 都在里面。介绍几种其他文件类型：

.snapshot 是 Kafka 为幂等型或事务型 Producer 所做的快照文件。
.deleted 是删除日志段操作创建的文件。目前删除日志段文件是异步操作，Broker 端把日志段文件从.log 后缀修改为.deleted 后缀。如果你看到一大堆.deleted 后缀的文件名，别慌，这是 Kafka 在执行日志段文件删除。
.cleaned 和.swap 都是 Compaction 操作的产物。
-delete 则是应用于文件夹的。当你删除一个主题的时候，主题的分区文件夹会被加上这个后缀。
-future 是用于变更主题分区文件夹地址的，属于比较高阶的用法。

def filenamePrefixFromOffset(offset: Long): String = {
    val nf = NumberFormat.getInstance()
    nf.setMinimumIntegerDigits(20)
    nf.setMaximumFractionDigits(0)
    nf.setGroupingUsed(false)
    nf.format(offset)
  }

这个方法的作用是通过给定的位移值计算出对应的日志段文件名。Kafka 日志文件固定是 20 位的长度，此方法就是用前面补 0 的方式，把给定位移值扩充成一个固定 20 位长度的字符串。

举个例子，我们给定一个位移值是 12345，那么 Broker 端磁盘上对应的日志段文件名就应该是 00000000000000012345.log。

Log Class：

class Log(@volatile var dir: File,
          @volatile var config: LogConfig,
          @volatile var logStartOffset: Long,
          @volatile var recoveryPoint: Long,
          scheduler: Scheduler,
          brokerTopicStats: BrokerTopicStats,
          val time: Time,
          val maxProducerIdExpirationMs: Int,
          val producerIdExpirationCheckIntervalMs: Int,
          val topicPartition: TopicPartition,
          val producerStateManager: ProducerStateManager,
          logDirFailureChannel: LogDirFailureChannel) extends Logging with KafkaMetricsGroup {
……
}

dir 和 logStartOffset 是最重要的属性。dir 就是这个日志所在的文件夹路径，也就是主题分区的路径。而 logStartOffset，表示日志的当前最早位移。dir 和 logStartOffset 都是 volatile var 类型，表示它们的值是变动的，而且可能被多个线程更新。

Log类常提到的有LEO和HW，用图来描述下：

日志的当前末端位移，也就是 Log End Offset（LEO），它是表示日志下一条待插入消息的位移值，而 Log Start Offset 是跟它相反的，它表示日志当前对外可见的最早一条消息的位移值。Log Start Offset 之前的位移可能过期被截断。

位移值 8 是高水位值（High Watermark），它是区分已提交消息和未提交消息的分水岭。

Log类下其他重要的属性：

    @volatile private var nextOffsetMetadata: LogOffsetMetadata = _
    @volatile private var highWatermarkMetadata: LogOffsetMetadata = LogOffsetMetadata(logStartOffset)
    private val segments: ConcurrentNavigableMap[java.lang.Long, LogSegment] = new ConcurrentSkipListMap[java.lang.Long, LogSegment]
    @volatile var leaderEpochCache: Option[LeaderEpochFileCache] = None

nextOffsetMetadata 可以等同 LEO，下一条要插入的位移值。

highWatermarkMetadata，是分区日志高水位值。

segments，这是 Log 类中非常重要的属性。它保存了分区日志下所有的日志段信息，只不过是用 Map 的数据结构来保存的。Map 的 Key 值是日志段的起始位移值，Value 则是日志段对象本身。Kafka 源码使用 ConcurrentNavigableMap 数据结构来保存日志段对象。

Leader Epoch Cache 对象，主要是用来判断出现 Failure 时是否执行日志截断操作（Truncation）。之前靠高水位来判断的机制，可能会造成副本间数据不一致的情形。这里的 Leader Epoch Cache 是一个缓存类数据，里面保存了分区 Leader 的 Epoch 值与对应位移值的映射关系。

Log类的初始化：

locally {
        val startMs = time.milliseconds    
        // create the log directory if it doesn't exist
        Files.createDirectories(dir.toPath)       
        initializeLeaderEpochCache()
        
        val nextOffset = loadSegments()       
 
        /* Calculate the offset of the next message */
        nextOffsetMetadata = LogOffsetMetadata(nextOffset, activeSegment.baseOffset, activeSegment.size)
        
        leaderEpochCache.foreach(_.truncateFromEnd(nextOffsetMetadata.messageOffset))
        
        logStartOffset = math.max(logStartOffset, segments.firstEntry.getValue.baseOffset)
        
        // The earliest leader epoch may not be flushed during a hard failure. Recover it here.
        leaderEpochCache.foreach(_.truncateFromStart(logStartOffset))
        
        // Any segment loading or recovery code must not use producerStateManager, so that we can build the full state here
        // from scratch.
        if (!producerStateManager.isEmpty)
          throw new IllegalStateException("Producer state must be empty during log initialization")
        loadProducerState(logEndOffset, reloadFromCleanShutdown = hasCleanShutdownFile)
        
        info(s"Completed load of log with ${segments.size} segments, log start offset $logStartOffset and " +
          s"log end offset $logEndOffset in ${time.milliseconds() - startMs}

主要逻辑用图描述一下：

重点说下第三步，即加载日志段的实现逻辑，以下是 loadSegments 的实现代码：

private def loadSegments(): Long = {
        // first do a pass through the files in the log directory and remove any temporary files
        // and find any interrupted swap operations
        val swapFiles = removeTempFilesAndCollectSwapFiles()
    
        // Now do a second pass and load all the log and index files.
        // We might encounter legacy log segments with offset overflow (KAFKA-6264). We need to split such segments. When
        // this happens, restart loading segment files from scratch.
        retryOnOffsetOverflow {
          // In case we encounter a segment with offset overflow, the retry logic will split it after which we need to retry
          // loading of segments. In that case, we also need to close all segments that could have been left open in previous
          // call to loadSegmentFiles().
          logSegments.foreach(_.close())
          segments.clear()
          loadSegmentFiles()
        }
    
        // Finally, complete any interrupted swap operations. To be crash-safe,
        // log files that are replaced by the swap segment should be renamed to .deleted
        // before the swap file is restored as the new segment file.
        completeSwapOperations(swapFiles)
    
        if (!dir.getAbsolutePath.endsWith(Log.DeleteDirSuffix)) {
          val nextOffset = retryOnOffsetOverflow {
            recoverLog()
          }
    
          // reset the index size of the currently active log segment to allow more entries
          activeSegment.resizeIndexes(config.maxIndexSize)
          nextOffset
        } else {
           if (logSegments.isEmpty) {
              addSegment(LogSegment.open(dir = dir,
                baseOffset = 0,
                config,
                time = time,
                fileAlreadyExists = false,
                initFileSize = this.initFileSize,
                preallocate = false))
           }
          0
        }

这段代码会对分区日志路径遍历两次。

首先，它会移除上次 Failure 遗留下来的各种临时文件（包括.cleaned、.swap、.deleted 文件等），removeTempFilesAndCollectSwapFiles 方法实现了这个逻辑。

之后，它会清空所有日志段对象，并且再次遍历分区路径，重建日志段 segments Map 并删除无对应日志段文件的孤立索引文件。待执行完这两次遍历之后，它会完成未完成的 swap 操作，即调用 completeSwapOperations 方法。

等这些都做完之后，再调用 recoverLog 方法恢复日志段对象，然后返回恢复之后的分区日志 LEO 值。

看下removeTempFilesAndCollectSwapFiles方法的实现：

private def removeTempFilesAndCollectSwapFiles(): Set[File] = {
    
    // 在方法内部定义一个名为deleteIndicesIfExist的方法，用于删除日志文件对应的索引文件
    def deleteIndicesIfExist(baseFile: File, suffix: String = ""): Unit = {
    
    info(s"Deleting index files with suffix $suffix for baseFile $baseFile")
    
    val offset = offsetFromFile(baseFile)
    
    Files.deleteIfExists(Log.offsetIndexFile(dir, offset, suffix).toPath)
    Files.deleteIfExists(Log.timeIndexFile(dir, offset, suffix).toPath)
    Files.deleteIfExists(Log.transactionIndexFile(dir, offset, suffix).toPath)
    
    }
    
    var swapFiles = Set[File]()
    var cleanFiles = Set[File]()
    var minCleanedFileOffset = Long.MaxValue
    
    // 遍历分区日志路径下的所有文件
    for (file <- dir.listFiles if file.isFile) {
    if (!file.canRead) // 如果不可读，直接抛出IOException
    throw new IOException(s"Could not read file $file")
    val filename = file.getName
  
    if (filename.endsWith(DeletedFileSuffix)) { // 如果以.deleted结尾
    debug(s"Deleting stray temporary file ${file.getAbsolutePath}")
    Files.deleteIfExists(file.toPath) // 说明是上次Failure遗留下来的文件，直接删除
    
    } else if (filename.endsWith(CleanedFileSuffix)) { // 如果以.cleaned结尾
    minCleanedFileOffset = Math.min(offsetFromFileName(filename), minCleanedFileOffset) // 选取文件名中位移值最小的.cleaned文件，获取其位移值，并将该文件加入待删除文件集合中
    
    cleanFiles += file
    } else if (filename.endsWith(SwapFileSuffix)) { // 如果以.swap结尾
    val baseFile = new File(CoreUtils.replaceSuffix(file.getPath, SwapFileSuffix, ""))
    info(s"Found file ${file.getAbsolutePath} from interrupted swap operation.")
    if (isIndexFile(baseFile)) { // 如果该.swap文件原来是索引文件
    deleteIndicesIfExist(baseFile) // 删除原来的索引文件
    } else if (isLogFile(baseFile)) { // 如果该.swap文件原来是日志文件
    deleteIndicesIfExist(baseFile) // 删除掉原来的索引文件
    swapFiles += file // 加入待恢复的.swap文件集合中
    
        } 
      } 
    }
    
    // 从待恢复swap集合中找出那些起始位移值大于minCleanedFileOffset值的文件，直接删掉这些无效的.swap文件
    
    val (invalidSwapFiles, validSwapFiles) = swapFiles.partition(file => offsetFromFile(file) >= minCleanedFileOffset)
  
    invalidSwapFiles.foreach { file =>
    debug(s"Deleting invalid swap file ${file.getAbsoluteFile} minCleanedFileOffset: $minCleanedFileOffset")
    
    val baseFile = new File(CoreUtils.replaceSuffix(file.getPath, SwapFileSuffix, ""))
    deleteIndicesIfExist(baseFile, SwapFileSuffix)
    Files.deleteIfExists(file.toPath)
    }
    
    // Now that we have deleted all .swap files that constitute an incomplete split operation, let's delete all .clean files
    // 清除所有待删除文件集合中的文件
    cleanFiles.foreach { file =>
    debug(s"Deleting stray .clean file ${file.getAbsolutePath}")
    Files.deleteIfExists(file.toPath)
    }
    
    // 最后返回当前有效的.swap文件集合
    validSwapFiles
    
    }

执行完了 removeTempFilesAndCollectSwapFiles 逻辑之后，源码开始清空已有日志段集合，并重新加载日志段文件。这就是第二步。这里调用的主要方法是 loadSegmentFiles。

private def loadSegmentFiles(): Unit = {
    // 按照日志段文件名中的位移值正序排列，然后遍历每个文件
    for (file <- dir.listFiles.sortBy(_.getName) if file.isFile) { 
    if (isIndexFile(file)) { // 如果是索引文件
    val offset = offsetFromFile(file)
    val logFile = Log.logFile(dir, offset)
    if (!logFile.exists) { // 确保存在对应的日志文件，否则记录一个警告，并删除该索引文件
    warn(s"Found an orphaned index file ${file.getAbsolutePath}, with no corresponding log file.") 
    Files.deleteIfExists(file.toPath)
    }
    } else if (isLogFile(file)) { // 如果是日志文件
    
    val baseOffset = offsetFromFile(file)
    val timeIndexFileNewlyCreated = !Log.timeIndexFile(dir, baseOffset).exists()
    
    // 创建对应的LogSegment对象实例，并加入segments中
    val segment = LogSegment.open(dir = dir,
    baseOffset = baseOffset,
    config,
    time = time,
    fileAlreadyExists = true)
    try segment.sanityCheck(timeIndexFileNewlyCreated)
    catch {
    case _: NoSuchFileException =>
    error(s"Could not find offset index file corresponding to log file ${segment.log.file.getAbsolutePath}, " +
    "recovering segment and rebuilding index files...")
    recoverSegment(segment)
    case e: CorruptIndexException =>
    warn(s"Found a corrupted index file corresponding to log file ${segment.log.file.getAbsolutePath} due " +
    s"to ${e.getMessage}}, recovering segment and rebuilding index files...")
    recoverSegment(segment)
    }
    addSegment(segment)
        }
      }
    }

第三步是处理第一步返回的有效.swap 文件集合。completeSwapOperations 方法就是做这件事的：

private def completeSwapOperations(swapFiles: Set[File]): Unit = {
    
    // 遍历所有有效.swap文件
    for (swapFile <- swapFiles) {
    val logFile = new File(CoreUtils.replaceSuffix(swapFile.getPath, SwapFileSuffix, "")) // 获取对应的日志文件
    val baseOffset = offsetFromFile(logFile) // 拿到日志文件的起始位移值
    // 创建对应的LogSegment实例
    val swapSegment = LogSegment.open(swapFile.getParentFile,
    baseOffset = baseOffset,
    config,
    time = time,
    fileSuffix = SwapFileSuffix)
    info(s"Found log file ${swapFile.getPath} from interrupted swap operation, repairing.")
    // 执行日志段恢复操作
    recoverSegment(swapSegment)
    // We create swap files for two cases:
    // (1) Log cleaning where multiple segments are merged into one, and
    // (2) Log splitting where one segment is split into multiple.
    // Both of these mean that the resultant swap segments be composed of the original set, i.e. the swap segment
    // must fall within the range of existing segment(s). If we cannot find such a segment, it means the deletion
    // of that segment was successful. In such an event, we should simply rename the .swap to .log without having to
    // do a replace with an existing segment. 
    // 确认之前删除日志段是否成功，是否还存在老的日志段文件
    val oldSegments = logSegments(swapSegment.baseOffset, swapSegment.readNextOffset).filter { segment =>
    segment.readNextOffset > swapSegment.baseOffset
    }
    
    // 如果存在，直接把.swap文件重命名成.log
    replaceSegments(Seq(swapSegment), oldSegments.toSeq, isRecoveredSwapFile = true)  
      }
    }

最后一步是 recoverLog 操作：

 private def recoverLog(): Long = {
        // if we have the clean shutdown marker, skip recovery
        // 如果不存在以.kafka_cleanshutdown结尾的文件。通常都不存在
        if (!hasCleanShutdownFile) {
          // 获取到上次恢复点以外的所有unflushed日志段对象
          val unflushed = logSegments(this.recoveryPoint, Long.MaxValue).toIterator
          var truncated = false
    
          // 遍历这些unflushed日志段
          while (unflushed.hasNext && !truncated) {
            val segment = unflushed.next
            info(s"Recovering unflushed segment ${segment.baseOffset}")
            val truncatedBytes =
              try {
                // 执行恢复日志段操作
                recoverSegment(segment, leaderEpochCache)
              } catch {
                case _: InvalidOffsetException =>
                  val startOffset = segment.baseOffset
                  warn("Found invalid offset during recovery. Deleting the corrupt segment and " +
                    s"creating an empty one with starting offset $startOffset")
                  segment.truncateTo(startOffset)
              }
            if (truncatedBytes > 0) { // 如果有无效的消息导致被截断的字节数不为0，直接删除剩余的日志段对象
              warn(s"Corruption found in segment ${segment.baseOffset}, truncating to offset ${segment.readNextOffset}")
              removeAndDeleteSegments(unflushed.toList, asyncDelete = true)
              truncated = true
            }
          }
        }
    
        // 这些都做完之后，如果日志段集合不为空
        if (logSegments.nonEmpty) {
          val logEndOffset = activeSegment.readNextOffset
          if (logEndOffset < logStartOffset) { // 验证分区日志的LEO值不能小于Log Start Offset值，否则删除这些日志段对象
            warn(s"Deleting all segments because logEndOffset ($logEndOffset) is smaller than logStartOffset ($logStartOffset). " +
              "This could happen if segment files were deleted from the file system.")
            removeAndDeleteSegments(logSegments, asyncDelete = true)
          }
        }
    
        // 这些都做完之后，如果日志段集合为空了
        if (logSegments.isEmpty) {
        // 至少创建一个新的日志段，以logStartOffset为日志段的起始位移，并加入日志段集合中
          addSegment(LogSegment.open(dir = dir,
            baseOffset = logStartOffset,
            config,
            time = time,
            fileAlreadyExists = false,
            initFileSize = this.initFileSize,
            preallocate = config.preallocate))
        }
    
        // 更新上次恢复点属性，并返回
        recoveryPoint = activeSegment.readNextOffset
        recoveryPoint

最后这些接上个思维导图总结下：

这篇具体是日志如何加载日志段的，那么加载完后的怎么操作呢？别走开，点个赞后请看下一篇。

【Apache Paimon】-- 16 -- 利用 paimon-flink-action 同步 kafka 数据到 hive paimon 表中 oo寻梦in记 Apache Paimon apache flink kafka apache paimon paimon
目录引言CDC技术概述2.1什么是CDC2.2CDC的应用场景Kafka作为CDC数据源的原理与优势3.1Kafka的基本架构3.2Kafka在CDC中的角色
RocketMQ的缺点是什么？Kafka的缺点是什么？使用场景有什么区别？点滴~ rocketmq kafka 分布式
目录RocketMQ的缺点Kafka的缺点RocketMQ和Kafka的使用场景区别RocketMQ的使用场景Kafka的使用场景总结RocketMQ的缺点Kafka的缺点1.消息顺序保证能力有限2.消息事务功能相对较弱3.消息回溯能力有限使用场景区别1.RocketMQ的适用场景2.Kafka的适用场景RocketMQ的缺点社区生态相对较小：相比Kafka，RocketMQ的社区和生态系统较小，
百万架构师第三十六课：kafka：KafkaManage｜JavaGuide 后端
[root@nogeeksoftware]#yuminstallunzipIsthisok[y/d/N]:y完毕！[root@nogeeksoftware]#[root@nogeeksoftware]#cdkafka-manager-master/conf/[root@nogeekconf]#vimapplication.conf#kafka-manager.zkhosts="kafka-mana
kafka数据检索_Kafka日志分段与消息查找铺地板 kafka数据检索
Kafka作为一个消息中间件(后面Kafka逐渐转向一个流失处理平台KafkaStream)，消息最终的存储都落在日志中。Kafka的消息最终发送是以topic下的分区为最终目标的，因此Kafka的日志存储也是以分区为单位。配置文件中log.dir参数决定了kafka数据文件的存放目录，该参数可以在kafka配置文件中进行配置。上图给出了三个目录，代表Topic名称为message-store的三
30分钟带你图解 Kafka 生产者初始化核心流程 Java面试_ Java kafka java 分布式
认真读完这篇文章，我相信你会对Kafka生产初始化源码有更加深刻的理解。这篇文章干货很多，希望你可以耐心读完。01总体概述我们都知道在Kafka中，我们把产生消息的一方称为生产者即Producer，它是Kafka核心组件之一，也是消息的来源所在。那么这些生产者产生的消息是如何传到Kafka服务端的呢？初始化过程是怎么样的呢？接下来会逐一讲解说明。02生产者初始化核心组件及流程剖析我们先从生产者客户
消息队列之事务消息，RocketMQ 和 Kafka是如何做的？ 90后小伙追梦之路 java 面试架构 kafka java-rocketmq rocketmq java 面试
今天我们来谈一谈消息队列的事务消息，一说起事务相信大家都不陌生，脑海里蹦出来的就是ACID。通常我们理解的事务就是为了一些更新操作要么都成功，要么都失败，不会有中间状态的产生，而ACID是一个严格的事务实现的定义，不过在单体系统时候一般都不会严格的遵循ACID的约束来实现事务，更别说分布式系统了。分布式系统往往只能妥协到最终一致性，保证数据最终的完整性和一致性，主要原因就是实力不允许...因为可用
Flink KafkaConsumer offset是如何提交的红烛暗盗梦 flink 大数据
一、fllink内部配置client.id.prefix，指定用于KafkaConsumer的客户端ID前缀partition.discovery.interval.ms，定义KafkaSource检查新分区的时间间隔。请参阅下面的动态分区检查一节register.consumer.metrics指定是否在Flink中注册KafkaConsumer的指标commit.offsets.on.chec
关于kafka中的timestamp与offset的对应关系 jediael_lu X.1大数据
关于kafka中的timestamp与offset的对应关系@(KAFKA)[storm,kafka,大数据]关于kafka中的timestamp与offset的对应关系获取单个分区的情况同时从所有分区获取消息的情况结论如何指定时间出现UpdateOffsetException时的处理方法相关源码略读1入口2处理逻辑1建立offset与timestamp的对应关系并保存到数据中2找到最近的最后一个
【Kafka】Kafka配置参数详解飝鱻. Kafka kafka 分布式 big data
Kafka配置参数详解Kafka得安装与基本命令Kafka配置参数kafka生产者配置参数kafka消费者配置参数本篇文章只是做一个转载的作用以方便自己的阅读，文章主要转载于:Kafka核心配置参数与机制一文版权声明：本文为CSDN博主「张行之」的原创文章，遵循CC4.0BY-SA版权协议Kafka得安装与基本命令可以点击链接:Kafka的安装与基本命令的使用补充：若想了解Kafka的框架和运行原
kafka和RocketMQ的区别 handong106324 面试面试 kafka
今天面试字节被问到的问题，当时没有回答好，现在再重新梳理一下两者都是消息系统，但是kafka已经升级为了流处理平台RocketMQ的出现是因为kafka不支持在交易、订单、充值等场景下许多特性，于是阿里编写了rocketMQ，定位于非日志的可靠消息传输；而kafka诞生的时候定位是日志传输。数据可靠性RMQ支持异步实时刷盘、同步刷盘、同步Replication、异步Replication同步刷盘在
RocketMQ vs. Kafka: 选择合适的消息队列系统及性能比较 YazIdris rocketmq kafka 分布式
在构建分布式系统和大规模数据处理应用程序时，选择一个合适的消息队列系统对于确保高效的消息传递和可靠性非常重要。RocketMQ和Kafka是两个领先的开源消息队列系统，它们在各自的领域内都有广泛的应用。本文将探讨RocketMQ和Kafka的选择理由，并对它们的性能进行比较。消息队列系统简介RocketMQ和Kafka都是高吞吐量、低延迟的分布式消息队列系统。它们具有可水平扩展性、持久化存储和高可
Kafka 中基于 Segment 和 Offset 查找消息的过程小句 kafka 数据库分布式
Kafka中基于Segment和Offset查找消息的过程假设我们有一个KafkaTopic，其Partition划分为多个Segment文件。每个Segment文件包含.log、.index和.timeindex文件。现在我们需要查找Offset为368801的消息。假设条件Partition：partition-0Segment文件：segment-1：起始Offset0，结束Offset36
Apache Kafka 中的认证、鉴权原理与应用后端java
编辑导读：本篇内容将进一步介绍Kafka中的认证、鉴权等概念。AutoMQ是与ApacheKafka100%完全兼容的新一代Kafka，可以帮助用户降低90%以上的Kafka成本并且进行极速地自动弹性。作为Kafka生态的忠实拥护者，我们也会持续致力于传播Kafka技术，欢迎关注我们。我们在此前的文章《AutoMQSASL安全身份认证配置教程》[1]介绍过ApacheKafka（以下简称Kafka
SpringBoot系统开发时，使用分布式架构，每一块交给不同的人开发，彼此不知。能否做到，如何实现。陈老师还在写代码 SpringBoot100问 spring boot 分布式架构
在SpringBoot系统开发中，使用分布式架构并将不同模块交给不同团队开发是可以实现的。关键在于定义清晰的接口和协议，确保各模块能够独立开发并通过标准方式通信。以下是实现步骤：1.定义清晰的接口和协议RESTfulAPI：使用HTTP协议，定义清晰的API规范（如路径、请求方法、参数、返回值等）。消息队列：使用Kafka、RabbitMQ等，定义消息格式和主题。RPC：使用gRPC或Dubbo，
kafka怎么查看消息堆积_Kafka线上消息堆积问题 weixin_39529914 kafka怎么查看消息堆积
虽然项目中很早使用到了Kafka，但是由于我接手之后业务没有变化，所以这还是我第一次在生产环境接触Kafka，可以说是毫无经验，凭着自己对RocketMQ的理解(毕竟RocketMQ也借鉴了Kafka的设计经验)，进行这次问题的排查。因此记录一下。一、已知公司Kafka的Broker是由平台组维护，用户中心是消费方，这里简称uc，单点登录是生产方，这里简称SSO。该业务是在SSO更新昵称时，通过K
深入解析 Kafka 消费者偏移量管理 t0_54program kafka 分布式个人开发
在使用Kafka进行消息消费时，偏移量管理是一个非常重要的概念。它直接关系到消息的重复消费、丢失以及系统的可靠性。本文将详细介绍Kafka中的偏移量管理机制，包括当前偏移量与提交偏移量的区别、自动提交与手动提交的使用场景及代码示例。一、当前偏移量与提交偏移量在Kafka中，当前偏移量（CurrentOffset）是指消费者下次将要从分区中拉取的记录的偏移量。换句话说，它是消费者“即将”消费的消息的
Go, Jocko, Kafka 后端go
本篇内容是根据2016年8月份#31.Go,Jocko,Kafka音频录制内容的整理与翻译TravisJeffery参加了节目，谈论Go、Jocko、Kafka、Kafka的存储内部结构如何工作，以及有趣的Go项目和新闻。ErikSt.Martin:大家好，欢迎回到《GoTime》的另一期节目。今天是第31期。我们的赞助商是StackImpact和Backtrace。今天的节目中有我自己，Erik
Kafka-时间轮和延迟操作-源码流程不学会Ⅳ kafka c#数据库
TimingWheel字段：buckets：Array.tabulate[TimerTaskList]类型，其每一个项都对应时间轮中的一个时间格，用于保存TimerTaskList的数组。在TimingWheel中，同一个TimerTaskList中的不同定时任务的到期时间可能不同，但是相差时间在一个时间格的范围内。tickMs：当前时间轮中一个时间格表示的时间跨度。wheelSize：当前时间轮
Java分布式流处理，flink+kafka实现电商网站个性化商品推荐系统图苑分布式 java flink
文章目录戳底部名片，一起变现技术栈选择设计实现思路实现步骤及示例代码1.数据采集2.数据预处理3.特征工程4.模型训练5.结果输出6.前端展示戳底部名片，一起变现在现代电商环境中，用户每天都会浏览大量商品页面，而这些行为数据中蕴藏着丰富的信息。通过分析用户的浏览历史、购买记录以及对特定商品的兴趣程度，我们可以为用户提供更加个性化的商品推荐，从而提升用户体验和转化率。为了实现实时的个性化推荐，我们需
01、kafka知识点综合抛砖者 kafka kafka 分布式 CAP kafka优化 kafka架构 kafka面试
kafka是一个优秀大吞吐消息队列，下面我就从实用的角度来讲讲kafka中，“kafka为何有大吞吐的机制”，“数据不丢失问题”，“精准一次消费问题”01、kafka的架构组织和运行原理kafka集群各个节点的名称叫broker，因为kafka是一个消息队列，所以对应着有producer和consumer。在数据组织层面来说，kafka是通过topic来区分同一类数据，但是topic是抽象的概念，
kafka的架构和工作原理点滴~ kafka 架构分布式
目录Kafka架构Kafka工作原理Kafka数据流Kafka核心特性总结Kafka架构1.生产者（Producer）2.消费者（Consumer）3.主题（Topic）4.分区（Partition）5.副本（Replica）6.代理（Broker）7.ZooKeeper（旧版本）/KRaft（新版本）Kafka工作原理1.消息生产2.消息存储3.消息消费4.领导者选举5.集群协调Kafka架构K
Flink--初识 DataStream Connector Kafka XK&RM Flink flink kafka scala
目录1.增加POM文件2.使用Kafka作为Source2.1创建Topic2.2Code3.使用Kafka作为Sink3.1CodeFlink作为比较适合流式处理的计算框架，在流式处理当中，比较搭配的消息中间件为Kafka本次使用的Kafka版本为2.1.0-cdh6.2.0Flink版本为1.11.2，Scala版本为2.12.10官网FlinkprovidesanApacheKafkacon
云消息队列 ApsaraMQ Serverless 演进：高弹性低成本、更稳定更安全、智能化免运维云原生阿里云
如今，消息队列已成为分布式架构中不可或缺的关键服务，为电商、物联网、游戏和教育等行业，提供了异步解耦、集成、高性能和高可靠的核心价值。过去一年，我们发布了云消息队列ApsaraMQ全系列产品Serverless化，面向企业提供极速弹性、高性价比的云消息队列产品，助力企业降本。云消息队列ApsaraMQ是涵盖RocketMQ、Kafka、RabbitMQ、MQTT、轻量消息队列（原MNS）的消息队列
Kafka系列之：定位topic只能保存最新数据的原因快乐骑行^_^ Kafka Kafka系列定位topic 只能保存最新数据的原因
Kafka系列之：定位topic只能保存最新数据的原因一、背景二、定位排查方向三、深入排查一、背景kafkatopic保存的数据少，topic只能保存最新的数据二、定位排查方向能想到的定位排查方向：topic能存储的数据量、topic数据保存的时间、topic数据大小./bin/kafka-configs.sh--zookeeperlocalhost:2181--entity-typetopics
中间件MQ面试题之Kafka 叱咤少帅（少帅）面试题中间件
MQ相关面试题Kafka面试题（1）rockermq、kafka、RabbiMQ的区别在哪里?使用场景有什么不一样？RabbitMQ特点：支持AMQP（高级消息队列协议），提供了消息队列、队列负载均衡、队列生命周期管理、队列监控和JMS等特性使用场景：适合于需要消息持久化和高可靠性的场景，如财务、电商等。Kafka特点：设计目标是高吞吐量，可以处理海量数据，被广泛用于日志收集、流处理等场景。使用场
Spring Boot 集成 Kafka ekskef_sef 面试学习路线阿里巴巴 spring boot kafka linq
在现代软件开发中，分布式系统和微服务架构越来越受到关注。为了实现系统之间的异步通信和解耦，消息队列成为了一种重要的技术手段。Kafka作为一种高性能、分布式的消息队列系统，被广泛应用于各种场景。而SpringBoot作为一种流行的Java开发框架，提供了便捷的方式来构建应用程序。本文将介绍如何在SpringBoot项目中集成Kafka，包括Kafka的基本概念、SpringBoot集成Kafka的
linux kafka Raft模式安装和启动(单节点) opfano_o kafka kafka linux 分布式
kafka介绍kafka常用命令安装部署1.官网下载编译好的二进制文件，部署到/usr/local/kafkaApacheKafka2.生成集群id，并格式化存储目录bin/kafka-storage.shrandom-uuid#生成的uuidZ4gIsrl6Rz-_09ns03OWlQ格式化存储目录bin/kafka-storage.shformat-tZ4gIsrl6Rz-_09ns03OWl
大数据技术Kafka详解 ③ | Kafka集群操作与API操作 dvlinker C/C++实战专栏 C/C++软件开发从入门到实战大数据 kfaka 分布式发布与订阅系统 kfaka集群生产者消费者 API操作
目录1、Kafka集群操作1.1、创建topic1.2、查看主题命令1.3、生产者生产1.4、消费者消费数据1.5、运行describetopics命令1.6、增加topic分区数1.7、增加配置1.8、删除配置1.9、删除topic2、Kafka的JavaAPI操作2.1、生产者代码2.2、消费者代2.2.1、自动提交offset2.2.2、手动提交offset2.2.3、消费完每个分区之后手动
kafka消费端之再均衡小码农0912 kafka kafka 分布式
文章目录再均衡是指分区的所属权从一个消费者转移到另一消费者的行为，它为消费组具备高可用性和伸缩性提供保障，使我们可以既方便又安全地删除消费组内的消费者或往消费组内添加消费者。不过在再均衡发生期间，消费组内的消费者是无法读取消息的。也就是说，在再均衡发主期间的这一小段时间内，消费组会变得不可用。另外，当一个分区被重新分配给另一个消费者时，消费者当前的状态也会丢失。比如消费者消费完某个分区中的一部分消
ELK系列（二）Kafka集群3.4.0搭建诉光海 ELK elk java 服务器 kafka
ELK系列传送门ELK系列（一）ElasticSearch8.9.2集群搭建ELK系列（二）Kafka集群3.4.0搭建ELK数据流规划ELK接入nginx-acces日志数据流规划数据流向filebeat------->kafka---->logstash---->ES-------->kibana收集mq处理日志存储、搜索展示、分析||elastalert2---钉钉告警ES集群搭建已完成可见
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：deathwknight@163.com）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

kafka日志对象（二）—— Log

Log 源码结构

Log Class & Object

你可能感兴趣的:(Kafka)