xiao_jun_0820

这几天折腾spark的kafka的低阶API createDirectStream的一些总结。

大家都知道在spark1.3版本后，kafkautil里面提供了两个创建dstream的方法，一个是老版本中有的createStream方法，还有一个是后面新加的createDirectStream方法。关于这两个方法的优缺点，官方已经说的很详细(http://spark.apache.org/docs/latest/streaming-kafka-integration.html)，总之就是createDirectStream性能会更好一点，通过新方法创建出来的dstream的rdd partition和kafka的topic的partition是一一对应的，通过低阶API直接从kafka的topic消费消息，但是它不再往zookeeper中更新consumer offsets，使得基于zk的consumer offsets的监控工具都会失效。

官方只是蜻蜓点水般的说了一下可以在foreachRDD中更新zookeeper上的offsets:

directKafkaStream.foreachRDD { rdd => 
     val offsetRanges = rdd.asInstanceOf[HasOffsetRanges]
     // offsetRanges.length = # of Kafka partitions being consumed
     ...
 }

对应 Exactly-once semantics要自己去实现了，大致的实现思路就是在driver启动的时候先从zk上获得consumer offsets信息，createDirectStream有两个重载方法，其中一个可以设置从任意offsets位置开始消费，部分代码如下：

def createDirectStream(implicit streamingConfig: StreamingConfig, kc: KafkaCluster) = {

      val extractors = streamingConfig.getExtractors()
      //从zookeeper上读取offset开始消费message
      val messages = {
        val kafkaPartitionsE = kc.getPartitions(streamingConfig.topicSet)
        if (kafkaPartitionsE.isLeft) throw new SparkException("get kafka partition failed:")
        val kafkaPartitions = kafkaPartitionsE.right.get
        val consumerOffsetsE = kc.getConsumerOffsets(streamingConfig.group, kafkaPartitions)
        if (consumerOffsetsE.isLeft) throw new SparkException("get kafka consumer offsets failed:")
        val consumerOffsets = consumerOffsetsE.right.get
        consumerOffsets.foreach {
          case (tp, n) => println("===================================" + tp.topic + "," + tp.partition + "," + n)
        }
        KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String, String)](
          ssc, kafkaParams, consumerOffsets, (mmd: MessageAndMetadata[String, String]) => (mmd.key, mmd.message))
      }
      messages
    }

这里会有几个问题，就是在一个group是新的consumer group时，即首次消费，zk上海没有相应的group offsets目录,这时要先初始化一下zk上的offsets目录，或者是zk上记录的offsets已经过时，由于kafka有定时清理策略，直接从zk上的offsets开始消费会报ArrayOutofRange异常，即找不到offsets所属的index文件了，针对这两种情况，做了以下处理：

def setOrUpdateOffsets(implicit streamingConfig: StreamingConfig, kc: KafkaCluster): Unit = {
    streamingConfig.topicSet.foreach(topic => {
      println("current topic:" + topic)
      var hasConsumed = true
      val kafkaPartitionsE = kc.getPartitions(Set(topic))
      if (kafkaPartitionsE.isLeft) throw new SparkException("get kafka partition failed:")
      val kafkaPartitions = kafkaPartitionsE.right.get
      val consumerOffsetsE = kc.getConsumerOffsets(streamingConfig.group, kafkaPartitions)
      if (consumerOffsetsE.isLeft) hasConsumed = false
      if (hasConsumed) {
        //如果有消费过，有两种可能，如果streaming程序执行的时候出现kafka.common.OffsetOutOfRangeException，说明zk上保存的offsets已经过时了，即kafka的定时清理策略已经将包含该offsets的文件删除。
        //针对这种情况，只要判断一下zk上的consumerOffsets和leaderEarliestOffsets的大小，如果consumerOffsets比leaderEarliestOffsets还小的话，说明是过时的offsets,这时把leaderEarliestOffsets更新为consumerOffsets
        val leaderEarliestOffsets = kc.getEarliestLeaderOffsets(kafkaPartitions).right.get
        println(leaderEarliestOffsets)
        val consumerOffsets = consumerOffsetsE.right.get
        val flag = consumerOffsets.forall {
          case (tp, n) => n < leaderEarliestOffsets(tp).offset
        }
        if (flag) {
          println("consumer group:" + streamingConfig.group + " offsets已经过时，更新为leaderEarliestOffsets")
          val offsets = leaderEarliestOffsets.map {
            case (tp, offset) => (tp, offset.offset)
          }
          kc.setConsumerOffsets(streamingConfig.group, offsets)
        }
        else {
          println("consumer group:" + streamingConfig.group + " offsets正常，无需更新")
        }
      }
      else {
        //如果没有被消费过，则从最新的offset开始消费。
        val leaderLatestOffsets = kc.getLatestLeaderOffsets(kafkaPartitions).right.get
        println(leaderLatestOffsets)
        println("consumer group:" + streamingConfig.group + " 还未消费过，更新为leaderLatestOffsets")
        val offsets = leaderLatestOffsets.map {
          case (tp, offset) => (tp, offset.offset)
        }
        kc.setConsumerOffsets(streamingConfig.group, offsets)
      }
    })
  }

这里又碰到了一个问题，从consumer offsets到leader latest offsets中间延迟了很多消息，在下一次启动的时候，首个batch要处理大量的消息，会导致spark-submit设置的资源无法满足大量消息的处理而导致崩溃。因此在spark-submit启动的时候多加了一个配置:--conf spark.streaming.kafka.maxRatePerPartition=10000。限制每秒钟从topic的每个partition最多消费的消息条数，这样就把首个batch的大量的消息拆分到多个batch中去了，为了更快的消化掉delay的消息，可以调大计算资源和把这个参数调大。

OK，driver启动的问题解决了，那么接下来处理处理完消息后更新zk offsets的工作，这里要注意是在处理完之后再更新，想想如果你消费了消息先更新zk offset在去处理消息将处理好的消息保存到其他地方去，如果后一步由于处理消息的代码有BUG失败了，前一步已经更新了zk了，会导致这部分消息虽然被消费了但是没被处理，等你把处理消息的BUG修复再重新提交后，这部分消息在下次启动的时候不会再被消费了，因为你已经更新了ZK OFFSETS，针对这些因素考虑，部分代码实现如下：

def updateZKOffsets(rdd: RDD[(String, String)])(implicit streamingConfig: StreamingConfig, kc: KafkaCluster): Unit = {
    println("rdd not empty,update zk offset")
    val offsetsList = rdd.asInstanceOf[HasOffsetRanges].offsetRanges


    for (offsets <- offsetsList) {
      val topicAndPartition = TopicAndPartition(offsets.topic, offsets.partition)
      val o = kc.setConsumerOffsets(streamingConfig.group, Map((topicAndPartition, offsets.untilOffset)))
      if (o.isLeft) {
        println(s"Error updating the offset to Kafka cluster: ${o.left.get}")
      }
    }
  }

  def processData(messages: InputDStream[(String, String)])(implicit streamingConfig: StreamingConfig, kc: KafkaCluster): Unit = {
    messages.foreachRDD(rdd => {
      if (!rdd.isEmpty()) {

        val datamodelRDD = streamingConfig.relation match {
          case "1" =>
            val (topic, _) = streamingConfig.topic_table_mapping
            val extractor = streamingConfig.getExtractor(topic)
            // Create direct kafka stream with brokers and topics
            val topicsSet = Set(topic)
            val datamodel = rdd.filter(msg => {
              extractor.filter(msg)
            }).map(msg => extractor.msgToRow(msg))
            datamodel
          case "2" =>
            val (topics, _) = streamingConfig.topic_table_mapping
            val extractors = streamingConfig.getExtractors(topics)
            val topicsSet = topics.split(",").toSet

            //kafka msg为key-value形式,key用来对msg进行分区用的,为了散列存储消息,采集器那边key采用的是:topic|加一个随机数的形式,例如:rd_e_pal|20,split by |取0可以拿到对应的topic名字,这样union在一起的消息可以区分出来自哪一个topic
            val datamodel = rdd.filter(msg => {
              //kafka msg为key-value形式,key用来对msg进行分区用的,为了散列存储消息,采集器那边key采用的是:topic|加一个随机数的形式,例如:rd_e_pal|20,split by |取0可以拿到对应的topic名字,这样union在一起的消息可以区分出来自哪一个topic
              val keyValid = msg != null && msg._1 != null && msg._1.split("\\|").length == 2
              if (keyValid) {
                val topic = msg._1.split("\\|")(0)
                val (_, extractor) = extractors.find(p => {
                  p._1.equalsIgnoreCase(topic)
                }).getOrElse(throw new RuntimeException("配置文件中没有找到topic:" + topic + " 对应的extractor"))
                //trim去掉末尾的换行符,否则取最后一个字段时会有一个\n
                extractor.filter(msg._2.trim)
              }
              else {
                false
              }

            }).map {
              case (key, msgContent) =>
                val topic = key.split("\\|")(0)
                val (_, extractor) = extractors.find(p => {
                  p._1.equalsIgnoreCase(topic)
                }).getOrElse(throw new RuntimeException("配置文件中没有找到topic:" + topic + " 对应的extractor"))
                extractor.msgToRow((key, msgContent))
            }
            datamodel
        }
        //先处理消息
        processRDD(datamodelRDD)
        //再更新offsets
        updateZKOffsets(rdd)
      }
    })
  }

  def processRDD(rdd: RDD[Row])(implicit streamingConfig: StreamingConfig) = {
    if (streamingConfig.targetType == "mongo") {
      val target = streamingConfig.getTarget().asInstanceOf[MongoTarget]
      if (!MongoDBClient.db.collectionExists(target.collection)) {
        println("create collection:" + target.collection)
        MongoDBClient.db.createCollection(target.collection, MongoDBObject("storageEngine" -> MongoDBObject("wiredTiger" -> MongoDBObject())))
        val coll = MongoDBClient.db(target.collection)
        //创建ttl index
        if (target.ttlIndex) {
          val indexs = coll.getIndexInfo
          if (indexs.find(p => p.get("name") == "ttlIndex") == None) {
            coll.createIndex(MongoDBObject(target.ttlColumn -> 1), MongoDBObject("expireAfterSeconds" -> target.ttlExpire, "name" -> "ttlIndex"))
          }
        }
      }

    }

    val (_, table) = streamingConfig.topic_table_mapping
    val schema = streamingConfig.getTableSchema(table)

    // Get the singleton instance of SQLContext
    val sqlContext = HIVEContextSingleton.getInstance(rdd.sparkContext)

    // Convert RDD[String] to RDD[case class] to DataFrame
    val dataFrame = sqlContext.createDataFrame(rdd, schema)

    // Register as table
    dataFrame.registerTempTable(table)

    // Do word count on table using SQL and print it
    val results = sqlContext.sql(streamingConfig.sql)
    //select dt,hh(vtm) as hr,app_key, collect_set(device_id) as deviceids  from rd_e_app_header where dt=20150401 and hh(vtm)='01' group by dt,hh(vtm),app_key limit 100 ;
    //          results.show()
    streamingConfig.targetType match {
      case "mongo" => saveToMongo(results)
      case "show" => results.show()
    }

  }


  def saveToMongo(df: DataFrame)(implicit streamingConfig: StreamingConfig) = {
    val target = streamingConfig.getTarget().asInstanceOf[MongoTarget]
    val coll = MongoDBClient.db(target.collection)
    val result = df.collect()
    if (result.size > 0) {
      val bulkWrite = coll.initializeUnorderedBulkOperation
      result.foreach(row => {
        val id = row(target.pkIndex)
        val setFields = target.columns.filter(p => p.op == "set").map(f => (f.name, row(f.index))).toArray
        val incFields = target.columns.filter(p => p.op == "inc").map(f => {
          (f.name, row(f.index).asInstanceOf[Long])
        }).toArray
        //        obj=obj.++($addToSet(MongoDBObject("test"->MongoDBObject("$each"->Array(3,4)),"test1"->MongoDBObject("$each"->Array(1,2)))))
        var obj = MongoDBObject()
        var addToSetObj = MongoDBObject()
        target.columns.filter(p => p.op == "addToSet").foreach(col => {
          col.mType match {
            case "Int" =>
              addToSetObj = addToSetObj.++(col.name -> MongoDBObject("$each" -> row(col.index).asInstanceOf[ArrayBuffer[Int]]))
            case "Long" =>
              addToSetObj = addToSetObj.++(col.name -> MongoDBObject("$each" -> row(col.index).asInstanceOf[ArrayBuffer[Long]]))
            case "String" =>
              addToSetObj = addToSetObj.++(col.name -> MongoDBObject("$each" -> row(col.index).asInstanceOf[ArrayBuffer[String]]))
          }

        })
        if (addToSetObj.size > 0) obj = obj.++($addToSet(addToSetObj))
        if (incFields.size > 0) obj = obj.++($inc(incFields: _*))
        if (setFields.size > 0) obj = obj.++($set(setFields: _*))
        bulkWrite.find(MongoDBObject("_id" -> id)).upsert().updateOne(obj)
      })
      bulkWrite.execute()
    }
  }

仔细想一想，还是没有实现精确一次的语义，写入mongo和更新ZK由于不是一个事务的，如果更新mongo成功，然后更新ZK失败，则下次启动的时候这个批次的数据就被重复计算，对于UV由于是addToSet去重操作，没什么影响，但是PV是inc操作就会多算这一个批次的的数据，其实如果batch time比较短的话，其实都还是可以接受的。

Python,C++开发全球咖啡豆生产区状态实时显示APP Geeker-2025 python c++
开发一个全球咖啡豆主产区状况实时显示App，旨在为用户提供全球咖啡豆主产区的实时信息，包括产量、价格、天气、气候条件、物流信息等。以下是App的核心功能设计和实现思路：---###核心功能设计1.**咖啡豆主产区数据展示**：-提供全球主要咖啡豆产区的基本信息（如国家、地区、产量、主要品种等）。-支持按国家或地区筛选产区。2.**实时产量与价格**：-提供咖啡豆的实时产量数据和市场价格。-支持查看
Python, Java开发婚礼举办案例与实操200例APP Geeker-2025 python java
开发一个婚礼举办案例与实操200例App，旨在为用户提供丰富的婚礼策划案例和实操经验，帮助用户更好地组织和策划婚礼。以下是App的核心功能设计和实现思路：---###核心功能设计1.**婚礼案例展示**：-提供200个以上的婚礼案例，包括室内、户外、主题婚礼等。-支持按风格、地点、预算等条件筛选案例。2.**案例详情**：-提供每个婚礼案例的详细信息，包括场地布置、流程安排、费用预算、摄影师和策划
Android开发：如何在应用中显示应用名称 t0_54program 编程问题解决手册 android 个人开发
在Android开发中，应用程序的用户界面（UI）设计是一个关键环节。许多新手开发者在使用AndroidStudio和Java语言创建应用时，可能会遇到一些常见的UI问题。比如，如何在应用的顶部显示应用名称（即标题栏或工具栏）。本文将详细讲解如何在Android应用中正确显示应用名称，并通过一个实际的实例来展示解决方案。问题描述假设你正在开发一个简单的Android应用，该应用可以将公斤（kg）转
Python, Springboot 开发基于人类指令生成机器人3D可视化动态模型app Geeker-2025 python spring boot
开发一个基于人类指令生成机器人3D可视化动态模型的APP是一个复杂且多层次的项目，涉及前端和后端的多个技术栈。以下是一个高层次的设计概述，涵盖主要的技术栈和功能模块，并提供使用Python和SpringBoot进行联合开发的示例。##技术栈概述###前端-**框架**：React.js或Vue.js（用于构建用户界面）-**3D可视化**：Three.js或React-Three-Fiber（用于
LangChain实战：利用LangChain SQL Agent和GPT进行文档分析和交互 AGI八零后 langchain sql gpt
我最近接触到一个非常有趣的挑战，涉及到人工智能数字化大量文件的能力，并使用户可以在这些文件上提出复杂的与数据相关的问题，比如：数据检索问题：涉及从数据库中获取特定数据点或数据集，例如“电子产品类别中有多少产品？”或“2021年第四季度总销售额是多少？”汇总查询：需要对数据进行总结的问题，如计算平均值、求和、计数等，例如“所有已上架产品的平均价格是多少？”或“每个地区客户的总人数是多少？”数据关系探
ThinkPHP API接口开发的深入探讨 2401_85969209 python
ThinkPHPAPI接口开发的深入探讨随着Web技术的飞速发展，API（应用程序编程接口）作为不同软件系统间通信的桥梁，其重要性日益凸显。ThinkPHP，作为一款流行的PHP开发框架，为API接口的开发提供了强大的支持。本文将详细探讨ThinkPHPAPI接口开发的各个方面，包括框架优势、开发流程、安全性考虑等。一、ThinkPHP框架在API接口开发中的优势ThinkPHP以其简洁、快速、安
React Next项目中导入Echart世界航线图一朵好运莲 react.js javascript ecmascript
公司业务要求做世界航线图，跑了三个ai未果，主要是引入world.json失败，echart包中并不携带该文件，源码的world.json文件页面404找不到。需要自己寻找。这是整个问题卡壳的关键点，特此贴出资源网址。一、安装npminstallecharts二、下载world.jsonworld.json在最下面，点开直接粘贴到自己项目中引入Indexof/examples/data/asset
【实战-解决方案】Webpack 打包后很多js方法报错：not defined oliver.chau 前端开发 webpack 前端 node.js
问题分析在不打包的情况下，方法（如checkLoginStatus、filterSites、initProgressBar等）可以正常运行，而经过Webpack打包后报isnotdefined错误，通常有以下几个可能的原因：全局变量丢失在Webpack打包时，默认使用模块作用域（strictmode），不会自动将定义的函数暴露到window全局作用域。在不打包的情况下，脚本文件直接在HTML里引入
Python学习第十五天 Leo来编程 Python学习 python 学习
Django概念Django最初被设计用于具有快速开发需求的新闻类站点，目的是要实现简单快捷的网站开发。以下内容简要介绍了如何使用Django实现一个数据库驱动的网络应用。（Django是一个开放源代码的第三方模块Web应用框架，并且是一个功能全，重量的框架。Flask框架是一个轻量级功能少，从github上搜索pythonweb项目基本都出来的是django和flask项目）学习文档可以使用：官
【GPT入门】第18课 langchain介绍与API初步体验 *星星之火* 大模型 gpt langchain
【GPT入门】langchain第一课langchain介绍与API初步体验1.langchain介绍定义特点1.模块化与灵活性2.链式调用机制3.数据连接能力4.记忆管理功能5.提示工程支持6.可扩展性2.langchain核心组件架构图3.最简单的helloworld入门1.langchain介绍LangChain是一个用于开发由语言模型驱动的应用程序的开源框架，它在大语言模型（LLM）应用开
python 获取鼠标在屏幕上的具体位置以及动作，判断鼠标是否在浏览器内计算机辅助工程 python 计算机外设开发语言
python获取鼠标在屏幕上的具体位置以及动作,判断鼠标是否在浏览器内在Python中，要获取鼠标在屏幕上的具体位置以及动作，并判断鼠标是否在浏览器内，我们可以使用pyautogui库。pyautogui是一个非常强大的库，可以用来模拟鼠标操作、屏幕截图、获取屏幕尺寸和分辨率等。安装pyautogui首先，确保你已经安装了pyautogui。如果还没有安装，可以通过pip安装：pipinstall
mysql、oracle、SQLserver之间的区别和优势噔噔噔噔@ mysql oracle sqlserver
MySQL、Oracle和SQLServer都是常见的关系型数据库管理系统（RDBMS），它们在某些方面有一些区别和优势。MySQL：MySQL是一种开源的RDBMS，由Oracle公司开发和维护。它具有快速、稳定和易于使用的特点。MySQL适用于中小型应用和网站，它在处理大量简单的查询时表现较好。MySQL对于开发者来说是免费的，但也有商业版提供更多高级功能。Oracle：Oracle是一种商业
dns域名双栈解析缘来是黎 linux service linux
客户端既有ipv4地址，也有ipv6地址，服务端域名解析既有ipv4地址，也有ipv6地址。那么客户端向服务端发起请求时，客户端使用哪个地址发起请求，服务端如何判断客户端使用的ip协议版本，dns服务器又是如何准确的将域名解析为对应的ip协议版本的地址一、客户端地址选择机制操作系统优先级客户端操作系统（如Windows、Linux）默认采用IPv6优先策略例如：当DNS同时返回A记录（IPv4）和
mysql之主从切换 hanruiding mysql android adb
mysql之主从切换故障切换1.保证从库数据已更新完毕2、从库S1重置为主库3、从库S2重置，改为S1为主库：4、主库恢复后，同S2，改主库为S1故障切换主：M(10.10.10.1)从：S1(10.10.10.2)、S2(10.10.10.2)由于主库M已经故障，所以只要把S1或者S2提升为主库，假如提升S1为主库，修改S2的主库为S1，即可。1.保证从库数据已更新完毕在从库S1、S2上操作，保
Android 中临时文件存放路径选择 casual_clover 新起点 android
在Android中，下载临时文件通常可以放在以下目录中，具体选择取决于应用的需求和目标Android版本的限制：1.通用临时目录（/data/local/tmp/）这是Android系统提供的一个通用临时目录，适用于存储临时文件。特点：无需特殊权限：应用通常可以直接访问此目录，无需请求存储权限。适合临时文件：文件在设备重启后可能会被清理，适合存储临时数据。valtempFilePath="/dat
高效集成销售订单数据到MySQL的方法 CL_IN mysql android 数据库
聚水潭数据集成到MySQL的技术案例分享在企业的数据处理和分析过程中，如何高效地将聚水潭系统中的销售订单数据集成到MySQL数据库中，是一个关键的技术挑战。本文将详细介绍“聚水潭-销售订单-->BI花花尚--销售订单表（非奇门）”这一具体案例，展示如何通过轻易云数据集成平台实现这一目标。首先，我们需要解决的是如何确保从聚水潭获取的数据不漏单，并且能够快速、批量地写入到MySQL中。为此，轻易云提供
WebRTC技术在音视频处理上的难点剖析：EasyRTC嵌入式视频通话SDK的优化策略 Black蜡笔小新 EasyRTC webrtc 音视频大模型人工智能
在实时通信领域，WebRTC技术因其开源、高效、低延迟等特性而备受瞩目。然而，尽管WebRTC技术已经相对成熟，但在实际应用中仍然面临诸多挑战。一、网络相关问题（一）网络延迟与稳定性在网络基础设施薄弱或带宽有限的地区，实时通信质量会大打折扣。此外，不同网络运营商之间的差异以及网络拥塞高峰时段，也会导致延迟飙升、丢包率增加。EasyRTC解决方案：EasyRTC通过优化网络传输技术，采用先进的智能路
爬虫中一些有用的用法才不是小emo的小杨爬虫 xpath
文本和标签在一个级别下如果文本和a标签在一个级别下比如：#获取a标签后的第一个文本节点text_node=a.xpath('following-sibling::text()[1]')[0].strip()将xpath的html代码转换成字符串etree.tostring(root,pretty_print=True,encoding="utf-8")获取所有同级标签的最后一个data_list=
计算机考研408数据结构大题高频考点与真题解析竹木有心数据结构
一、线性表（顺序表与链表）1.1顺序表操作与算法设计高频考点：插入/删除操作的边界处理：检查下标越界与存储空间溢出子数组操作：合并、拆分、逆置等多数组综合问题：如寻找三元组最小距离真题示例：2020年408真题题目：给定三个升序数组S1、S2、S3，求所有可能的三元组(a,b,c)的最小距离D=|a−b|+|b−c|+|c−a|。解法：算法思想：三指针法遍历数组，每次移动当前最小元素的指针核心代码
Pwn，我的栈溢出笔记就该这么写（上）「已注销」栈
一周的刨坟结束了，忙着搭建维护k8s，该整个小小的笔记了原理篇什么是栈溢出？栈溢出指的是程序向栈中某个变量中写入的字节数超过了这个变量本身所申请的字节数，因而导致与其相邻的栈中的变量的值被改变。栈溢出会导致什么结果？栈溢出漏洞轻则可以使程序崩溃，重则可以使攻击者控制程序执行流程。如何防范栈溢出？(1).金丝雀(canary)1、在所有函数调用发生时，向栈帧内压入一个额外的随机DWORD（数），这个
力扣 Hot 100 刷题记录 - 二叉树的中序遍历 a李兆洋 leetcode 算法职场和发展
力扣Hot100刷题记录-二叉树的中序遍历题目描述二叉树的中序遍历是力扣Hot100中的一道经典题目，题目要求如下：给定一个二叉树的根节点root，返回它的中序遍历结果。示例1：输入：root=[1,null,2,3]输出：[1,3,2]示例2：输入：root=[]输出：[]示例3：输入：root=[1]输出：[1]解题思路中序遍历是二叉树遍历的一种方式，遍历顺序为：左子树->根节点->右子树。常
小白力扣 Hot 100 刷题记录 - 三数之和 a李兆洋 leetcode 哈希算法算法
力扣Hot100刷题记录-三数之和题目描述给你一个整数数组nums，判断是否存在三元组[nums[i],nums[j],nums[k]]满足i!=j、i!=k且j!=k，同时还满足nums[i]+nums[j]+nums[k]==0。请你返回所有和为0且不重复的三元组。示例:输入:nums=[-1,0,1,2,-1,-4]输出:[[-1,-1,2],[-1,0,1]]解释:-nums[0]+num
探地雷达F-K偏移算法详解与Python实现 T2ccc 探地雷达算法 python
探地雷达F-K偏移算法详解与Python实现文章目录探地雷达F-K偏移算法详解与Python实现前言一、探地雷达成像原理与偏移的必要性二、F-K偏移的基本原理2.1波的传播与频率-波数域2.2F-K偏移的基本思路三、F-K偏移算法的数学推导3.1二维傅里叶变换3.2波场外推3.3Stolt映射（核心步骤）3.4逆变换四、F-K偏移的Python代码实现4.1辅助函数和数据准备4.2F-K偏移核心函
Android高级组件实践：ViewPager详解与案例 Bachnroth
本文还有配套的精品资源，点击获取简介：ViewPager是Android开发中用于页面切换的组件，广泛应用于引导页、图片查看器和Tab布局等。它通过PagerAdapter管理页面，提供页面创建与销毁的方法实现。本篇详细解析了ViewPager的使用方法，包括如何设置Adapter、绑定ViewPager、添加页面指示器、监听页面改变、自定义滚动效果、优化性能、调整离屏页面策略、动态页面管理及与F
Spring Boot + EasyExcel导入导出，简直太好用了！十一技术斩 spring boot java mybatis
背景老项目主要采用的POI框架来进行Excel数据的导入和导出，但经常会出现OOM的情况，导致整个服务不可用。后续逐步转移到EasyExcel，简直不能太好用了。EasyExcel是阿里巴巴开源插件之一，主要解决了poi框架使用复杂，sax解析模式不容易操作，数据量大起来容易OOM，解决了POI并发造成的报错。主要解决方式：通过解压文件的方式加载，一行一行地加载，并且抛弃样式字体等不重要的数据，降
E1-110.完美走位(滑动窗口） lanmaoki 华为算法题算法
题目描述在第一人称射击游戏中，玩家通过键盘的A、S、D、W四个按键控制游戏人物分别向左、向后、向右、向前进行移动，从而完成走位。假设玩家每按动一次键盘，游戏任务会向某个方向移动一步，如果玩家在操作一定次数的键盘并且各个方向的步数相同时，此时游戏任务必定会回到原点，则称此次走位为完美走位。现给定玩家的走位（例如：ASDA），请通过更换其中一段连续走位的方式使得原走位能够变成一个完美走位。其中待更换的
力扣hot100——LRU缓存（面试高频考题） 01_ 力扣hot100 leetcode 缓存面试 LRU
请你设计并实现一个满足LRU(最近最少使用)缓存约束的数据结构。实现LRUCache类：LRUCache(intcapacity)以正整数作为容量capacity初始化LRU缓存intget(intkey)如果关键字key存在于缓存中，则返回关键字的值，否则返回-1。voidput(intkey,intvalue)如果关键字key已经存在，则变更其数据值value；如果不存在，则向缓存中插入该组k
Akamai 与 AWS 风控分析与绕过技术探讨 qq_33253945 aws 云计算爬虫网络爬虫算法安全
1.引言本文将深入探讨Akamai风控和AWS签名算法的技术细节。请注意，文中内容仅供技术研究和学习交流使用。2.Akamai风控核心要素Akamai的主要风控机制包含以下几个关键点：Canvas指纹识别每个浏览器环境都有其独特的Canvas指纹这是风控系统的核心识别方式之一用户行为分析鼠标移动轨迹检测操作行为模式识别相关参数的实时计算与验证JA3指纹TLS握手特征识别客户端环境特征分析代码执行流
pandas常用数据格式IO性能对比 lining808 Python pandas python 数据分析
前言本文对pandas支持的一些数据格式进行IO（读写）的性能测试，大数据时代以数据为基础，经常会遇到操作大量数据的情景，数据的IO性能尤为重要，本文对常见的数据格式csv、feather、hdf5、jay、parquet、pickle性能进行对比。csvCSV（Comma-SeparatedValues）是一种用于存储表格数据的简单文件格式。在CSV文件中，每一行通常代表一条记录，字段（列）由逗
Linux内核地址空间布局详解 Linux加油站 linux 网络
1.简介虽然x86_64的物理地址范围为64bit，但是因为地址空间太大目前不可能完全用完，当前支持57bit和48bit两种虚拟地址模式。地址模式单个空间用户地址空间内核地址空间32位2G0x00000000-0x7FFFFFFF0x80000000-0xFFFFFFFF64位(48bit)128T0x0000000000000000-0x00007FFFFFFFFFFF0xFFFF800000
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

这几天折腾spark的kafka的低阶API createDirectStream的一些总结。

你可能感兴趣的:(这几天折腾spark的kafka的低阶API createDirectStream的一些总结。)