cpongo8

spark-streaming系列------- 3. Kafka DirectDStream方式数据的接收

KafkaRDD分区个数的确定和每个分区数据接收的计算

在KafkUtils.createDirectStream创建了DirectDStream，代码如下：

def createDirectStream[
    K: ClassTag,
    V: ClassTag,
    KD <: Decoder[K]: ClassTag,
    VD <: Decoder[V]: ClassTag] (
      ssc: StreamingContext,
      kafkaParams: Map[String, String],
      topics: Set[String]
  ): InputDStream[(K, V)] = {
    val messageHandler = (mmd: MessageAndMetadata[K, V]) => (mmd.key, mmd.message)
    val kc = new KafkaCluster(kafkaParams)
    val reset = kafkaParams.get("auto.offset.reset").map(_.toLowerCase)

    val result = for {
      /*
      * 通过跟Kafka集群通信，获得Kafka某个topic的partition信息，topicPartitions是一个数组，数组大小跟Kafka topic的分区个数相同
      * 数组元素包含话题名和parition的index
      * */
      topicPartitions <- kc.getPartitions(topics).right
      leaderOffsets <- (if (reset == Some("smallest")) {
        kc.getEarliestLeaderOffsets(topicPartitions)
      } else {
        kc.getLatestLeaderOffsets(topicPartitions)
      }).right
    } yield {
        //计算Kafka topic的每个partition的offset
      val fromOffsets = leaderOffsets.map { case (tp, lo) =>
          (tp, lo.offset)
      }
      new DirectKafkaInputDStream[K, V, KD, VD, (K, V)](
        ssc, kafkaParams, fromOffsets, messageHandler)
    }
    KafkaCluster.checkErrors(result)
  }

在这里，通过跟Kafka集群通信，获得Kafka topic每个partition的消息偏移量，作为参数继续创建DirectKafkaInputDstream.

DirectKafkaInputDstream的部分代码如下：

class DirectKafkaInputDStream[
  K: ClassTag,
  V: ClassTag,
  U <: Decoder[K]: ClassTag,
  T <: Decoder[V]: ClassTag,
  R: ClassTag](
    @transient ssc_ : StreamingContext,
    val kafkaParams: Map[String, String],
    val fromOffsets: Map[TopicAndPartition, Long],
    messageHandler: MessageAndMetadata[K, V] => R
) extends InputDStream[R](ssc_) with Logging {
  val maxRetries = context.sparkContext.getConf.getInt(
    "spark.streaming.kafka.maxRetries", 1)

  // Keep this consistent with how other streams are named (e.g. "Flume polling stream [2]")
  private[streaming] override def name: String = s"Kafka direct stream [$id]"

  protected[streaming] override val checkpointData =
    new DirectKafkaInputDStreamCheckpointData

  protected val kc = new KafkaCluster(kafkaParams)

  protected val maxMessagesPerPartition: Option[Long] = {
    val ratePerSec = context.sparkContext.getConf.getInt(
      "spark.streaming.kafka.maxRatePerPartition", 0)
    if (ratePerSec > 0) {
      val secsPerBatch = context.graph.batchDuration.milliseconds.toDouble / 1000
      Some((secsPerBatch * ratePerSec).toLong)
    } else {
      None
    }
  }
  //将topic的分区个数和偏移量信息保存在currentOffsets中
  protected var currentOffsets = fromOffsets

  @tailrec
  protected final def latestLeaderOffsets(retries: Int): Map[TopicAndPartition, LeaderOffset] = {
    val o = kc.getLatestLeaderOffsets(currentOffsets.keySet)
    // Either.fold would confuse @tailrec, do it manually
    if (o.isLeft) {
      val err = o.left.get.toString
      if (retries <= 0) {
        throw new SparkException(err)
      } else {
        log.error(err)
        Thread.sleep(kc.config.refreshLeaderBackoffMs)
        latestLeaderOffsets(retries - 1)
      }
    } else {
      o.right.get
    }
  }

  // limits the maximum number of messages per partition
  /*
  * 当没有设置最大接收速率的时候，接收终止点是当前时间的每个partition的offset
  * */
  protected def clamp(
    leaderOffsets: Map[TopicAndPartition, LeaderOffset]): Map[TopicAndPartition, LeaderOffset] = {
    maxMessagesPerPartition.map { mmp =>
      leaderOffsets.map { case (tp, lo) =>
        tp -> lo.copy(offset = Math.min(currentOffsets(tp) + mmp, lo.offset))
      }
    }.getOrElse(leaderOffsets)
  }

  override def compute(validTime: Time): Option[KafkaRDD[K, V, U, T, R]] = {
    //计算本次数据接收终止的每个paritition的offset
    val untilOffsets = clamp(latestLeaderOffsets(maxRetries))
    val rdd = KafkaRDD[K, V, U, T, R](
      context.sparkContext, kafkaParams, currentOffsets, untilOffsets, messageHandler)

    // Report the record number of this batch interval to InputInfoTracker.
    val inputInfo = InputInfo(id, rdd.count)
    ssc.scheduler.inputInfoTracker.reportInfo(validTime, inputInfo)

    currentOffsets = untilOffsets.map(kv => kv._1 -> kv._2.offset)
    Some(rdd)
  }

结论：spark-streaming DirectDStream数据接受方式，如果没有设置最大接收速率，每个batch的数据接收量为一个batch时间间隔内，Kafka topic接收到的消息量

Kafka的分区信息在DirectKafkaInputDStream的类初始化操作中，通过fromOffsets参数传递给它的currentOffsets成员，这个成员在创建KafkaRDD的时候作为初始化成员将Kafka的分区信息传递给KafkaRDD，作为生成KafkaRDD paritition的依据。

object KafkaRDD {
  import KafkaCluster.LeaderOffset

  /**
   * @param kafkaParams Kafka <a href="http://kafka.apache.org/documentation.html#configuration">
   * configuration parameters</a>.
   *   Requires "metadata.broker.list" or "bootstrap.servers" to be set with Kafka broker(s),
   *   NOT zookeeper servers, specified in host1:port1,host2:port2 form.
   * @param fromOffsets per-topic/partition Kafka offsets defining the (inclusive)
   *  starting point of the batch
   * @param untilOffsets per-topic/partition Kafka offsets defining the (exclusive)
   *  ending point of the batch
   * @param messageHandler function for translating each message into the desired type
   */
  def apply[
    K: ClassTag,
    V: ClassTag,
    U <: Decoder[_]: ClassTag,
    T <: Decoder[_]: ClassTag,
    R: ClassTag](
      sc: SparkContext,
      kafkaParams: Map[String, String],
      fromOffsets: Map[TopicAndPartition, Long],
      untilOffsets: Map[TopicAndPartition, LeaderOffset],
      messageHandler: MessageAndMetadata[K, V] => R
    ): KafkaRDD[K, V, U, T, R] = {
    val leaders = untilOffsets.map { case (tp, lo) =>
        tp -> (lo.host, lo.port)
    }.toMap
    //根据Kafka topic的每个partition的起始地址和终止地址计算表示接收数据的数据结构OffsetRange
    val offsetRanges = fromOffsets.map { case (tp, fo) =>
        val uo = untilOffsets(tp)
        OffsetRange(tp.topic, tp.partition, fo, uo.offset)
    }.toArray

    new KafkaRDD[K, V, U, T, R](sc, kafkaParams, offsetRanges, leaders, messageHandler)
  }
}

class KafkaRDD[
  K: ClassTag,
  V: ClassTag,
  U <: Decoder[_]: ClassTag,
  T <: Decoder[_]: ClassTag,
  R: ClassTag] private[spark] (
    sc: SparkContext,
    kafkaParams: Map[String, String],
    val offsetRanges: Array[OffsetRange],
    leaders: Map[TopicAndPartition, (String, Int)],
    messageHandler: MessageAndMetadata[K, V] => R
  ) extends RDD[R](sc, Nil) with Logging with HasOffsetRanges {
  //根据OffsetRanges生成RDD的partition
  override def getPartitions: Array[Partition] = {
    offsetRanges.zipWithIndex.map { case (o, i) =>
        val (host, port) = leaders(TopicAndPartition(o.topic, o.partition))//host是Kafka broker的ip地址， port是Kafka broker的端口号
        new KafkaRDDPartition(i, o.topic, o.partition, o.fromOffset, o.untilOffset, host, port)
    }.toArray
  }

在创建RDD的时候，会最终调用到getPartitions方法，这样确定了KafkaRDD每个partition所在的IP地址和端口号，KafkaRDD每个Paritition所在的IP地址为Kafka broker的地址从前面的文章：

spark-streaming系列------- 2. spark-streaming的Job调度下

知道，DirectKafkaInputDStream.compute方法被Spark-streaming的调度模块周期调用产生DStream的RDD

通过上面的代码分析，知道了Kafka的分区个数和RDD的分区个数相同，并且RDD的一个paritition和Kafka的一个partition一一对应。

KafkaRDD的数据接收

Spark-streaming任务启动之后，调用了SparkContext.runJob将数据接收和处理任务提交到Spark的Task调度系统。Spark的Task调度系统经过一系列的RDD依赖运算之后找到Root RDD是KafkaRDD。然后根据KafkaRDD的partition首先将KafkaRDD的处理任务添加到任务等待HashMap。实现代码在TaskSetManager.addPendingTask方法

private def addPendingTask(index: Int, readding: Boolean = false) {
    // Utility method that adds `index` to a list only if readding=false or it's not already there
    def addTo(list: ArrayBuffer[Int]) {
      if (!readding || !list.contains(index)) {
        list += index
      }
    }

    for (loc <- tasks(index).preferredLocations) {//preferredLocation方法返回partition所在的IP地址
      loc match {
        case e: ExecutorCacheTaskLocation =>
          addTo(pendingTasksForExecutor.getOrElseUpdate(e.executorId, new ArrayBuffer))
        case e: HDFSCacheTaskLocation => {
          val exe = sched.getExecutorsAliveOnHost(loc.host)
          exe match {
            case Some(set) => {
              for (e <- set) {
                addTo(pendingTasksForExecutor.getOrElseUpdate(e, new ArrayBuffer))
              }
              logInfo(s"Pending task $index has a cached location at ${e.host} " +
                ", where there are executors " + set.mkString(","))
            }
            case None => logDebug(s"Pending task $index has a cached location at ${e.host} " +
                ", but there are no executors alive there.")
          }
        }
        case _ => Unit
      }
      addTo(pendingTasksForHost.getOrElseUpdate(loc.host, new ArrayBuffer))//由于DirectDStream方式的loc.host地址不属于Spark集群和HDFS集群，所以Task加到了这个HashMap
      for (rack <- sched.getRackForHost(loc.host)) {
        addTo(pendingTasksForRack.getOrElseUpdate(rack, new ArrayBuffer))
      }
    }

    if (tasks(index).preferredLocations == Nil) {
      addTo(pendingTasksWithNoPrefs)
    }

    if (!readding) {
      allPendingTasks += index  // No point scanning this whole list to find the old task there  所有的Task都会加入到这个HashMap，包括DirectDStream情况下的Task
    }
  }

在这个方法里面，KafkaRDD的处理Task加入到了pendingTasksForHost和allPendingTasks两个Task等待HashMap中

任务加入到等待HashMap之后，会发送ReviveOffers消息，调用CoarseGrainedScheduleBackend.makeOffers方法确定Task在那些Executor执行，并且启动Task

CoarseGrainedScheduleBackend.makeOffers方法最终调用到TaskSchedulerImpl.resourceOfferSingleTaskSet为一个TaskSet分配资源

 //每次调用这个方法，会为轮询每个Executor分配一个Task。当TaskSet的task个数比executor的个数多的时候，剩余的Task这次调用就不执行。
  //当一个Executor上的task执行完毕之后，会发送StatusUpdate事件，driver会重新调用到这个方法，继续从TaskSet中取出Task让这个Executor执行
  private def resourceOfferSingleTaskSet(
      taskSet: TaskSetManager,
      maxLocality: TaskLocality,
      shuffledOffers: Seq[WorkerOffer],
      availableCpus: Array[Int],
      tasks: Seq[ArrayBuffer[TaskDescription]]) : Boolean = {
    var launchedTask = false
    for (i <- 0 until shuffledOffers.size) {
      val execId = shuffledOffers(i).executorId
      val host = shuffledOffers(i).host
      if (availableCpus(i) >= CPUS_PER_TASK) {//按照cpu cores个数分配task
        try {
          for (task <- taskSet.resourceOffer(execId, host, maxLocality)) {
            tasks(i) += task //将这个task放在了第i个worker(worker顺序已经shuffle了)
            val tid = task.taskId
            taskIdToTaskSetId(tid) = taskSet.taskSet.id//记录task所在的taskset
            taskIdToExecutorId(tid) = execId//记录task所在的executor
            executorsByHost(host) += execId
            availableCpus(i) -= CPUS_PER_TASK
            assert(availableCpus(i) >= 0)
            launchedTask = true
          }
        } catch {
          case e: TaskNotSerializableException =>
            logError(s"Resource offer failed, task set ${taskSet.name} was not serializable")
            // Do not offer resources for this task, but don't throw an error to allow other
            // task sets to be submitted.
            return launchedTask
        }
      }
    }
    return launchedTask
  }

在上面的resourceOfferSingleTaskSet方法中，将产生的Task轮询分配到了各个Executor

下面看看Task是如何产生的：

TaskSetManager.resourceOffer定义：

def resourceOffer(
      execId: String,
      host: String,
      maxLocality: TaskLocality.TaskLocality)
    : Option[TaskDescription] =
  {
    if (!isZombie) {
      val curTime = clock.getTimeMillis()

      var allowedLocality = maxLocality

      if (maxLocality != TaskLocality.NO_PREF) {
        allowedLocality = getAllowedLocalityLevel(curTime)
        if (allowedLocality > maxLocality) {
          // We're not allowed to search for farther-away tasks
          allowedLocality = maxLocality
        }
      }

      dequeueTask(execId, host, allowedLocality) match {
        case Some((index, taskLocality, speculative)) => {
          // Found a task; do some bookkeeping and return a task description
          val task = tasks(index)
          val taskId = sched.newTaskId()
          // Do various bookkeeping
          copiesRunning(index) += 1
          val attemptNum = taskAttempts(index).size
          val info = new TaskInfo(taskId, index, attemptNum, curTime,
            execId, host, taskLocality, speculative)
          taskInfos(taskId) = info
          taskAttempts(index) = info :: taskAttempts(index)
          // Update our locality level for delay scheduling
          // NO_PREF will not affect the variables related to delay scheduling
          if (maxLocality != TaskLocality.NO_PREF) {
            currentLocalityIndex = getLocalityIndex(taskLocality)
            lastLaunchTime = curTime
          }
          // Serialize and return the task
          val startTime = clock.getTimeMillis()
          val serializedTask: ByteBuffer = try {
            Task.serializeWithDependencies(task, sched.sc.addedFiles, sched.sc.addedJars, ser)
          } catch {
            // If the task cannot be serialized, then there's no point to re-attempt the task,
            // as it will always fail. So just abort the whole task-set.
            case NonFatal(e) =>
              val msg = s"Failed to serialize task $taskId, not attempting to retry it."
              logError(msg, e)
              abort(s"$msg Exception during serialization: $e")
              throw new TaskNotSerializableException(e)
          }
          if (serializedTask.limit > TaskSetManager.TASK_SIZE_TO_WARN_KB * 1024 &&
              !emittedTaskSizeWarning) {
            emittedTaskSizeWarning = true
            logWarning(s"Stage ${task.stageId} contains a task of very large size " +
              s"(${serializedTask.limit / 1024} KB). The maximum recommended task size is " +
              s"${TaskSetManager.TASK_SIZE_TO_WARN_KB} KB.")
          }
          addRunningTask(taskId)

          // We used to log the time it takes to serialize the task, but task size is already
          // a good proxy to task serialization time.
          // val timeTaken = clock.getTime() - startTime
          val taskName = s"task ${info.id} in stage ${taskSet.id}"
          logInfo("Starting %s (TID %d, %s, %s, %d bytes)".format(
              taskName, taskId, host, taskLocality, serializedTask.limit))

          sched.dagScheduler.taskStarted(task, info)
          return Some(new TaskDescription(taskId = taskId, attemptNumber = attemptNum, execId,
            taskName, index, serializedTask))
        }
        case _ =>
      }
    }
    None
  }

从上面的方法可知道，Task的获取是在TaskSetManager.dequeueTask方法，定义如下：

 //优先返回本地性最高的task
  private def dequeueTask(execId: String, host: String, maxLocality: TaskLocality.Value)
    : Option[(Int, TaskLocality.Value, Boolean)] =
  {
    //如果这个Executor有等待任务，则从等待队列取下来，返回
    for (index <- dequeueTaskFromList(execId, getPendingTasksForExecutor(execId))) {
      return Some((index, TaskLocality.PROCESS_LOCAL, false))
    }

    if (TaskLocality.isAllowed(maxLocality, TaskLocality.NODE_LOCAL)) {//由于KafkaRDD partition所在的Ip地址跟Executor的IP地址不同，所以Task不能从这个HashMap获取
      for (index <- dequeueTaskFromList(execId, getPendingTasksForHost(host))) {
        return Some((index, TaskLocality.NODE_LOCAL, false))
      }
    }

    if (TaskLocality.isAllowed(maxLocality, TaskLocality.NO_PREF)) {
      // Look for noPref tasks after NODE_LOCAL for minimize cross-rack traffic
      for (index <- dequeueTaskFromList(execId, pendingTasksWithNoPrefs)) {
        return Some((index, TaskLocality.PROCESS_LOCAL, false))
      }
    }

    if (TaskLocality.isAllowed(maxLocality, TaskLocality.RACK_LOCAL)) {
      for {
        rack <- sched.getRackForHost(host)
        index <- dequeueTaskFromList(execId, getPendingTasksForRack(rack))
      } {
        return Some((index, TaskLocality.RACK_LOCAL, false))
      }
    }

    if (TaskLocality.isAllowed(maxLocality, TaskLocality.ANY)) {//KafkaRDD的处理Task从addPendingTasks这个HashMap获取
      for (index <- dequeueTaskFromList(execId, allPendingTasks)) {
        return Some((index, TaskLocality.ANY, false))
      }
    }

    // find a speculative task if all others tasks have been scheduled
    dequeueSpeculativeTask(execId, host, maxLocality).map {
      case (taskIndex, allowedLocality) => (taskIndex, allowedLocality, true)}
  }

在产生任务的时候，尽量优先产生本地性高的任务，由于KafkaRDD各个Partition所在的IP地址跟Spark Executor的IP地址不同，只能从allPendingTask这个HashMap获取任务了。

根据上面3个方法的分析得出结论：KafkaRDD的接收Task个数跟KafkaRDD的partition个数是相同的，并且所有的KafkaRDD处理Task轮询分配到了各个Executor上

KafkaRDD的实际开始处理是在ShuffleMapTask.runTask方法，源码如下：

override def runTask(context: TaskContext): MapStatus = {
    // Deserialize the RDD using the broadcast variable.
    val deserializeStartTime = System.currentTimeMillis()
    val ser = SparkEnv.get.closureSerializer.newInstance()
    val (rdd, dep) = ser.deserialize[(RDD[_], ShuffleDependency[_, _, _])](
      ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)
    _executorDeserializeTime = System.currentTimeMillis() - deserializeStartTime

    metrics = Some(context.taskMetrics)
    var writer: ShuffleWriter[Any, Any] = null
    try {
      val manager = SparkEnv.get.shuffleManager
      writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context)
      writer.write(rdd.iterator(partition, context).asInstanceOf[Iterator[_ <: Product2[Any, Any]]])//rdd.iterator读取并处理数据，把处理结果返回
      return writer.stop(success = true).get
    } catch {
      case e: Exception =>
        try {
          if (writer != null) {
            writer.stop(success = false)
          }
        } catch {
          case e: Exception =>
            log.debug("Could not stop writer", e)
        }
        throw e
    }
  }

这个方法根据RDD的依赖关系，调用到了KafkaRDD.compute方法，由于KafkaRDD是root RDD，所以KafkaRDD.compute在一系列依赖RDD中最先执行，返回从Kafka broker接收到的消息的Iterator ，而Spark在处理RDD partition的时候，RDD paritition中的数据最原始的组织形式就是Iterator

结论：Spark-streaming 采用DirectDStream接收数据，把接收过来的数据直接组织成RDD进行处理

Qt中宏定义的理解（持续更新） Giant NG Qt qt c++宏定义
QT_BEGIN_NAMESPACE与QT_END_NAMESPACE以前Qt4是没有Qt命名空间的，后来才加上的，编译Qt源码时会有选项，是否将这些类放到专用的Qt命名空间内，默认是没有的。这就出来问题了，为了统一，如果你的代码在默认没有Qt命名空间的SDK中编译，那你就不用在前置声明下面这些类的时候加上命名空间，但如果你在有Qt命名空间的SDK中编译，那就得加上命名空间了，为了屏蔽这个差异，使
KNN算法实例_手写识别系统 V文宝机器学习算法
创建一个简单的书写识别系统，使用KNN算法来识别手写数字。分别使用手写KNN算法和调用scikit-learn库来实现。在数据处理过程中，将使用一个常见的手写数字数据集，如MNIST数据集。数据集我们将使用MNIST数据集，它包含60000个训练样本和10000个测试样本。每个样本是一个28x28像素的灰度图像，表示0-9之间的手写数字。手写KNN算法我们首先手写一个KNN算法来实现书写识别系统。
ES6（4） Map 集合详解 Theodore_1022 ES6 es6 前端 ecmascript javascript 开发语言
1.Map集合简介Map是ES6提供的一种新的键值对数据结构，与普通对象（Object）不同，Map的键可以是任意类型（包括对象、函数等）。2.创建Map集合可以使用newMap()创建一个Map，并在括号内传入一个二维数组来初始化键值对。letauthor=newMap([['name','theodore'],['age','21'],['web','https://blog.csdn.net
用Python开发一个简单的“记忆翻牌”小游戏风亦辰739 Python小游戏 python pygame 开发语言
“记忆翻牌”是一款经典的益智小游戏，玩家需要通过记忆卡片的位置配对相同的图案。今天我们将使用pygame库实现一个简单版本的记忆翻牌游戏。一、游戏规则游戏开始时，卡片会随机排列并翻面。玩家一次可以翻两张卡片：如果图案相同，卡片保持翻开状态。如果图案不同，卡片会短暂显示后翻回去。游戏目标是用最少的步数找到所有配对。二、开发环境开发工具：任意Python编辑器（如PyCharm、VSCode）。依赖库
Spring中的Events Leon_Jinhai_Sun
事件通过org.springframework.context.ApplicationEvent实例来表示。这个抽象类继承扩展了java.util.EventObject，可以使用EventObject中的getSource方法，我们可以很容易地获得所发生的给定事件的对象。这里，事件存在两种类型与应用程序上下文相关联所有这种类型的事件都继承自org.springframework.context.
vue+ts+electron从客户端跳转网页，public文件中的图片不显示如何解决以及动态环境配置中数据获取不到是小许同学吖 vue.js electron ubuntu 前端 typescript
客户端跳转网页遇到的问题跳转新窗口打开浏览器客户端跳转网页，public文件中的图片不显示如何解决在.env.dev中设置的环境配置信息获取不到跳转新窗口打开浏览器从客户端跳转新窗口打开浏览器代码如下：//跳转新窗口，打开浏览器constgoNewWindows=(item:any)=>{console.log(item
芯片时钟树结构（H-tree,Fishbone,FlexH,Mesh等）的对比、应用实例及未来趋势赛卡人工智能服务器云计算边缘计算
引言在先进制程芯片设计中，时钟树综合（ClockTreeSynthesis,CTS）的优化程度直接影响芯片的时序收敛、功耗分布和面积利用率。随着工艺节点演进至5nm及以下，时钟网络的复杂性和设计约束呈现指数级增长。本文将深入解析H-tree、Fishbone、FlexHtree及Clockmesh四种主流时钟树结构的技术特性，结合服务器芯片、GPU及AI芯片的实战案例，并探讨主流EDA工具对CTS
高安全可靠CAN FD芯片ASM1042的技术特性与应用前景国科安芯产品单片机嵌入式硬件架构 fpga开发
1.ASM1042简介ASM1042是国科安芯推出的一款高性能CANFD（CANwithFlexibleData-Rate）收发器芯片，专为高可靠性场景设计。该芯片基于ISO11898-2:2016和ISO11898-5:2007物理层标准开发，支持最高5Mbps的数据传输速率，适用于汽车、航天、军工及工业控制等领域。其核心特性包括：高耐压设计：总线保护电压最高达±70V（H型号），共模输入电压范
【建议收藏】DeepSeek学习手册合集 2501_91151777 pdf
DeepSeek资源链接：https://pan.quark.cn/s/19500abf3ace流水的AI，铁打的DeepSeek。热点AI成出不穷，可DeepSeek始终站稳大哥的位置，不可动摇！清华北大不断出品DeepSeek精品课程，华为pc新品可本地部署DeepSeek。想学好AI，先学好DeepSeek。我们深知优质的学习资料对AI学习者的重要性，为此，我们精心整理了全网热门DeepSe
Linux进程和计划管理命令 IT 小旋风 linux
查看进程查看静态的进程统计信息命令：ps选项a：显示当前终端下的所有进程信息u：使用以用户为主的格式输出进程信息x：显示当前用户在所有-e：显示系统内的所有进程信息-l：使用长格式显示进程信息-f：使用完整的格式显示进程信息示例：若想以用户为主的格式查看当前终端下的所有进程信息，可以使用命令psau，会看到类似如下的输出（部分示例数据）：plaintextUSERPID%CPU%MEMVSZRSS
蓝桥杯常见算法模板（Python组） -777. 蓝桥杯算法
目录1.二分1.整数二分（二分答案）：2.浮点数二分（考不到）2.前缀和、差分1.前缀和一维：二维：2.差分一维：二维：3.贪心4.线性DP1.最长上升子序列（子序列问题一般下标从一开始）2.最长公共子序列3.常见背包模型1.0-1背包2.完全背包3.多重背包4.混合背包5.二维费用背包6.分组背包5.搜索1.DFS模板：1.子集问题2.全排列问题2.BFS6.数据结构1.并查集2.树状数组3.树
Python进程与线程：分布式进程梧桐树0429 python 分布式开发语言
在Python中，当我们面临选择使用线程（Thread）还是进程（Process）时，进程往往因其更高的稳定性和可扩展性而被优先考虑。特别是，进程能够跨越多台机器进行分布，而线程则受限于同一台机器的多个CPU核心。Python的multiprocessing模块不仅支持多进程，其managers子模块更是提供了将多进程分布到多台机器上的能力。通过managers模块，我们可以轻松编写分布式多进程程
kotlin与MVVM的结合使用总结（三）每次的天空 kotlin 前端开发语言
在MVVM（Model-View-ViewModel）架构中，ViewModel（VM层）起到了连接视图（View）和数据模型（Model）的桥梁作用。它负责处理业务逻辑、管理数据状态，并将数据以一种可观察的方式提供给视图。以下将深入讲解在Kotlin中如何实现MVVM的VM层，并结合代码进行说明。创建ViewModel类ViewModel类负责处理业务逻辑和管理数据状态，并将数据以LiveDat
别让理性毁了爱情盐论君创业创新社交电子娱乐传媒
去过的地方越多，你就越能体会到文明一词的含义。当一个地区把抢婚当作是一种文化传统，并视女方反抗的越强烈婚后生活越幸福时，那么以此为判断标准的理性将会践踏一切人们坚守的底线和美德。这只是人们用理性扭曲婚姻和爱情的一个极端，现实中更常见的是‘相亲市场’，甚至有人将其打造成了一种娱乐节目，这已经完全与爱情无关，只是一种理性数据对人性本能的嘲讽，结果绝不是童话中公主和王子幸福生活在一起，而是将一个人的志气
Python 进程与线程-分布式进程赔罪分布式 python 开发语言
目录分布式进程小结分布式进程在Thread和Process中，应当优选Process，因为Process更稳定，而且，Process可以分布到多台机器上，而Thread最多只能分布到同一台机器的多个CPU上。Python的multiprocessing模块不但支持多进程，其中managers子模块还支持把多进程分布到多台机器上。一个服务进程可以作为调度者，将任务分布到其他多个进程中，依靠网络通信。
Unity中WolrdSpace下的UI展示在上层程序员也有头发 Unity开发 unity ui 游戏引擎
一、问题描述Unity中Canvas使用WorldSpace布局的UI，想让它不被3d物体遮挡，始终显示在上层。二、解决方案使用shader解决在UI的材质中禁用深度测试（ZTest），强制UI始终渲染在最上层。Shader"Custom/UI_NoDepthTest"{Properties{...}SubShader{Tags{"Queue"="Transparent+1000"//设置高优先级
30个节点的Doris集群，每个节点有2块7TB的SSD盘，12块8TB的机械盘，分区和分桶的最佳实践 fzip Doris Doris分区分桶
针对30个节点（每个节点配备2块7TBNVMe盘+12块8TBSATA盘）的Doris集群，以下是分区与分桶的最佳实践方案：一、硬件资源规划与存储优化存储介质分层•NVMe盘：用于存储热数据分区（如最近3天数据）、元数据和高频查询表，利用其高IOPS特性提升实时查询性能。•SATA盘：存储冷数据分区（如历史数据）、大宽表和批量导入的中间数据，通过成本优势支撑海量存储。磁盘负载均衡•每个节点的14块
antd的Form表单校验的方式有几种迷途小码农零零发 React 前端 javascript 开发语言
AntDesign的Form组件提供了多种灵活的表单校验方式，以下是常见的几种方法及示例：1.内置校验规则通过rules配置预定义的校验规则（如必填、长度、格式等）。2.自定义校验函数使用validator编写自定义校验逻辑。{if(value&&value.length>=8){returnPromise.resolve();}returnPromise.reject(newError('密码至
定了！粉丝破800w的陈雷老师确认出席创客匠人5000人的“全球创始人IP领袖高峰论坛” 创小匠 tcp/ip 大数据人工智能
正式官宣！全网粉丝800W+、中医学博士——陈雷，确认应邀参加创客匠人5000人“全球创始人IP领袖高峰论坛”，共襄知识服务领域的年度盛宴！由创客匠人发起的“全球创始人IP领袖高峰论坛”将在2024年12月26日-28日在厦门市国际博览会议中心隆重举行。大会邀请到众多行业内的顶尖大咖和领袖人物亲临现场，围绕“IP、趋势、战略、创新、增长”五大关键词，分享他们的宝贵经验和独到见解。这将是2024年底
双软企业认定干货大放送：条件、流程、时间全知晓卧涛西安17391873147 大数据经验分享
在科技飞速发展的当下，双软企业认定成为众多软件企业关注的焦点。那么，究竟什么是双软企业？认定双软企业又需要满足哪些条件、经历怎样的流程、耗费多长时间呢？今天，就为大家带来满满的干货，一文讲透双软企业认定那些事儿，要是看完还有疑问，欢迎找小编咨询哦！一、什么是双软企业双软企业，简单来说，是指软件企业和软件产品经过相关部门的认定，符合特定标准的企业。软件企业认定侧重于企业的整体研发、生产经营等情况，而
WPF框架介绍---Prism框架（万字长文一篇文章带你弄懂Prism）白白白白纸呀 WPF知识总结 .net c#开发语言 windows wpf
目录Prism中的基本对象数据与行为对象1.BindableBase：数据绑定的基础作用与特性关键方法使用示例2.DelegateCommand/DelegateCommand：行为的封装作用与特性关键方法使用示例无参数命令带参数的命令在XAML中绑定命令Prism框架中的IoC（控制反转）容器1.核心接口与配置1.1容器配置入口1.2关键接口2.服务注册方式2.1基础注册2.2生命周期控制3.依
彻底卸载Visual Studio的工具（官方推荐）中二的小北 visual studio ide
方法一：使用TotalUninstaller工具下载地址：https://github.com/Microsoft/VisualStudioUninstaller/releases1.点击下载地址，选择TotalUninstaller进行下载2.下载后进行解压，选择压缩包中的Setup.ForcedUninstall.exe，双击进入，选择“Y”，进行卸载方法二：官网的卸载方法方法地址：卸载或移除
python连接clickhouse studying_mmr python python clickhouse 数据分析大数据 numpy
Python连接clickhouse成功连接并输出数据避坑需要准备的package连接数据库读取数据需要的包导出文件Reference需要准备的packageclickhouse驱动程序pipinstallclickhouse-driverpipinstallclickhouse-driver[numpy]pipinstallopenpyxlpipinstallPillow这里下载的时候会报错如果
Flask--orm wakawakaohoh Flask
fromflaskimportFlask#1.导入模块fromflask_sqlalchemyimportSQLAlchemyapp=Flask(__name__)importos#获取绝对路径BASE_DIR=os.path.abspath(os.path.dirname(__file__))print(BASE_DIR)##2.配置数据库连接classConfig(object):#连接数据库
FLASK，ORM(mysql)，12条查询练习语句毛毛是一只狗《Python专栏》flaskORM
ORM查询语句练习，创表数据在flask课件里，在我资源里可以下载查询所有用户数据查询有多少个用户查询第1个用户查询id为4的用户[3种方式]查询名字结尾字符为g的所有数据[开始/包含]查询名字不等于wang的所有数据[2种方式]查询名字和邮箱都以li开头的所有数据[2种方式]查询password是123456或者email以itheima.com结尾的所有数据查询id为[1,3,5,7,9]的用
AI大模型推理加速：技术与实践详解 AI大模型学习者人工智能
近年来，AI大模型在自然语言处理、计算机视觉等领域取得了突破性进展。然而，大模型的推理速度却成为其落地应用的瓶颈。本文将详细探讨AI大模型推理加速的技术手段和实践经验，并结合具体案例进行分析。一、挑战与机遇1.1挑战庞大的参数量:大模型通常拥有数十亿甚至数千亿个参数，例如GPT-3拥有1750亿个参数。如此庞大的参数量导致模型文件体积巨大，加载和推理都需要消耗大量的内存和计算资源。复杂的计算图:大
如何快速实现MODBUS TCP转Profinet——泗博网关EPN-330 上海泗博自动化 PROFINET 工业以太网 Modbus TCP PROFINET MODBUSTCP转PN 泗博网关
泗博网关EPN-330可作为PROFINET从站，支持与西门子S7-200SMART/300/400/1200/1500全系列PLC以及具有PROFINET主站的系统无缝对接，而ModbusTCP端，可以与ModbusTCP从站设备、主站PLC、DCS系统以及组态软件等进行数据交互。通过EPN-330，可以快速实现MODBUSTCP转Profinet，轻松地将多个ModbusTCP接口的设备连接到
书法绘画类毕业论文文献都有哪些？六维论文推荐人工智能机器学习大数据数据挖掘编程语言
本文是为大家整理的书法绘画主题相关的10篇毕业论文文献，包括5篇期刊论文和5篇学位论文，为书法绘画选题相关人员撰写毕业论文提供参考。1.[期刊论文]中国唐代书法与西方现代派绘画的异同——以欧阳询和马蒂斯为例期刊：《美与时代（中旬刊）·美术学刊》|2021年第003期摘要：元代赵孟頫提出"书画同源"一词,意为书法和绘画关系密切,二者的产生和发展相辅相成.书法的源头本来就是极简的图像,并且发展成为真正
华为又一重拳！迄今为止最强5G基带芯片、全球最快CPE正式发布！ weixin_34101229 5g
华为目前已经获得30个5G商用合同，已经出货超过25000个5G基站。就在刚刚，华为推出了业界首款5G基站核心芯片天罡芯片，5G多模终端芯片Balong5000（巴龙5000）以及基于该芯片的首款5G商用终端5GCPEPro。华为：让5G基站更简单据悉，天罡芯片支持200M频宽频带，可以让全球90%的站点在不改造市电的情况下实现5G，预计可以把5G基站重量减少一半。华为常务董事、运营BG总裁丁耘透
掌握Visual C++ 2019 Build Tools的高效开发方法心言星愿
本文还有配套的精品资源，点击获取简介：VisualStudioBuildTools中的VisualC++2019BuildTools是针对C++开发的关键组件，提供了编译和构建项目的轻量级解决方案。本文详细介绍了VisualC++2019BuildTools的核心组件，如MSVC编译器、C++运行时库、WindowsSDK等，以及如何进行安装配置、使用场景、实践应用和最佳实践。通过本文的学习，读者
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

spark-streaming系列------- 3. Kafka DirectDStream方式数据的接收

spark-streaming系列------- 2. spark-streaming的Job调度 下

你可能感兴趣的:(spark-streaming系列------- 3. Kafka DirectDStream方式数据的接收)

spark-streaming系列------- 2. spark-streaming的Job调度下