Anbang713

Spark架构原理-TaskScheduler原理剖析

原文地址：https://blog.csdn.net/zhanglh046/article/details/78486051

TaskScheduler是一个接口，DAGScheduler在提交TaskSet给底层调度器的时候是面向接口TaskScheduler。TaskSchduler的核心任务是提交Taskset到集群运算并汇报结果。其执行过程如下图所示：

为TaskSet创建和维护一个TaskSetManager并追踪任务的本地性以及错误信息。
遇到Straggle任务会放到其他的节点进行重试。
向DAGScheduler汇报执行情况，包括在Shuffle输出lost的时候报告fetch failed错误等信息。

在Standalone模式下StandaloneSchedulerBackend在启动的时候构造AppClient实例并在该实例start的时候启动了ClientEndpoint这个消息循环体。ClientEndpoint在启动的时候会向Master注册当前程序。而StandaloneSchedulerBackend的父类CoarseGrainedSchedulerBackend在start的时候会实例化类型为DriverEndpoint（这就是我们程序运行时候的经典对象的Driver）的消息循环体，StandaloneSchedulerBackend专门负责收集Worker上的资源信息，当ExecutorBackend启动的时候会发送RegisteredExecutor信息向DriverEndpoint注册，此时StandaloneSchedulerBackend就掌握了当前应用程序拥有的计算资源，TaskScheduler就是通过StandaloneSchedulerBackend拥有的计算资源来具体运行Task。

一、核心属性

Int maxTaskFailures: task最多失败次数
Boolean isLocal：是否本地运行
AtomicLong nextTaskId：递增的task id
SPECULATION_INTERVAL_MS : 多久检查一次推测任务
CPUS_PER_TASK: 每一个任务需要的cpu核数
HashMap[Long, TaskSetManager]taskIdToTaskSetManager: 为TaskSet创建和维护一个TaskSetManager并追踪任务的本地性以及错误信息
HashMap[Long, String] taskIdToExecutorId: 维护的taskId和executorId的映射
HashMap[String, HashSet[Long]]executorIdToRunningTaskIds:每一个execuotor上运行的task集合的映射
HashMap[String, HashSet[String]] hostToExecutors: 主机名和executors之间的映射
HashMap[String, HashSet[String]] hostsByRack：机架和主机名的映射
HashMap[String, String] executorIdToHost： executorID和主机名映射
DAGScheduler dagScheduler：
SchedulerBackend backend：调度器的通信终端
SchedulableBuilder schedulableBuilder：调度模式，比如FIFO或者Fair
schedulingModeConf：所配置的调度模式，默认FIFO
Pool rootPool: 用于调度TaskManager
TaskResultGetter taskResultGetter: Task结果获取器

二、重要方法

2.1 初始化和启动方法

我们知道，在SparkContext初始化的时候，就会初始化TaskScheduler以及SchedulerBackend，并且会初始化和启动TaskScheduler。

/** SparkContext.scala*/
def initialize(backend:SchedulerBackend) {
  // 初始化SchedulerBackend
  this.backend= backend
  // 创建一个Pool用于调度TasksetManager
  rootPool = new Pool("",schedulingMode, 0, 0)
  // 通过配置的调度模式，构建SchedulableBuilder
  schedulableBuilder= {
    schedulingModematch{
      case SchedulingMode.FIFO=>
        new FIFOSchedulableBuilder(rootPool)
      case SchedulingMode.FAIR=>
        new FairSchedulableBuilder(rootPool,conf)
      case _ =>
        throw new IllegalArgumentException(s"Unsupportedspark.scheduler.mode:$schedulingMode")
    }
  }
  // 开始构建pool
  schedulableBuilder.buildPools()
}

/** TaskScheduler.scala*/
override def start() {
  // 启动SchedulerBackend的start方法，StandaloneSchedulerBackend在
  // 启动的时候构造AppClient实例并在该实例start的时候启动了ClientEndpoint
  // 这个消息循环体。ClientEndpoint在启动的时候会向Master注册当前程序。
  // 父类CoarseGrainedSchedulerBackend在start的时候会实例化类型为DriverEndpoint（这就是我们程序运行时候的经典对象的Driver）
  backend.start()
  // 如果非本地执行，则检查是否需要推测
  if (!isLocal && conf.getBoolean("spark.speculation", false)) {
    logInfo("Starting speculative execution thread")
    // 如果可以推测则调用speculationSchedule定时调度checkSpeculatableTasks方法
    speculationScheduler.scheduleAtFixedRate(new Runnable {
      override def run(): Unit = Utils.tryOrStopSparkContext(sc) {
        checkSpeculatableTasks()
      }
    }, SPECULATION_INTERVAL_MS, SPECULATION_INTERVAL_MS, TimeUnit.MILLISECONDS)
  }
}

2.2 submitTasks 提交task

/** TaskScheduler.scala*/
override def submitTasks(taskSet: TaskSet) {
  // 获取task集合，TaskSet是对Task的封装
  val tasks = taskSet.tasks
  logInfo("Adding task set " + taskSet.id + " with " + tasks.length + " tasks")
  this.synchronized {
    // 创建TaskSetManager，用于跟踪每一个Task，task失败进行重试等
    val manager = createTaskSetManager(taskSet, maxTaskFailures)
    // 获取该TaskSet所对应的stageId
    val stage = taskSet.stageId
    // 构建一个映射
    val stageTaskSets =
      taskSetsByStageIdAndAttempt.getOrElseUpdate(stage, new HashMap[Int, TaskSetManager])
    // 将这个创建TaskSetManager放入到映射中
    stageTaskSets(taskSet.stageAttemptId) = manager
    // 如果有冲突的TaskSet，则抛异常
    val conflictingTaskSet = stageTaskSets.exists { case (_, ts) =>
      ts.taskSet != taskSet && !ts.isZombie
    }
    if (conflictingTaskSet) {
      throw new IllegalStateException(s"more than one active taskSet for stage $stage:" +
        s" ${stageTaskSets.toSeq.map{_._2.taskSet.id}.mkString(",")}")
    }
    // 申请任务调度，有FIFO和FAIR两种策略。根据executor的空闲资源状态
    // 及locality策略将task分配给executor。调度的数据结构封装为Pool类，
    // 对于FIFO，Pool就是TaskSetManager的队列；对于Fair，则是TaskSetManager
    // 组成的树。Pool维护TaskSet的优先级，等待executor接受资源offer(resourceOffer)
    // 的时候出列并提交executor计算
    schedulableBuilder.addTaskSetManager(manager, manager.taskSet.properties)
    // 不是本地且没有接收task，启动一个timer定时调度，如果一直没有task就警告，直到有task
    if (!isLocal && !hasReceivedTask) {
      starvationTimer.scheduleAtFixedRate(new TimerTask() {
        override def run() {
          if (!hasLaunchedTask) {
            logWarning("Initial job has not accepted any resources; " +
              "check your cluster UI to ensure that workers are registered " +
              "and have sufficient resources")
          } else {
            this.cancel()
          }
        }
      }, STARVATION_TIMEOUT_MS, STARVATION_TIMEOUT_MS)
    }
    hasReceivedTask = true
  }
  // SchedulerBackend向driver发送ReviveOffers消息
  backend.reviveOffers()
}

/** CoarseGrainedSchedulerBackend.scala（SparkDeploySchedulerBackend的父类）*/
override def reviveOffers() {
    driverEndpoint.send(ReviveOffers)
}

2.3 DriverEndPoint类的主要方法

2.3.1 receive()

override def receive: PartialFunction[Any, Unit] = {
  // 如果接收StatusUpdate消息，用于状态更新
  case StatusUpdate(executorId, taskId, state, data) =>
    // 调用TaskSchedulerImpl#statusUpdate进行更新
    scheduler.statusUpdate(taskId, state, data.value)
    // 如果Task处于完成状态
    if (TaskState.isFinished(state)) {
      // 通过executor id获取ExecutorData
      executorDataMap.get(executorId) match {
        // 如果存在数据
        case Some(executorInfo) =>
          // 则更新executor的cpu核数
          executorInfo.freeCores += scheduler.CPUS_PER_TASK
          // 获取集群中可用的executor列表,发起task
          makeOffers(executorId)
        case None =>
          logWarning(s"Ignored task status update ($taskId state $state) " +
            s"from unknown executor with ID $executorId")
      }
    }
  // 如果发送ReviveOffers消息
  case ReviveOffers =>
    // 获取集群中可用的executor列表,发起task
    makeOffers()
  // 如果是KillTask消息，表示kill掉这个task
  case KillTask(taskId, executorId, interruptThread) =>
    executorDataMap.get(executorId) match {
      // 向Executor发送KillTask的消息
      case Some(executorInfo) =>
        executorInfo.executorEndpoint.send(KillTask(taskId, executorId, interruptThread))
      case None =>
        // Ignoring the task kill since the executor is not registered.
        logWarning(s"Attempted to kill task $taskId for unknown executor $executorId.")
    }
}

2.3.2 receiverAndReply()

override def receiveAndReply(context: RpcCallContext): PartialFunction[Any, Unit] = {
  // 接收RegisterExecutor表示向Executor注册
  case RegisterExecutor(executorId, executorRef, hostname, cores, logUrls) =>
    // 如果已经注册过，则会返回RegisterExecutorFailed向executor注册失败的消息
    if (executorDataMap.contains(executorId)) {
      executorRef.send(RegisterExecutorFailed("Duplicate executor ID: " + executorId))
      context.reply(true)
    } else {
      // 获取executor的地址
      val executorAddress = if (executorRef.address != null) {
          executorRef.address
        } else {
          context.senderAddress
        }
      logInfo(s"Registered executor $executorRef ($executorAddress) with ID $executorId")
      // 更新集合
      addressToExecutorId(executorAddress) = executorId
      // 重新计算现在的总的CPU核数
      totalCoreCount.addAndGet(cores)
      // 计算现在已经注册executor数量
      totalRegisteredExecutors.addAndGet(1)
      // 构建一个Executor数据
      val data = new ExecutorData(executorRef, executorRef.address, hostname,
        cores, cores, logUrls)
      // 然后开始注册executor
      CoarseGrainedSchedulerBackend.this.synchronized {
        executorDataMap.put(executorId, data)
        if (currentExecutorIdCounter < executorId.toInt) {
          currentExecutorIdCounter = executorId.toInt
        }
        if (numPendingExecutors > 0) {
          numPendingExecutors -= 1
          logDebug(s"Decremented number of pending executors ($numPendingExecutors left)")
        }
      }
      // 然后返回消息RegisteredExecutor
      executorRef.send(RegisteredExecutor)
      context.reply(true)
      listenerBus.post(
        SparkListenerExecutorAdded(System.currentTimeMillis(), executorId, data))
      // 获取有效的executor，开始发起任务
      makeOffers()
    }
  // 接收StopDriver消息,表示停止Driver
  case StopDriver =>
    context.reply(true)
    stop()
  // 接收StopExecutors消息,表示停止Executor
  case StopExecutors =>
    logInfo("Asking each executor to shut down")
    // 遍历注册所有的executor,然后向Executor终端发送StopExecutor消息
    for ((_, executorData) <- executorDataMap) {
      executorData.executorEndpoint.send(StopExecutor)
    }
    context.reply(true)
  // 接收RemoveExecutor消息,表示删除Executor
  case RemoveExecutor(executorId, reason) =>
    executorDataMap.get(executorId).foreach(_.executorEndpoint.send(StopExecutor))
    removeExecutor(executorId, reason)
    context.reply(true)
  // 接收RetrieveSparkAppConfig消息，表示获取application相关的配置信息
  case RetrieveSparkAppConfig =>
    val reply = SparkAppConfig(sparkProperties,
      SparkEnv.get.securityManager.getIOEncryptionKey())
    context.reply(reply)
}

2.3.3 removeExecutor()

private def removeExecutor(executorId: String, reason: ExecutorLossReason): Unit = {
  logDebug(s"Asked to remove executor $executorId with reason $reason")
  // 获取对应的ExecutorData
  executorDataMap.get(executorId) match {
    case Some(executorInfo) =>
      // 从相关集合或者列表移除该executorId
      val killed = CoarseGrainedSchedulerBackend.this.synchronized {
        addressToExecutorId -= executorInfo.executorAddress
        executorDataMap -= executorId
        executorsPendingLossReason -= executorId
        executorsPendingToRemove.remove(executorId).getOrElse(false)
      }
      // 重新计算CPU核数
      totalCoreCount.addAndGet(-executorInfo.totalCores)
      totalRegisteredExecutors.addAndGet(-1)
      scheduler.executorLost(executorId, if (killed) ExecutorKilled else reason)
      listenerBus.post(
        SparkListenerExecutorRemoved(System.currentTimeMillis(), executorId, reason.toString))
    case None =>
      scheduler.sc.env.blockManager.master.removeExecutorAsync(executorId)
      logInfo(s"Asked to remove non-existent executor $executorId")
  }
}

2.3.4 makeOffers获取有效的executor，开始发起任务

private def makeOffers() {
  val activeExecutors = executorDataMap.filterKeys(executorIsAlive)
  val workOffers = activeExecutors.map { case (id, executorData) =>
    new WorkerOffer(id, executorData.executorHost, executorData.freeCores)
  }.toIndexedSeq
  launchTasks(scheduler.resourceOffers(workOffers))
}

private def makeOffers(executorId: String) {
  // 获取集群中可用的executor列表
  if (executorIsAlive(executorId)) {
    val executorData = executorDataMap(executorId)
    // 创建WorkerOffer，只是表示executor上有可用的空闲资源
    val workOffers = IndexedSeq(
      new WorkerOffer(executorId, executorData.executorHost, executorData.freeCores))
    // 发起task
    launchTasks(scheduler.resourceOffers(workOffers))
  }
}

2.3.5 launchTasks()

// 发起task,会把任务一个个发送到worker节点上的CoarseGrainedExecutorBackend,由其内部的executor来执行
private def launchTasks(tasks: Seq[Seq[TaskDescription]]) {
  for (task <- tasks.flatten) {
    // 将每一个task序列化
    val serializedTask = ser.serialize(task)
    // 检查task序列化之后是否超过所允许的rpc消息的最大值
    if (serializedTask.limit >= maxRpcMessageSize) {
      scheduler.taskIdToTaskSetManager.get(task.taskId).foreach { taskSetMgr =>
        try {
          var msg = "Serialized task %s:%d was %d bytes, which exceeds max allowed: " +
            "spark.rpc.message.maxSize (%d bytes). Consider increasing " +
            "spark.rpc.message.maxSize or using broadcast variables for large values."
          msg = msg.format(task.taskId, task.index, serializedTask.limit, maxRpcMessageSize)
          taskSetMgr.abort(msg)
        } catch {
          case e: Exception => logError("Exception in error callback", e)
        }
      }
    } else {
      // 获取对应的ExecutorData数据
      val executorData = executorDataMap(task.executorId)
      // Executor的剩余核数就需要减少一个task需要的cpu核数
      executorData.freeCores -= scheduler.CPUS_PER_TASK

      logDebug(s"Launching task ${task.taskId} on executor id: ${task.executorId} hostname: " +
        s"${executorData.executorHost}.")
      // 然后向Executor终端发送LaunchTask，发起task
      executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask)))
    }
  }
}

2.4 resourceOffers 为executor分配task

计算每一个TaskSetMangaer的本地化级别(locality_level);并且对task set尝试使用最小的本地化级别(locality_level), 将task set的task在executor上启动;如果启动不了，放大本地化级别，以此类推直到某种本地化级别尝试成功。

def resourceOffers(offers:IndexedSeq[WorkerOffer]):Seq[Seq[TaskDescription]] = synchronized {
  // 标记每一个slave是可用的且记住主机名
  var newExecAvail= false
  // 遍历有可用资源的Executor
  for (o <- offers) {
    // 如果没有包含了这个executor的host，初始化一个集合，存放host
    if (!hostToExecutors.contains(o.host)) {
      hostToExecutors(o.host) =new HashSet[String]()
    }
    // 如果不包含这个executorId
    if (!executorIdToRunningTaskIds.contains(o.executorId)) {
      hostToExecutors(o.host)+= o.executorId
      // 通知DAGScheduler添加executor
      executorAdded(o.executorId, o.host)
      executorIdToHost(o.executorId) = o.host
      executorIdToRunningTaskIds(o.executorId) =HashSet[Long]()
      newExecAvail = true
    }
    // 遍历主机所在机架
    for (rack <- getRackForHost(o.host)) {
      // 更新hosts和机架的映射
      hostsByRack.getOrElseUpdate(rack,new HashSet[String]())+= o.host
    }
  }

  // 将WorkerOffer打乱,做到负载均衡
  val shuffledOffers= Random.shuffle(offers)
  // 构建一个task列表，然后分配给每一个worker
  val tasks= shuffledOffers.map(o=> new ArrayBuffer[TaskDescription](o.cores))
  // 有效可用的CPU核数
  val availableCpus= shuffledOffers.map(o=> o.cores).toArray
  // 从调度池获取按照调度策略排序好的TaskSetManager
  val sortedTaskSets= rootPool.getSortedTaskSetQueue
  // 如果有新加入的executor，需要重新计算数据本地性
  for (taskSet <- sortedTaskSets) {
    logDebug("parentName: %s, name: %s, runningTasks: %s".format(
      taskSet.parent.name, taskSet.name, taskSet.runningTasks))
    if (newExecAvail) {
      taskSet.executorAdded()
    }
  }
  // 为排好序的TaskSetManager列表分配资源，分配原则是就近原则，按照顺序为
  // PROCESS_LOCAL, NODE_LOCAL, NO_PREF,RACK_LOCAL, ANY
  for (taskSet <- sortedTaskSets) {
    var launchedAnyTask= false
    var launchedTaskAtCurrentMaxLocality=false
    // 计算每一个TaskSetMangaer的本地化级别(locality_level),
    // 并且对task set尝试使用最小的本地化级别(locality_level),将task set的task在executor上启动
    // 如果启动不了，放大本地化级别，以此类推直到某种本地化级别尝试成功
    for (currentMaxLocality <- taskSet.myLocalityLevels) {
      do {
        launchedTaskAtCurrentMaxLocality= resourceOfferSingleTaskSet(
          taskSet, currentMaxLocality, shuffledOffers,availableCpus, tasks)
        launchedAnyTask|= launchedTaskAtCurrentMaxLocality
      } while (launchedTaskAtCurrentMaxLocality)
    }
    // 如果这个task在任何本地化级别都启动不了，有可能在黑名单
    if (!launchedAnyTask) {
      taskSet.abortIfCompletelyBlacklisted(hostToExecutors)
    }
  }
  if (tasks.size> 0) {
    hasLaunchedTask= true
  }
  return tasks
}

2.5 resourceOfferSingleTaskSet 分配单个TaskSet里的task到executor

调用resourceOffer方法找到在executor上，哪些TaskSet的task可以通过当前本地化级别启动；遍历在该executor上当前本地化级别可以运行的task。

private defresourceOfferSingleTaskSet(
    taskSet: TaskSetManager,
    maxLocality: TaskLocality,
    shuffledOffers: Seq[WorkerOffer],
    availableCpus: Array[Int],
    tasks: IndexedSeq[ArrayBuffer[TaskDescription]]) : Boolean = {
  // 默认发起task为false
  var launchedTask= false
  // 遍历所有executor
  for (i <- 0 until shuffledOffers.size) {
    // 获取executorId和host
    val execId= shuffledOffers(i).executorId
    val host= shuffledOffers(i).host
    // 必须要有每一个task可供分配的的CPU核数，否则直接返回
    if (availableCpus(i) >=CPUS_PER_TASK) {
      try {
        // 调用resourceOffer方法找到在executor上，哪些TaskSet的task可以通过当前本地化级别启动
        // 遍历在该executor上当前本地化级别可以运行的task
        for (task <- taskSet.resourceOffer(execId,host, maxLocality)) {
          // 如果存在，则把每一个task放入要在当前executor运行的task数组里面
          // 即指定executor要运行的task
          tasks(i) += task
          // 将相应的分配信息加入内存缓存
          val tid= task.taskId
          taskIdToTaskSetManager(tid) =taskSet
          taskIdToExecutorId(tid) =execId
          executorIdToRunningTaskIds(execId).add(tid)
          availableCpus(i) -= CPUS_PER_TASK
          assert(availableCpus(i) >=0)
          launchedTask = true
        }
      } catch {
        case e:TaskNotSerializableException =>
          logError(s"Resource offer failed, task set${taskSet.name} was not serializable")
          // Do notoffer resources for this task, but don't throw an error to allow other
          // task sets to be submitted.
          return launchedTask
      }
    }
  }
  return launchedTask
}

融合网络实训室初步建设方案设想武汉唯众智创网络融合网络实训室融合网络融合网络实验室网络融合实训室网络融合实验室
一、引言在数字化浪潮席卷全球的当下，网络技术已然成为推动社会发展和经济增长的关键力量。从日常的生活购物到企业的运营管理，从便捷的社交沟通到前沿的科研探索，网络技术无处不在，深刻地改变着人们的生活与工作方式。随着5G、物联网、云计算、大数据等新兴技术的迅猛发展，网络技术领域对于专业人才的需求呈现出爆发式增长。据权威机构预测，未来几年，网络技术相关岗位的人才缺口将持续扩大。这些岗位不仅要求从业者具备扎
云原生：K8s（Kubernetes）高频典型面试题汇总老舅的火箭爱扫地云原生 kubernetes 容器
1.简述etcd及其特点？答：etcd是CoreOS团队发起的开源项目，是一个管理配置信息和服务发现（servicediscovery）的项目，它的目标是构建一个高可用的分布式键值（key-value）数据库，基于Go语言实现。特点：l简单：支持REST风格的HTTP+JSONAPIl安全：支持HTTPS方式的访问l快速：支持并发1k/s的写操作l可靠：支持分布式结构，基于Raft的一致性算法，R
嵌入式SDIO 总线面试题及参考答案大模型大数据攻城狮 fpga开发嵌入式面经 SPI USB接口 SD总线 SDIO总线牛客网
目录SDIO总线与SD总线的核心区别是什么？(附框架图）简述SDIO总线物理接口的组成及其功能（CLK、CMD、DAT0-DAT3）。SDIO总线支持的最大数据传输位宽是多少？如何配置？解释SDIO总线中的主从模式架构及通信流程。SDIO卡的功能类型有哪些（如Wi-Fi、蓝牙、GPS）？SDIO总线时钟信号（CLK）的作用及典型频率范围SDIO协议中的OCR寄存器作用是什么？如何通过CMD5获取卡
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案优享智库大模型数据要素数据治理数据仓库主数据零售
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案更多参考公众号：优享智库引言项目背景与意义数字化转型目标与期望实施方案概述零售行业现状及挑战实体零售行业现状数字化转型面临的挑战市场需求与趋势分析大模型与数据要素赋能策略大模型技术及应用场景数据要素采集、整合与治理赋能策略制定与实施路径数字化转型关键技术与解决方案人工智能技术及应用大数据分析与挖掘技术云计算、物联网等技术支持定制化解决方案设计
.NET/C# 生成二维码 ~请叫我小祸害~ .NET/C#.net c#开发语言 javascript
大家好，在本章是如何通过.net/C#来生成二维码首先大家还是需要仔细阅读这篇文档有小细节就需要注意大家需要生成一些类，把我的方法复制进去，如果不想添加类的话，大家需要再主代码上更改引用信息找到我们所添加的方法不适用于零基础的朋友，适用于有点经验的懂一点代码的就行1、首先我们新建一个自己的项目.netcore或其他项目新建好后新建一个控制器我们需要在里面写自己的代码，在控制器里面生成一个index
新手村：数据预处理-异常值检测方法嘉羽很烦机器学习机器学习
机器学习中异常值检测方法一、前置条件知识领域要求编程基础Python基础（变量、循环、函数）、JupyterNotebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类、回归等基本概念。数据预处理数据清洗、特征缩放（标准化/归一化）、数据可视化（Matplotlib/Seaborn）。二、渐进式学习
京准电钟分享：医院网络内NTP时间同步服务器作用是什么？北京华人开创公司北斗卫星授时 NTP时间同步 GPS对时装置 NTP 时间同步服务器网络时间服务器 NTP时间服务器网络系统时钟同步
京准电钟分享：医院网络内NTP时间同步服务器作用是什么？京准电钟分享：医院网络内NTP时间同步服务器作用是什么？时间同步技术必定将是整个大数据处理系统的重要支撑和保障。时间同步技术使数据产生与处理系统的所有节点具有全局的、统一的标准时间，从而使系统中的所有各种消息、事件、节点、数据等具备正确的逻辑性、协调性以及可追溯性。大数据产生与处理系统是各种计算设备集群的，计算设备将统一、同步的标准时间用于记
linux CentOS 7.9 安装 ffmpeg 6.0 教程【亲测成功】刘登辉 ffmpeg linux centos
查看当前系统版本[[email protected]]#lsb_release-aLSBVersion::core-4.1-amd64:core-4.1-noarchDistributorID:CentOSDescription:CentOSLinuxrelease7.9.2009(Core)Release:7.9.2009Codename:Corewgethttp://www.ffm
204页数字化转型：集团企业信息化规划方案公众号：智慧方案文库精选解决方案（附下载）大数据 database
建立统一共享的信息平台，集团总部能实时监控下属单位的库存、产量、成本、资金流等关键信息，有效利用大数据技术平台为管理层提供全面、及时、准确的决策信息支持。n推动生产、销售、新业务领域的自动化、数字化、网络化、信息化、集成化，为今后打造智能制造、智慧农业奠定坚实基础；n推进IT基础设施建设与提升，采用全新的架构设计理念，建成组件化、集中化、服务化、协同化的统一云平台，提供高质量、可重用的平台服务，营
C# WebAPI的几种返回类型方式她说彩礼65万 c#http
在ASP.NETCore中有三种返回数据和HTTP状态码的方式，最简单的就是直接返回指定的类型实例，如下代码所示：[ApiController][Route("[controller]")]publicclassWeatherForecastController:ControllerBase{[HttpGet]publicIEnumerableGet(){varrng=newRandom();re
QML界面卡死分析--01 --Canvas与QRasterPaintEngine 香油哥 Qml qt
QML界面卡死分析--01现象—Canvas与QRasterPaintEngine相关前置条件：渲染循环使用多线程方式；发现界面假死，无响应;拷贝dump分析，主线程堆栈如下：#0SyncSemWait()#10x000000007b4f8784inQMutexPrivate::wait(int)()fromqt_engine/qt-engine/lib/libQt6Core.so.6.5.0#2
Java 大视界 -- Java 大数据在智慧交通自动驾驶仿真与测试数据处理中的应用（136）青云交大数据新视界 Java 大视界 java 大数据自动驾驶智慧交通仿真测试数据处理数据存储
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Adobe Photoshop CC 2025配置要求小魚資源大雜燴 windows
操作系统Windows：Windows10（版本22H2）或Windows11（版本21H2、22H2、23H2）。macOS：macOSMonterey（12.0）或更高版本。处理器：支持AVX2和SSE4.2的多核Intel、AMD或WinARM处理器。推荐使用最新一代的IntelCore或AMDRyzen处理器。内存最低要求：8GBRAM。推荐配置：16GB或更高，特别是对于处理高分辨率图像
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
UE中：运行时（伪）无限细分网格 Dawn·张 android 数码相机
先看效果：UE：运行时（伪）无限细分网格实际代码如下：InfiniteGrid.h#pragmaonce#include"CoreMinimal.h"#include"GameFramework/Actor.h"#include"InfiniteGrid.generated.h"USTRUCT()structFGridLayer{GENERATED_BODY()UPROPERTY(EditAnyw
《java性能调优》2.Stream如何提高遍历集合效率 just_one_wk java性能调优
在Java8中，Collection新增了两个流方法，分别是Stream()和parallelStream()。什么是Stream？在Java8之前，我们通常是通过for循环或者Iterator迭代来重新排序合并数据，又或者通过重新定义Collections.sorts的Comparator方法来实现，这两种方式对于大数据量系统来说，效率并不是很理想。Java8中添加了一个新的接口类Stream，
【NLP】 9. 处理创造性词汇 & 词组特征（Creative Words & Features Model），词袋模型处理未知词，模型得分 pen-ai NLP 机器学习自然语言处理人工智能深度学习
这里写目录标题处理创造性词汇&词组特征（CreativeWords&FeaturesModel）1.处理否定（NegationHandling）2.词组特征（Bigrams&N-grams）3.结合否定传播与n-grams进行优化词袋模型（Bag-of-Words,BoW）1.BoW示例2.处理未知词3.为什么忽略未知词？4.处理未知词的方法计算模型得分（ScoreCalculation）处理创造
uni-app App 端分段导出 JSON 数据为文件 _虾仁不眨眼_ uni-app
在开发过程中，我们经常需要将大量数据导出为JSON文件，尤其是在处理长列表或大数据集时。然而，直接将所有数据写入一个文件可能会导致性能问题，尤其是在移动设备上。为了优化性能并提高用户体验，我们可以将数据分段导出到多个文件中。实现思路分段处理数据：将长JSON数据分段，每段包含固定数量的数据。使用plus.io写入文件：利用uni-app的plus.ioAPI，将每段数据写入单独的文件。提示用户导出
踩坑：VirtualBox：安装提示缺少python core和win32 api 过去的了 linux python
一、安装OracleVirtualBox时出现以下现象内容提示：安装OracleVMVirtualBox7.0.24的Python绑定需要先安装PythonCore包和win32api绑定。如果现在继续安装OracleVMVirtualBox7.0.24的Python绑定，那么这些依赖项需要在之后手动设置。用户可以参考OracleVMVirtualBox7.0.24SDK手册获取更多信息。如果忽视
智慧运维与物联网技术在地铁车辆段的应用项目罗博深
本文还有配套的精品资源，点击获取简介：随着物联网技术的广泛应用，智慧运维系统通过传感器、大数据分析、云计算等技术集成，提升了地铁车辆段的运维效率和安全性。该系统可以实时监控设备状态、预测故障、提供智能决策支持、优化维护策略，并降低运营成本，同时提高乘客安全。其应用拓展至整个地铁线路，乃至与城市交通系统协同，展现了智慧运维对公共交通系统现代化的贡献。1.物联网技术基础与应用物联网（Interneto
Java多线程与并发编程实战——从基础到进阶 AI天才研究院 Python实战 Java实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介互联网企业都在大力拓展自己的业务，而新的技术革命也带来了海量的数据量，因此，单机并发处理能力已经无法满足现代信息时代对高速数据的需求。大数据和云计算带来的分布式系统架构，让单台计算机不仅能够执行单个任务，而且可以横向扩展处理大量任务。在这种情况下，如何充分利用多核CPU、共享内存等资源并发地处理多项任务就成为现代系统设计者们必备技能之一。本书将以实操为导向，全面
国内外AI搜索产品盘点 Suee2020 人工智能
序号AISearch产品名简介网站开发者1Perplexity强大的对话式AI搜索引擎https://www.perplexity.aiPerplexity2GensparkAIAgent搜索引擎https://www.genspark.aiMainFunc（景鲲、朱凯华）3Kimi.ai智能助手https://kimi.moonshot.cn/月之暗面（杨植麟）4秘塔AI搜索AI搜索引擎http
深入解析LTE-A到5G的系统消息架构与功能演进罗博深
本文还有配套的精品资源，点击获取简介：系统消息是移动通信网络中，UE与网络间信息交换的核心，涵盖了网络状态、服务信息与系统配置。文章深入分析了4GLTE-A到5G网络中系统消息的组成、作用及其演进，包括MIB和SIBs的功能与内容，以及5G对系统消息的优化和新技术的引入，如动态调度、网络切片和针对物联网设备的特定参数配置。5G系统消息还通过机器学习和大数据分析实现智能化分发，增强了网络灵活性、智能
机器学习算法实战——天气数据分析（主页有源码）喵了个AI 机器学习实战机器学习算法数据分析
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言天气数据分析是气象学和数据科学交叉领域的一个重要研究方向。随着大数据技术的发展，气象数据的采集、存储和分析能力得到了显著提升。机器学习算法在天气数据分析中的应用，不仅能够提高天气预报的准确性，还能为气候研究、灾害预警等提供有力支持。本文将介绍机器学习在天气数据分析中的应用，探讨
Python PyQt5 简单的信号和槽多线程传数据热爱生活热爱你 python3 qt python qt 开发语言
注：pythonqt的信号与槽和c++qt还是有一些区别的，尤其是在connect方面；pythonqt信号和槽需要关注下对象的生命周期，不然信号发送后槽是接受不到的；1、a.py:多线程及定义信号和发送信号；importtimefromPyQt5.QtCoreimportpyqtSignal,QThread#发送信号classSender(QThread):my_signal=pyqtSigna
cv32e40p系列0--概览 CDerL cv32e40p risc-v cv32e40p
代码链接cv32e40p系列文章概览cv32e40p系列＜1＞cv32e40p_top.svcv32e40p_top模块是基于RISC-V架构的CV32E40P核心的顶层模块，这是一个高性能的32位嵌入式处理器。这个模块的参数和I/O信号定义在配置和接口核心中起着至关重要的作用。参数COREV_PULP:启用PULPISA扩展。这包括自定义的CSR和硬件循环功能，但不包括cv.elw指令。CORE
多线程到底重不重要？ Vic2334 JAVA java 开发语言
我们先说一下为什么要讲多线程和高并发？原因是，你想拿到一个更高的薪水，在面试的时候呈现出了两个方向的现象：第一个是上天项目经验高并发缓存大流量大数据量的架构设计第二个是入地各种基础算法，各种基础的数据结构JVMOS线程IO等内容多线程和高并发，就是入地里面的内容。基本概念我们先从线程的基本概念开始，给大家复习一下，不知道有多少同学是基础不太好，说什么是线程都不知道的，如果这样的话，花时间去补初级内
Java与Elasticsearch集成详解，以及使用指南 qzw1210 java elasticsearch jenkins
Java与Elasticsearch集成详解1.环境配置首先，你需要在Maven项目中添加ElasticsearchJava客户端依赖：co.elastic.clientselasticsearch-java8.10.0com.fasterxml.jackson.corejackson-databind2.15.2jakarta.jsonjakarta.json-api2.1.12.客户端初始化E
spring boot程序启动时读取&覆盖配置文件中的变量 fusugongzi spring boot java 前端
1.自定义ApplicationContextInitializer，spring启动时会执行自定义的initialize方法newSpringApplicationBuilder(DsgCoreApplication.class).initializers(newMyPropertyInitializer()).run(args);@Slf4jpublicclassMyPropertyIniti
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地