Apache Spark-1.0.0浅析（七）：资源调度——结果返回

对于ResultTask，直接执行func操作，最后告知任务是否执行完成；而对于ShuffleMapTask，则需要将中间结果存储到实例化DirectTaskResult，以备下一个task使用，同时还要返回实例化的MapStatus。

Executor.run中，当Task执行完毕调用execBackend.statusUpdate，在CoarseGrainedExecutorBackend继承了ExecutorBackend，重新定义statusUpdate，向driver发送StatusUpdate消息

override def statusUpdate(taskId: Long, state: TaskState, data: ByteBuffer) {

    driver ! StatusUpdate(executorId, taskId, state, data)

  }

}

CoaseGrainedSchedulerBackend中定义的driverActor接收，首先执行scheduler.statusUpdate，更新状态，释放资源

case StatusUpdate(executorId, taskId, state, data) =>

        scheduler.statusUpdate(taskId, state, data.value)

        if (TaskState.isFinished(state)) {

          if (executorActor.contains(executorId)) {

            freeCores(executorId) += scheduler.CPUS_PER_TASK

            makeOffers(executorId)

          } else {

            // Ignoring the update since we don't know about the executor.

            val msg = "Ignored task status update (%d state %s) from unknown executor %s with ID %s"

            logWarning(msg.format(taskId, state, sender, executorId))

          }

        }

scheduler.statusUpdate主要移除当前完成的task，同时更新taskSets

def statusUpdate(tid: Long, state: TaskState, serializedData: ByteBuffer) {

    var failedExecutor: Option[String] = None

    synchronized {

      try {

        if (state == TaskState.LOST && taskIdToExecutorId.contains(tid)) {

          // We lost this entire executor, so remember that it's gone

          val execId = taskIdToExecutorId(tid)

          if (activeExecutorIds.contains(execId)) {

            removeExecutor(execId)

            failedExecutor = Some(execId)

          }

        }

        taskIdToTaskSetId.get(tid) match {

          case Some(taskSetId) =>

            if (TaskState.isFinished(state)) {

              taskIdToTaskSetId.remove(tid)

              taskIdToExecutorId.remove(tid)

            }

            activeTaskSets.get(taskSetId).foreach { taskSet =>

              if (state == TaskState.FINISHED) {

                taskSet.removeRunningTask(tid)

                taskResultGetter.enqueueSuccessfulTask(taskSet, tid, serializedData)

              } else if (Set(TaskState.FAILED, TaskState.KILLED, TaskState.LOST).contains(state)) {

                taskSet.removeRunningTask(tid)

                taskResultGetter.enqueueFailedTask(taskSet, tid, state, serializedData)

              }

            }

          case None =>

            logError(

              ("Ignoring update with state %s for TID %s because its task set is gone (this is " +

               "likely the result of receiving duplicate task finished status updates)")

              .format(state, tid))

        }

      } catch {

        case e: Exception => logError("Exception in statusUpdate", e)

      }

    }

    // Update the DAGScheduler without holding a lock on this, since that can deadlock

    if (failedExecutor.isDefined) {

      dagScheduler.executorLost(failedExecutor.get)

      backend.reviveOffers()

    }

  }

其中，主要语句是taskResultGetter.enqueueSuccessfulTask，首先获得反序列化的结果数据，分为直接结果或非直接结果处理，最后执行scheduler.handleSuccessfulTask

def enqueueSuccessfulTask(

    taskSetManager: TaskSetManager, tid: Long, serializedData: ByteBuffer) {

    getTaskResultExecutor.execute(new Runnable {

      override def run(): Unit = Utils.logUncaughtExceptions {

        try {

          val result = serializer.get().deserialize[TaskResult[_]](serializedData) match {

            case directResult: DirectTaskResult[_] => directResult

            case IndirectTaskResult(blockId) =>

              logDebug("Fetching indirect task result for TID %s".format(tid))

              scheduler.handleTaskGettingResult(taskSetManager, tid)

              val serializedTaskResult = sparkEnv.blockManager.getRemoteBytes(blockId)

              if (!serializedTaskResult.isDefined) {

                /* We won't be able to get the task result if the machine that ran the task failed

                 * between when the task ended and when we tried to fetch the result, or if the

                 * block manager had to flush the result. */

                scheduler.handleFailedTask(

                  taskSetManager, tid, TaskState.FINISHED, TaskResultLost)

                return

              }

              val deserializedResult = serializer.get().deserialize[DirectTaskResult[_]](

                serializedTaskResult.get)

              sparkEnv.blockManager.master.removeBlock(blockId)

              deserializedResult

          }

          result.metrics.resultSize = serializedData.limit()

          scheduler.handleSuccessfulTask(taskSetManager, tid, result)

        } catch {

          case cnf: ClassNotFoundException =>

            val loader = Thread.currentThread.getContextClassLoader

            taskSetManager.abort("ClassNotFound with classloader: " + loader)

          case ex: Exception =>

            taskSetManager.abort("Exception while deserializing and fetching task: %s".format(ex))

        }

      }

    })

  }

scheduler.handleSuccessfulTask在TaskSchedulerImpl中定义如下，仅调用taskSetManager.handleSuccessfulTask

def handleSuccessfulTask(

    taskSetManager: TaskSetManager,

    tid: Long,

    taskResult: DirectTaskResult[_]) = synchronized {

    taskSetManager.handleSuccessfulTask(tid, taskResult)

  }

taskSetManager.handleSuccessfulTask，将task标记为successful，从RunningTask中移除，然后调用sched.dagScheduler.taskEnded

/**

   * Marks the task as successful and notifies the DAGScheduler that a task has ended.

   */

  def handleSuccessfulTask(tid: Long, result: DirectTaskResult[_]) = {

    val info = taskInfos(tid)

    val index = info.index

    info.markSuccessful()

    removeRunningTask(tid)

    sched.dagScheduler.taskEnded(

      tasks(index), Success, result.value, result.accumUpdates, info, result.metrics)

    if (!successful(index)) {

      tasksSuccessful += 1

      logInfo("Finished TID %s in %d ms on %s (progress: %d/%d)".format(

        tid, info.duration, info.host, tasksSuccessful, numTasks))

      // Mark successful and stop if all the tasks have succeeded.

      successful(index) = true

      if (tasksSuccessful == numTasks) {

        isZombie = true

      }

    } else {

      logInfo("Ignorning task-finished event for TID " + tid + " because task " +

        index + " has already completed successfully")

    }

    failedExecutors.remove(index)

    maybeFinishTaskSet()

  }

sched.dagScheduler,taskEnded向eventProcessActor发送CompletionEvent消息

// Called by TaskScheduler to report task completions or failures.

  def taskEnded(

      task: Task[_],

      reason: TaskEndReason,

      result: Any,

      accumUpdates: Map[Long, Any],

      taskInfo: TaskInfo,

      taskMetrics: TaskMetrics) {

    eventProcessActor ! CompletionEvent(task, reason, result, accumUpdates, taskInfo, taskMetrics)

DAGScheduler中定义接收响应，调用dagScheduler.handleTaskCompletion

case completion @ CompletionEvent(task, reason, _, _, taskInfo, taskMetrics) =>

      dagScheduler.handleTaskCompletion(completion)

dagScheduler.handleTaskCompletion，如果是ResultTask，首先向listenerBus发送SparkListenerTaskEnd，获得task对应的stage，定义了一个本地方法markStageAsFinished，后续调用，判断事件类型，包含Success、Resubmitted、FetchFailed、ExceptionFailure、TaskResultLost等，最后submitWaitingStages()提交等待（依赖）的stages。

如果是Success事件，则进一步判断task是ResultTask或者ShuffleMapTask，如果是ResultTask，将task所属stage中的该部output标记为已完成，最后调用job.listener.taskSucceeded，如果整个stage完成，则标记markStageAsFinished，向listenerBus发送SparkListenerJobEnd。

若是ShuffleMapTask，记录task在executor完成，addOutputLoc添加Shuffle output location，markStageAsFinished，判断如果该stage是runningStages且该stage挂起的tasks为空，主要动作是getMissingParentStages获得依赖waitingStages，最后submitMissingTasks提交依赖tasks

/**

   * Responds to a task finishing. This is called inside the event loop so it assumes that it can

   * modify the scheduler's internal state. Use taskEnded() to post a task end event from outside.

   */

  private[scheduler] def handleTaskCompletion(event: CompletionEvent) {

    val task = event.task

    val stageId = task.stageId

    val taskType = Utils.getFormattedClassName(task)

    listenerBus.post(SparkListenerTaskEnd(stageId, taskType, event.reason, event.taskInfo,

      event.taskMetrics))

    if (!stageIdToStage.contains(task.stageId)) {

      // Skip all the actions if the stage has been cancelled.

      return

    }

    val stage = stageIdToStage(task.stageId)



    def markStageAsFinished(stage: Stage) = {

      val serviceTime = stageToInfos(stage).submissionTime match {

        case Some(t) => "%.03f".format((System.currentTimeMillis() - t) / 1000.0)

        case _ => "Unknown"

      }

      logInfo("%s (%s) finished in %s s".format(stage, stage.name, serviceTime))

      stageToInfos(stage).completionTime = Some(System.currentTimeMillis())

      listenerBus.post(SparkListenerStageCompleted(stageToInfos(stage)))

      runningStages -= stage

    }

    event.reason match {

      case Success =>

        logInfo("Completed " + task)

        if (event.accumUpdates != null) {

          Accumulators.add(event.accumUpdates) // TODO: do this only if task wasn't resubmitted

        }

        pendingTasks(stage) -= task

        task match {

          case rt: ResultTask[_, _] =>

            resultStageToJob.get(stage) match {

              case Some(job) =>

                if (!job.finished(rt.outputId)) {

                  job.finished(rt.outputId) = true

                  job.numFinished += 1

                  // If the whole job has finished, remove it

                  if (job.numFinished == job.numPartitions) {

                    markStageAsFinished(stage)

                    cleanupStateForJobAndIndependentStages(job, Some(stage))

                    listenerBus.post(SparkListenerJobEnd(job.jobId, JobSucceeded))

                  }

                  job.listener.taskSucceeded(rt.outputId, event.result)

                }

              case None =>

                logInfo("Ignoring result from " + rt + " because its job has finished")

            }



          case smt: ShuffleMapTask =>

            val status = event.result.asInstanceOf[MapStatus]

            val execId = status.location.executorId

            logDebug("ShuffleMapTask finished on " + execId)

            if (failedEpoch.contains(execId) && smt.epoch <= failedEpoch(execId)) {

              logInfo("Ignoring possibly bogus ShuffleMapTask completion from " + execId)

            } else {

              stage.addOutputLoc(smt.partitionId, status)

            }

            if (runningStages.contains(stage) && pendingTasks(stage).isEmpty) {

              markStageAsFinished(stage)

              logInfo("looking for newly runnable stages")

              logInfo("running: " + runningStages)

              logInfo("waiting: " + waitingStages)

              logInfo("failed: " + failedStages)

              if (stage.shuffleDep.isDefined) {

                // We supply true to increment the epoch number here in case this is a

                // recomputation of the map outputs. In that case, some nodes may have cached

                // locations with holes (from when we detected the error) and will need the

                // epoch incremented to refetch them.

                // TODO: Only increment the epoch number if this is not the first time

                //       we registered these map outputs.

                mapOutputTracker.registerMapOutputs(

                  stage.shuffleDep.get.shuffleId,

                  stage.outputLocs.map(list => if (list.isEmpty) null else list.head).toArray,

                  changeEpoch = true)

              }

              clearCacheLocs()

              if (stage.outputLocs.exists(_ == Nil)) {

                // Some tasks had failed; let's resubmit this stage

                // TODO: Lower-level scheduler should also deal with this

                logInfo("Resubmitting " + stage + " (" + stage.name +

                  ") because some of its tasks had failed: " +

                  stage.outputLocs.zipWithIndex.filter(_._1 == Nil).map(_._2).mkString(", "))

                submitStage(stage)

              } else {

                val newlyRunnable = new ArrayBuffer[Stage]

                for (stage <- waitingStages) {

                  logInfo("Missing parents for " + stage + ": " + getMissingParentStages(stage))

                }

                for (stage <- waitingStages if getMissingParentStages(stage) == Nil) {

                  newlyRunnable += stage

                }

                waitingStages --= newlyRunnable

                runningStages ++= newlyRunnable

                for {

                  stage <- newlyRunnable.sortBy(_.id)

                  jobId <- activeJobForStage(stage)

                } {

                  logInfo("Submitting " + stage + " (" + stage.rdd + "), which is now runnable")

                  submitMissingTasks(stage, jobId)

                }

              }

            }

          }



      case Resubmitted =>

        logInfo("Resubmitted " + task + ", so marking it as still running")

        pendingTasks(stage) += task



      case FetchFailed(bmAddress, shuffleId, mapId, reduceId) =>

        // Mark the stage that the reducer was in as unrunnable

        val failedStage = stageIdToStage(task.stageId)

        runningStages -= failedStage

        // TODO: Cancel running tasks in the stage

        logInfo("Marking " + failedStage + " (" + failedStage.name +

          ") for resubmision due to a fetch failure")

        // Mark the map whose fetch failed as broken in the map stage

        val mapStage = shuffleToMapStage(shuffleId)

        if (mapId != -1) {

          mapStage.removeOutputLoc(mapId, bmAddress)

          mapOutputTracker.unregisterMapOutput(shuffleId, mapId, bmAddress)

        }

        logInfo("The failed fetch was from " + mapStage + " (" + mapStage.name +

          "); marking it for resubmission")

        if (failedStages.isEmpty && eventProcessActor != null) {

          // Don't schedule an event to resubmit failed stages if failed isn't empty, because

          // in that case the event will already have been scheduled. eventProcessActor may be

          // null during unit tests.

          import env.actorSystem.dispatcher

          env.actorSystem.scheduler.scheduleOnce(

            RESUBMIT_TIMEOUT, eventProcessActor, ResubmitFailedStages)

        }

        failedStages += failedStage

        failedStages += mapStage

        // TODO: mark the executor as failed only if there were lots of fetch failures on it

        if (bmAddress != null) {

          handleExecutorLost(bmAddress.executorId, Some(task.epoch))

        }



      case ExceptionFailure(className, description, stackTrace, metrics) =>

        // Do nothing here, left up to the TaskScheduler to decide how to handle user failures



      case TaskResultLost =>

        // Do nothing here; the TaskScheduler handles these failures and resubmits the task.



      case other =>

        // Unrecognized failure - also do nothing. If the task fails repeatedly, the TaskScheduler

        // will abort the job.

    }

    submitWaitingStages()

  }

ResultTask执行成功调用的job.listener.taskSucceeded，JobWaiter继承了JobListener，重新定义了taskSucceeded，判断如果已完成的task数量和总共task数量相等，则意味着job完成，向所有listener发送JobSucceeded消息

override def taskSucceeded(index: Int, result: Any): Unit = synchronized {

    if (_jobFinished) {

      throw new UnsupportedOperationException("taskSucceeded() called on a finished JobWaiter")

    }

    resultHandler(index, result.asInstanceOf[T])

    finishedTasks += 1

    if (finishedTasks == totalTasks) {

      _jobFinished = true

      jobResult = JobSucceeded

      this.notifyAll()

    }

  }

接DAGScheduler.runJob，waiter等待接受消息JobSucceeded消息，整个job执行完毕

def runJob[T, U: ClassTag](

      rdd: RDD[T],

      func: (TaskContext, Iterator[T]) => U,

      partitions: Seq[Int],

      callSite: String,

      allowLocal: Boolean,

      resultHandler: (Int, U) => Unit,

      properties: Properties = null)

  {

    val waiter = submitJob(rdd, func, partitions, callSite, allowLocal, resultHandler, properties)

    waiter.awaitResult() match {

      case JobSucceeded => {}

      case JobFailed(exception: Exception) =>

        logInfo("Failed to run " + callSite)

        throw exception

    }

  }

END

什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
如何针对大Excel做文件读取？ F_windy excel
针对大Excel文件（如超过百万行）的读取，传统的一次性加载到内存的方式会导致内存溢出（OOM），需采用流式读取（Streaming）或分块读取（Chunk）的策略。以下是具体方案及优化建议：一、核心解决方案1.使用ApachePOI的SAX模式（事件驱动）适用场景：处理.xlsx文件（不支持.xls），逐行解析避免内存溢出。代码示例（Java）：importorg.apache.poi.open
ubuntu20.04系统安装zookeeper简单教程楼下创了电瓶车 zookeeper 分布式云原生
Ubuntu系统中安装和配置Zookeeper的完整指南ApacheZookeeper是一个开源的分布式协调服务，广泛用于分布式应用程序中管理配置、提供命名服务、分布式同步以及组服务等。在本教程中，我们将详细介绍如何在Ubuntu系统中安装Zookeeper，并进行相关配置，使其能够正常运行。环境准备在开始之前，请确保你的Ubuntu系统版本为18.04或更高版本。此外，Zookeeper依赖于J
ActiveMQ学习总结（10）——ActiveMQ采用Spring注解方式发送和监听一杯甜酒 ActiveMQ
对于ActiveMQ消息的发送，原声的api操作繁琐，而且如果不进行二次封装，打开关闭会话以及各种创建操作也是够够的了。那么，Spring提供了一个很方便的去收发消息的框架，springjms。整合Spring后，代码不仅变得非常优雅，而且易用性和扩展性更好。1.maven依赖org.apache.xbeanxbean-spring3.16org.springframeworkspring-jms
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
爬虫基础 20岁30年经验的码农 1024程序员节
mavenpomorg.jsoupjsoup1.16.1org.apache.httpcomponentshttpcore4.4.16org.apache.httpcomponentshttpclient4.5.14commons-iocommons-io2.13.0====================================遍历网站内容爬取网站网址packagecom.xiaocao
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
kafka详细介绍以及使用酷爱码经验分享 kafka 分布式
ApacheKafka是一个由Apache软件基金会开发的开源流式数据平台和消息系统。它被设计用于处理实时数据流，并能够支持高容错性、可伸缩性和可靠性。Kafka最初是由LinkedIn开发，并于2011年捐赠给Apache软件基金会。它现在被许多公司广泛应用于构建实时数据流架构和事件驱动型应用程序。Kafka提供了一种高性能、持久性的消息传递系统，通过将消息发布到主题（topic）和订阅这些主题
Shiro授权斗-匕 oracle 数据库
在Java安全领域，ApacheShiro以其强大的功能和灵活性备受开发者青睐。其中，授权机制是Shiro的核心功能之一，它确保了用户只能访问其被授权的资源。本文将深入探讨Shiro授权，涵盖静态和动态授权、权限、角色、隐式角色、显式角色、授权流程以及授权方式等方面。一、Shiro简介ApacheShiro是一个功能强大的Java安全框架，它提供了认证、授权、加密和会话管理等功能。Shiro的设计
Kafka 同步机制关键点 2分钟讲明白大博士.J kafka
ApacheKafka通过副本同步机制来保证数据的高可用性和可靠性。Kafka的同步机制主要涉及以下几个核心概念：副本（Replication）Kafka的每个Partition都会有多个副本（Replica），分为：Leader副本：负责处理生产者和消费者的所有请求。Follower副本：仅从Leader同步数据，不直接处理请求。副本数由replication.factor参数配置。例如：rep
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
Debezium系列之：使用Debezium采集oceanbase数据库快乐骑行^_^ debezium Debezium系列采集oceanbase数据库
Debezium系列之：使用Debezium采集oceanbase数据库一、oceanbase数据库二、安装OceanBase三、安装oblogproxy四、基于Docker的简单采集案例五、生产实际应用案例Debezium是一个开源的分布式平台，用于监控数据库变化和捕捉数据变动事件，并以事件流的形式导出到各种消费者。Debezium基于ApacheKafka实现，并支持多种数据库系统。一、oce
Spark 解析_spark.sparkContext.getConf().getAll() 闯闯桑 spark 大数据分布式
spark.sparkContext.getConf().getAll()是ApacheSpark中的一段代码，用于获取当前Spark应用程序的所有配置项及其值。以下是逐部分解释：代码分解：spark：这是一个SparkSession对象，它是Spark应用程序的入口点，用于与Spark集群进行交互。spark.sparkContext：sparkContext是Spark的核心组件，负责与集群通
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
基于 easyExcel 3.1.5依赖的包实现动态表头动态表格内容善我 java java 服务器前端
1.需求：需要导出的EXCEL示例：2.依赖：com.alibabaeasyexcel3.1.53.工具类：packagecom.minex.web.device.utils;importcom.minex.web.device.entity.vo.ReadRecordsVO;importlombok.extern.slf4j.Slf4j;importorg.apache.poi.ss.userm
Tomcat 新手入门指南：从零开始掌握安装与配置超级小狗 tomcat java
Tomcat新手入门指南：从零开始掌握安装与配置一、Tomcat是什么？ApacheTomcat是一个开源的轻量级Web应用服务器，专为运行JavaServlet和JSP设计。它是初学JavaWeb开发的必备工具，也是企业级应用的常见选择。核心功能：处理HTTP请求、管理Servlet生命周期、支持动态网页渲染。适用场景：开发测试环境、中小型Web应用部署、微服务架构中的容器化组件。二、快速安装T
Apache Tomcat 新手入门指南：从安装到部署的全流程解析小志开发服务 apache tomcat java
ApacheTomcat作为一款轻量级的JavaServlet容器，被广泛应用于开发和运行基于Java的Web应用程序（如Servlet和JSP）。对于刚接触Tomcat的开发者来说，快速掌握其基本操作至关重要。本文将从零开始，详细介绍Tomcat的安装、配置、部署及常见问题的解决方法，助你轻松入门。第一部分：环境准备与安装1.确认JDK环境Tomcat依赖Java运行环境，因此需提前安装JDK8
Tomcat新手入门指南：从零开始搭建Web服务器 xiaoyu❅ java tomcat 前端服务器
目录一、Tomcat是什么？二、快速安装指南1.环境准备2.下载安装3.验证安装三、目录结构解析四、第一个Web应用部署1.创建标准目录结构2.编写测试JSP3.部署方式对比五、核心配置详解1.修改端口号2.配置虚拟主机3.JVM参数优化六、常用操作命令七、常见问题排查1.端口冲突2.应用热更新失败3.内存溢出八、最佳实践建议九、学习资源推荐一、Tomcat是什么？ApacheTomcat是一个开
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
【C++】开源：brpc远程过程调用（RPC）配置与使用 DevFrank #c++开源库和框架 c++开源 rpc
★,°:.☆(￣▽￣)/$:.°★这篇文章主要介绍brpc远程过程调用（RPC）配置与使用。无专精则不能成，无涉猎则不能通。——梁启超欢迎来到我的博客，一起学习，共同进步。喜欢的朋友可以关注一下，下次更新不迷路文章目录:smirk:1.项目介绍:blush:2.环境配置:satisfied:3.使用说明1.项目介绍项目Github地址：https://github.com/apache/brpcb
Flume详解——介绍、部署与使用克里斯蒂亚诺罗纳尔多阿维罗 flume 大数据分布式
1.Flume简介ApacheFlume是一个专门用于高效地收集、聚合、传输大量日志数据的分布式、可靠的系统。它特别擅长将数据从各种数据源（如日志文件、消息队列等）传输到HDFS、HBase、Kafka等大数据存储系统。特点：可扩展：支持大规模数据传输，灵活扩展容错性：支持数据恢复和失败重试，确保数据不丢失多种数据源：支持日志文件、网络数据、HTTP请求、消息队列等多种来源流式处理：数据边收集边传
Apache Shiro 使用教程 Kale又菜又爱玩 apache java springboot
ApacheShiro使用教程ApacheShiro是一个强大且灵活的开源安全框架，主要用于处理身份验证（Authentication）、授权（Authorization）、加密（Cryptography）和会话管理（SessionManagement）等安全相关的任务。它简化了在Java应用程序中集成安全功能的复杂性，广泛适用于各种类型的项目，如Web应用、命令行工具等。本教程将深入介绍Shir
【用户投稿】手把手基于Apache SeaTunnel从PostgreSQL同步到Doris SeaTunnel apache postgresql 数据库
本文详细演示了如何通过ApacheSeaTunnel2.3.9实现PostgreSQL14.6到ApacheDoris3.0.3的全量数据同步，涵盖从环境部署到生产验证的完整闭环，请各位小伙伴批评指正！版本要求：PostgreSQL-->Server14.6ApacheSeaTunnel-->Apache-SeaTunnel-2.3.9ApacheDoris-->Apache-Doris-3.0.
如何通过 Apache SeaTunnel 实现 MySQL 到 OceanBase的数据迁移同步 SeaTunnel apache mysql oceanbase
本文来源于OceanBase数据库官方博客，目前ApacheSeaTunnel2.3.9已支持本文提到的所有功能，故原文2.3.7已全部修改为2.3.9准备传输工具本方案采用ApacheSeaTunnel（简称SeaTunnel）进行MySQL到OceanBase的数据迁移和同步，出于对方案轻量性的考量，我们采用其内置的Zeta引擎来实现，包括全量同步、离线增量同步，以及CDC方案。运行环境准备自
2025年 Apache SeaTunnel 2月份社区月报速递 SeaTunnel apache
SeaTunnel社区月报2025-02期“各位热爱ApacheSeaTunnel的小伙伴们，SeaTunnel社区月报来啦！”SeaTunnel正在迅猛发展，这将有利于提升数据同步的高可扩展性、高性能及高可靠性。SeaTunnelMonthlyMergeStars感谢以下小伙伴上个月为ApacheSeaTunnel做的精彩贡献（排名不分先后）：@hawk9821@fcb-xiaobo@akula
【实操回顾】基于Apache SeaTunnel从MySQL同步到PostgreSQL——Demo方舟计划 SeaTunnel apache mysql postgresql
文章作者：马全才奥克斯集团大数据工程师编辑整理：国电南自赵鸿辉白鲸开源曾辉本文详细演示了如何通过ApacheSeaTunnel2.3.9实现**MySQL**到PostgreSQL的全量数据同步。非常感谢马全才老师花费业余时间为大家演示制作的Demo，也欢迎更多朋友贡献自己熟悉的同步场景，详细请参考社区Demo方舟活动：https://mp.weixin.qq.com/s/5gpiZZ0-8a4I
Flink 初体验：从 Hello World 到实时数据流处理小诸葛IT课堂 flink 大数据
在大数据处理领域，ApacheFlink以其卓越的流批一体化处理能力脱颖而出，成为众多企业构建实时数据应用的首选框架。本文将带领你迈出Flink学习的第一步，从基础概念入手，逐步引导你编写并运行第一个Flink程序——经典的WordCount，让你亲身感受Flink在实时数据流处理方面的强大魅力。一、Flink基础概念速览1.1什么是FlinkFlink是一个分布式流批一体化开源平台，旨在对无界和
python requests库详解_Python Requests库详解 momo呀耶 python requests库详解
Requests是用Python语言编写，基于urllib，采用Apache2Licensed开源协议的HTTP库。它比urllib更加方便，可以节约我们大量的工作，完全满足HTTP测试需求。一句话--Python实现的简单易用的HTTP库安装Requestspip3isntallrequestsrequest实例引入importrequestsresponse=requests.get('htt
MyBatis是什么 Exclusive_Cat mybatis
一，背景介绍1.MyBatis本是apache的一个开源项目iBatis,随着2010年这个项目由apachesoftwarefoundation迁移到了googlecode，ibatis3.x正式更名为Mybatis2.MyBatis是支持普通SQL查询、存储过程和高级映射的优秀持久层框架。MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及对结果集的检索封装。MyBatis可以使用简
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

Apache Spark-1.0.0浅析（七）：资源调度——结果返回

你可能感兴趣的:(apache)