段智华

重磅！Spark运行内幕打通Spark系统运行内幕机制流程

Spark运行内幕

1、编写的一个WordCount的例子

【例】WordCount代码

1. val conf = new SparkConf() //创建SparkConf对象
conf.setAppName("Wow,My First Spark App!") //设置应用程序的名称，
conf.setMaster("local") // 程序在本地运行，但是以下的例子以standlone模式分析

2. val sc = new SparkContext(conf)

2、 val sc = newSparkContext(conf) 这里开始迈入SparkContext天堂之门！

new SparkContext 新建一个SparkContext实例，class SparkContext(config: SparkConf){}类中的语句除了方法以外，所有的语句都会执行！之前的一些语句import包，定义辅助构造器、定义属性、方法等等，一大堆的代码先略过。从SparkContext.scala第522行开始。

【源代码】SparkContext.scala文件：第522行-536行

3. // Create and start thescheduler
val (sched, ts) = SparkContext.createTaskScheduler(this,master) //第522行
_schedulerBackend = sched
_taskScheduler = ts
_dagScheduler = new DAGScheduler(this)
_heartbeatReceiver.ask[Boolean](TaskSchedulerIsSet)

// start TaskScheduler after taskScheduler sets DAGScheduler reference inDAGScheduler's
// constructor
_taskScheduler.start()

_applicationId = _taskScheduler.applicationId()
_applicationAttemptId = taskScheduler.applicationAttemptId()
_conf.set("spark.app.id", _applicationId)
_ui.foreach(_.setAppId(_applicationId))
_env.blockManager.initialize(_applicationId)

3、在SparkContext.scala源代码文件中按Ctl+ createTaskScheduler

点击，代码跳转到SparkContext.scala第2592行的函数定义，这里是standlone模式，在第2629行分析SPARK_REGEX(sparkUrl)

【源代码】SparkContext.scala文件：第2629行-2634行

4.       /**
* Create a task scheduler based on agiven master URL.
* Return a 2-tuple of the schedulerbackend and the task scheduler.
*/
private def createTaskScheduler(
    sc: SparkContext,
    master: String): (SchedulerBackend,TaskScheduler) = {
import SparkMasterRegex._

5. 。。。。。。。

6. 第2629行

7. case SPARK_REGEX(sparkUrl)=>
val scheduler = new TaskSchedulerImpl(sc)
val masterUrls =sparkUrl.split(",").map("spark://" + _)
val backend = newSparkDeploySchedulerBackend(scheduler, sc,masterUrls)
scheduler.initialize(backend)
(backend, scheduler)

4、在SparkContext实例化的时候调用createTaskScheduler来创建TaskSchedulerImpl（SparkContext.scala文件：第2630行）和SparkDeploySchedulerBackend（SparkContext.scala文件：第2632行）。这里将TaskSchedulerImpl实例返回给scheduler变量，SparkDeploySchedulerBackend实例返回给backend，然后(backend,scheduler)作为元组返回给【源代码】SparkContext.scala文件：第522行-536行中的_schedulerBackend，以及_taskScheduler，其中_taskScheduler就是TaskSchedulerImpl实例，然后启动_taskScheduler.start()，就是启动了TaskSchedulerImpl的方法start()

【源代码】SparkContext.scala文件：第522行-536行

8. // Create and start thescheduler
val (sched, ts) = SparkContext.createTaskScheduler(this, master) //第522行
_schedulerBackend = sched
_taskScheduler = ts
_dagScheduler = new DAGScheduler(this)
_heartbeatReceiver.ask[Boolean](TaskSchedulerIsSet)

// start TaskScheduler after taskScheduler sets DAGScheduler reference inDAGScheduler's
// constructor
_taskScheduler.start()

5、_taskScheduler.start()启动

就是启动了TaskSchedulerImpl的方法start()，TaskSchedulerImpl的方法start()调用了backend.start()，backend就是在SparkContext.scala文件：第2629行-2634行中赋值的，backend是SparkDeploySchedulerBackend实例，调用了backend.start()就是调用了SparkDeploySchedulerBackend的start方法

9. val backend = newSparkDeploySchedulerBackend(scheduler, sc, masterUrls)
scheduler.initialize(backend)

【源代码】TaskSchedulerImpl.scala文件：第143行-154行

10.    override def start() {
backend.start()

if (!isLocal &&conf.getBoolean("spark.speculation", false)) {
    logInfo("Starting speculativeexecution thread")
    speculationScheduler.scheduleAtFixedRate(newRunnable {
      override def run(): Unit =Utils.tryOrStopSparkContext(sc) {
        checkSpeculatableTasks()
      }
    }, SPECULATION_INTERVAL_MS,SPECULATION_INTERVAL_MS, TimeUnit.MILLISECONDS)
}
}

6、backend.start()即SparkDeploySchedulerBackend启动start（），其中SparkDeploySchedulerBackend.scala的第93－94行，里面定义了

val command =Command("org.apache.spark.executor.CoarseGrainedExecutorBackend",
args, sc.executorEnvs,classPathEntries ++ testingClassPath, libraryPathEntries, javaOpts)

等appDesc的描述内容，传入Command来指定具体为当前应用程序启动的Executor进行的入口类的名称为CoarseGrainedExecutorBackend，然后将appDesc内容作为AppClient的参数，。创建AppClient对象并调用AppClient对象的start方法

【源代码】SparkDeploySchedulerBackend.scala文件：第52行-98行

11.    override def start() {
super.start()
launcherBackend.connect()

// The endpoint for executors to talkto us
val driverUrl =rpcEnv.uriOf(SparkEnv.driverActorSystemName,
   RpcAddress(sc.conf.get("spark.driver.host"),sc.conf.get("spark.driver.port").toInt),
   CoarseGrainedSchedulerBackend.ENDPOINT_NAME)
val args = Seq(
    "--driver-url", driverUrl,
    "--executor-id","{{EXECUTOR_ID}}",
    "--hostname","{{HOSTNAME}}",
    "--cores","{{CORES}}",
    "--app-id","{{APP_ID}}",
    "--worker-url","{{WORKER_URL}}")
val extraJavaOpts =sc.conf.getOption("spark.executor.extraJavaOptions")
   .map(Utils.splitCommandString).getOrElse(Seq.empty)
val classPathEntries =sc.conf.getOption("spark.executor.extraClassPath")
   .map(_.split(java.io.File.pathSeparator).toSeq).getOrElse(Nil)
val libraryPathEntries =sc.conf.getOption("spark.executor.extraLibraryPath")
   .map(_.split(java.io.File.pathSeparator).toSeq).getOrElse(Nil)

// When testing, expose the parentclass path to the child. This is processed by
// compute-classpath.{cmd,sh} and makesall needed jars available to child processes
// when the assembly is built with the"*-provided" profiles enabled.
val testingClassPath =
    if (sys.props.contains("spark.testing")){
     sys.props("java.class.path").split(java.io.File.pathSeparator).toSeq
    } else {
      Nil
    }

// Start executors with a few necessaryconfigs for registering with the scheduler
val sparkJavaOpts = Utils.sparkJavaOpts(conf,SparkConf.isExecutorStartupConf)
val javaOpts = sparkJavaOpts ++extraJavaOpts
val command =Command("org.apache.spark.executor.CoarseGrainedExecutorBackend",
    args, sc.executorEnvs,classPathEntries ++ testingClassPath, libraryPathEntries, javaOpts)
val appUIAddress =sc.ui.map(_.appUIAddress).getOrElse("")
val coresPerExecutor =conf.getOption("spark.executor.cores").map(_.toInt)
val appDesc = newApplicationDescription(sc.appName, maxCores, sc.executorMemory,
    command, appUIAddress,sc.eventLogDir, sc.eventLogCodec, coresPerExecutor)
client = new AppClient(sc.env.rpcEnv,masters, appDesc, this, conf)
client.start()
launcherBackend.setState(SparkAppHandle.State.SUBMITTED)
waitForRegistration()
launcherBackend.setState(SparkAppHandle.State.RUNNING)
}

7、AppClient对象的start方法，在该start方法中会创建ClientEndpoint。

【源代码】AppClient.scala文件：第281行-284行

12.

13. def start() {
// Just launch an rpcEndpoint; it willcall back into the listener.
endpoint.set(rpcEnv.setupEndpoint("AppClient", newClientEndpoint(rpcEnv)))
}

8、然后调用AppClient的onstart方法。

【源代码】AppClient.scala文件：第85行-94行

14.

15.    override def onStart(): Unit = {
try {
    registerWithMaster(1)
} catch {
    case e: Exception =>
      logWarning("Failed to connectto master", e)
      markDisconnected()
      stop()
}
}

9、ClientEndpoint启动并通过registerWithMaster，registerWithMaster再调用tryRegisterMaster来注册当前的应用程序到Master中

【源代码】AppClient.scala文件：第125行-142行

16.    /**
* Register with all mastersasynchronously. It will call `registerWithMaster` every
* REGISTRATION_TIMEOUT_SECONDS secondsuntil exceeding REGISTRATION_RETRIES times.
* Once we connect to a mastersuccessfully, all scheduling work and Futures will be cancelled.
*
* nthRetry means this is the nth attemptto register with master.
*/
private def registerWithMaster(nthRetry: Int){
registerMasterFutures.set(tryRegisterAllMasters())
registrationRetryTimer.set(registrationRetryThread.scheduleAtFixedRate(newRunnable {
    override def run(): Unit = {
      Utils.tryOrExit {
        if (registered.get) {
         registerMasterFutures.get.foreach(_.cancel(true))
         registerMasterThreadPool.shutdownNow()
        } else if (nthRetry >=REGISTRATION_RETRIES) {
          markDead("All masters areunresponsive! Giving up.")
        } else {
         registerMasterFutures.get.foreach(_.cancel(true))
          registerWithMaster(nthRetry +1)
        }
      }
    }
}, REGISTRATION_TIMEOUT_SECONDS, REGISTRATION_TIMEOUT_SECONDS,TimeUnit.SECONDS))
}

10、调用tryRegisterAllMasters方法，发送RegisterApplication(appDescription,self))消息向Master注册

17. val masterRef =
rpcEnv.setupEndpointRef(Master.SYSTEM_NAME, masterAddress,Master.ENDPOINT_NAME)
masterRef.send(RegisterApplication(appDescription, self))

【源代码】AppClient.scala文件：第99行-116行

18.    /**
* Register with all masters asynchronously and returns an array `Future`sfor cancellation.
*/
private def tryRegisterAllMasters():Array[JFuture[_]] = {
for (masterAddress <-masterRpcAddresses) yield {
    registerMasterThreadPool.submit(newRunnable {
      override def run(): Unit = try {
        if (registered.get) {
          return
        }
        logInfo("Connecting tomaster " + masterAddress.toSparkURL + "...")
        val masterRef =
         rpcEnv.setupEndpointRef(Master.SYSTEM_NAME, masterAddress,Master.ENDPOINT_NAME)
       masterRef.send(RegisterApplication(appDescription,self))
      } catch{
        case ie: InterruptedException=> // Cancelled
        case NonFatal(e) =>logWarning(s"Failed to connect to master $masterAddress", e)
      }
    })
}
}

12、master收到RegisterApplication消息以后，Master接受到注册信息后如何可以运行程序，则会为该程序生产Job ID并通过schedule来分配计算资源，具体计算资源的分配是通过应用程序的运行方式、Memory、cores等配置信息来决定的，schedule()资源调度

【源代码】Master.scala文件：第244行-257行

19.    caseRegisterApplication(description, driver) => {
// TODO Prevent repeated registrationsfrom some driver
if (state == RecoveryState.STANDBY) {
    // ignore, don't send response
} else {
    logInfo("Registering app "+ description.name)
    val app =createApplication(description, driver)
    registerApplication(app)
    logInfo("Registered app " +description.name + " with ID " + app.id)
    persistenceEngine.addApplication(app)
    driver.send(RegisteredApplication(app.id,self))
   schedule()
}
}

13、master进行schedule()资源调度，在一台worker上启动driver，launchDriver(worker, driver)，然后在worker上启动executors

【源代码】Master.scala文件：第701行-708行

20.    /**
* Schedule the currently availableresources among waiting apps. This method will be called
* every time a new app joins or resourceavailability changes.
*/
private def schedule(): Unit = {
if (state != RecoveryState.ALIVE) {return }
// Drivers take strict precedence overexecutors
val shuffledWorkers =Random.shuffle(workers) // Randomization helps balance drivers
for (worker <- shuffledWorkers ifworker.state == WorkerState.ALIVE) {
    for (driver <- waitingDrivers) {
      if (worker.memoryFree >=driver.desc.mem && worker.coresFree >= driver.desc.cores) {
        launchDriver(worker, driver)
        waitingDrivers -= driver
      }
    }
}
startExecutorsOnWorkers()
}

14、master进行schedule()资源调度， 在workers上启动executors 。

【源代码】Master.scala文件：第655行-676行

21.    /**
* Schedule and launch executors onworkers
*/
private def startExecutorsOnWorkers(): Unit = {
// Right now this is a very simple FIFOscheduler. We keep trying to fit in the first app
// in the queue, then the second app,etc.
for (app <- waitingApps ifapp.coresLeft > 0) {
    val coresPerExecutor: Option[Int] =app.desc.coresPerExecutor
    // Filter out workers that don't haveenough resources to launch an executor
    val usableWorkers =workers.toArray.filter(_.state == WorkerState.ALIVE)
      .filter(worker =>worker.memoryFree >= app.desc.memoryPerExecutorMB &&
        worker.coresFree >=coresPerExecutor.getOrElse(1))
      .sortBy(_.coresFree).reverse
    val assignedCores =scheduleExecutorsOnWorkers(app, usableWorkers, spreadOutApps)

    // Now that we've decided how manycores to allocate on each worker, let's allocate them
    for (pos <- 0 untilusableWorkers.length if assignedCores(pos) > 0) {
     allocateWorkerResourceToExecutors(
        app, assignedCores(pos), coresPerExecutor,usableWorkers(pos))
    }
}
}

15、master决定好了分配多少cores给worker，就开始分配启动worker。

【源代码】Master.scala文件：第684行-699行

22.    private defallocateWorkerResourceToExecutors(
    app: ApplicationInfo,
    assignedCores: Int,
    coresPerExecutor: Option[Int],
    worker: WorkerInfo): Unit = {
// If the number of cores per executoris specified, we divide the cores assigned
// to this worker evenly among theexecutors with no remainder.
// Otherwise, we launch a single executorthat grabs all the assignedCores on this worker.
val numExecutors = coresPerExecutor.map{ assignedCores / _ }.getOrElse(1)
val coresToAssign =coresPerExecutor.getOrElse(assignedCores)
for (i <- 1 to numExecutors) {
    val exec = app.addExecutor(worker,coresToAssign)
    launchExecutor(worker, exec)
    app.state = ApplicationState.RUNNING
}
}

16、master启动worker

【源代码】Master.scala文件：第720行-727行

23.    private deflaunchExecutor(worker: WorkerInfo, exec: ExecutorDesc): Unit = {
logInfo("Launching executor "+ exec.fullId + " on worker " + worker.id)
worker.addExecutor(exec)
worker.endpoint.send(LaunchExecutor(masterUrl,
    exec.application.id, exec.id,exec.application.desc, exec.cores, exec.memory))
exec.application.driver.send(
    ExecutorAdded(exec.id, worker.id,worker.hostPort, exec.cores, exec.memory))
}

17、worker收到LaunchExecutor消息了，首先分配ExecutorRunner

【源代码】worker.scala文件：第431－487行

24.    case LaunchExecutor(masterUrl,appId, execId, appDesc, cores_, memory_) =>
if (masterUrl != activeMasterUrl) {
    logWarning("Invalid Master(" + masterUrl + ") attempted to launch executor.")
} else {
    try {
      logInfo("Asked to launchexecutor %s/%d for %s".format(appId, execId, appDesc.name))

      // Create the executor's workingdirectory
      val executorDir = new File(workDir,appId + "/" + execId)
      if (!executorDir.mkdirs()) {
        throw newIOException("Failed to create directory " + executorDir)
      }

      // Create local dirs for theexecutor. These are passed to the executor via the
      // SPARK_EXECUTOR_DIRS environmentvariable, and deleted by the Worker when the
      // application finishes.
      val appLocalDirs =appDirectories.get(appId).getOrElse {
        Utils.getOrCreateLocalRootDirs(conf).map{ dir =>
          val appDir =Utils.createDirectory(dir, namePrefix = "executor")
          Utils.chmod700(appDir)
          appDir.getAbsolutePath()
        }.toSeq
      }
      appDirectories(appId) =appLocalDirs
      val manager = new ExecutorRunner(
       appId,
        execId,
        appDesc.copy(command =Worker.maybeUpdateSSLSettings(appDesc.command, conf)),
       cores_,
        memory_,
        self,
        workerId,
        host,
        webUi.boundPort,
        publicAddress,
        sparkHome,
        executorDir,
        workerUri,
        conf,
        appLocalDirs,ExecutorState.RUNNING)
      executors(appId + "/" +execId) = manager
      manager.start()
      coresUsed += cores_
      memoryUsed += memory_
      sendToMaster(ExecutorStateChanged(appId,execId, manager.state, None, None))
    } catch {
      case e: Exception => {
        logError(s"Failed to launchexecutor $appId/$execId for ${appDesc.name}.", e)
        if (executors.contains(appId +"/" + execId)) {
          executors(appId + "/"+ execId).kill()
          executors -= appId +"/" + execId
        }
       sendToMaster(ExecutorStateChanged(appId, execId, ExecutorState.FAILED,
          Some(e.toString), None))
      }
    }
}

18、worker分配ExecutorRunner赋值给manager，然后manager.start()

【源代码】ExecutorRunner.scala文件：第67－80行

25.    private[worker] def start() {
workerThread = newThread("ExecutorRunner for " + fullId) {
    override def run() {fetchAndRunExecutor() }
}

19、ExecutorRunner调用start方法，start调用fetchAndRunExecutor方法；fetchAndRunExecutor下载运行的程序并运行executor。

【源代码】ExecutorRunner.scala文件：第132－186行

26.    /**
* Download and run the executordescribed in our ApplicationDescription
*/
private def fetchAndRunExecutor() {
try {
    // Launch the process
    val builder =CommandUtils.buildProcessBuilder(appDesc.command, new SecurityManager(conf),
      memory, sparkHome.getAbsolutePath,substituteVariables)
    val command = builder.command()
    val formattedCommand =command.asScala.mkString("\"", "\" \"","\"")
    logInfo(s"Launch command:$formattedCommand")

    builder.directory(executorDir)
   builder.environment.put("SPARK_EXECUTOR_DIRS",appLocalDirs.mkString(File.pathSeparator))
    // In case we are running this fromwithin the Spark Shell, avoid creating a "scala"
    // parent process for the executorcommand
   builder.environment.put("SPARK_LAUNCH_WITH_SCALA","0")

    // Add webUI log urls
    val baseUrl =
     s"http://$publicAddress:$webUiPort/logPage/?appId=$appId&executorId=$execId&logType="
   builder.environment.put("SPARK_LOG_URL_STDERR",s"${baseUrl}stderr")
   builder.environment.put("SPARK_LOG_URL_STDOUT",s"${baseUrl}stdout")

    process = builder.start()
    val header = "Spark ExecutorCommand: %s\n%s\n\n".format(
      formattedCommand, "=" *40)

    // Redirect its stdout and stderr tofiles
    val stdout = new File(executorDir,"stdout")
    stdoutAppender =FileAppender(process.getInputStream, stdout, conf)

    val stderr = new File(executorDir,"stderr")
   Files.write(header, stderr, UTF_8)
    stderrAppender =FileAppender(process.getErrorStream, stderr, conf)

    // Wait for it to exit; executor mayexit with code 0 (when driver instructs it to shutdown)
    // or with nonzero exit code
    val exitCode = process.waitFor()
    state = ExecutorState.EXITED
    val message = "Command exitedwith code " + exitCode
   worker.send(ExecutorStateChanged(appId, execId, state, Some(message),Some(exitCode)))
} catch {
    case interrupted:InterruptedException => {
      logInfo("Runner thread forexecutor " + fullId + " interrupted")
      state = ExecutorState.KILLED
      killProcess(None)
    }
    case e: Exception => {
      logError("Error runningexecutor", e)
      state = ExecutorState.FAILED
      killProcess(Some(e.toString))
    }
}
}

ExecutorRunner内部会通过Thread的方式构建ProcessBuilder来启动另外一个JVM进程，这个JVM进程启动时候加载的main方法所在的类的名称就是在创建ClientEndpoint时传入的Command来指定具体名称为CoarseGrainedExecutorBackend的类，此时JVM在通过ProcessBuilder启动的时候获得了CoarseGrainedExecutorBackend后加载并调用其中的main方法，在main方法中会实例化CoarseGrainedExecutorBackend本身这个消息循环体

补充说明：

ExecutorRunner.scala文件：第138行

val builder = CommandUtils.buildProcessBuilder(appDesc.command, new SecurityManager(conf),
memory, sparkHome.getAbsolutePath,substituteVariables)

直接调用object对象CommandUtils的buildProcessBuilder方法，记录command的spark classpath信息

【源代码】CommandUtils.scala文件：第35－58行

/**
* Build a ProcessBuilder based on thegiven parameters.
* The `env` argument is exposed fortesting.
*/
def buildProcessBuilder(
    command: Command,
    securityMgr: SecurityManager,
    memory: Int,
    sparkHome: String,
    substituteArguments: String =>String,
    classPaths: Seq[String] =Seq[String](),
    env: Map[String, String] = sys.env):ProcessBuilder = {
val localCommand = buildLocalCommand(
    command, securityMgr,substituteArguments, classPaths, env)
val commandSeq =buildCommandSeq(localCommand, memory, sparkHome)
val builder = newProcessBuilder(commandSeq: _*)
valenvironment = builder.environment()
for ((key, value) <-localCommand.environment) {
    environment.put(key, value)
}
  builder
}

在CommandUtils.scala文件第52行，新建了一个ProcessBuilder实例赋值给builder，这里ProcessBuilder是java开发的，ProcessBuilder的构造器传入多个command参数， this.command是一个字符串列表，包含运行的参数。buildProcessBuilder返回的builder赋值给ExecutorRunner.scala文件中的第138行builder

【源代码】ProcessBuilder.java文件：第204-219行

/**
* Constructs a process builder with thespecified operating
* system program and arguments. This is a convenience
* constructor that sets the processbuilder's command to a string
* list containing the same strings asthe {@code command}
* array, in the same order. It is not checked whether
* {@code command} corresponds to a validoperating system
* command.
*
* @param command a string arraycontaining the program and its arguments
*/
public ProcessBuilder(String...command) {
    this.command = newArrayList<>(command.length);
    for (String arg : command)
        this.command.add(arg);
}

ProcessBuilder实例的启动

【源代码】ExecutorRunner.scala文件：第156行

process = builder.start()

ProcessBuilder启动start（）方法，这里ProcessImpl就是jvm新开辟的线程

【源代码】ProcessBuilder.java文件：第1004-1054行

public Process start() throws IOException {
    // Must convert to array first -- amalicious user-supplied
    // list might try to circumvent thesecurity check.
    String[] cmdarray =command.toArray(new String[command.size()]);
    cmdarray = cmdarray.clone();

    for (String arg : cmdarray)
       if (arg == null)
            throw newNullPointerException();
    // Throws IndexOutOfBoundsExceptionif command is empty
    String prog = cmdarray[0];

    SecurityManager security =System.getSecurityManager();
    if (security != null)
        security.checkExec(prog);

    String dir = directory == null ? null: directory.toString();

    for (int i = 1; i         if (cmdarray[i].indexOf('\u0000')>= 0) {
            throw newIOException("invalid null character in command");
        }
    }

    try {
        return ProcessImpl.start(cmdarray,
                                environment,
                                 dir,
                                redirects,
                                redirectErrorStream);
    } catch (IOException |IllegalArgumentException e) {
        String exceptionInfo = ":" + e.getMessage();
        Throwable cause = e;
        if ((e instanceof IOException)&& security != null) {
            // Can not disclose the failreason for read-protected files.
            try {
                security.checkRead(prog);
            } catch (SecurityExceptionse) {
                exceptionInfo ="";
                cause = se;
            }
        }
        // It's much easier for us to createa high-quality error
        // message than the low-level Ccode which found the problem.
        throw new IOException(
            "Cannot run program\"" + prog + "\""
            + (dir == null ? "": " (in directory \"" + dir + "\")")
            + exceptionInfo,
            cause);
    }
}

再次梳理一下整个command的流程：

l SparkDeploySchedulerBackend.scala文件：第87行定义了command

valcommand =Command("org.apache.spark.executor.CoarseGrainedExecutorBackend",

args, sc.executorEnvs, classPathEntries ++ testingClassPath,libraryPathEntries, javaOpts)

l Command的数据结构如下，定义了mainClass，mainClass就是org.apache.spark.executor.CoarseGrainedExecutorBackend，还定义了arguments、environment、classPathEntries、libraryPathEntries、javaOpts等参数

【源代码】Command.scala文件：第22-29行

private[spark] case class Command(
    mainClass: String,
    arguments: Seq[String],
    environment: Map[String, String],
    classPathEntries: Seq[String],
    libraryPathEntries: Seq[String],
    javaOpts: Seq[String]) {
}

l 然后一直传递下去，SparkDeploySchedulerBackend->AppClient对象->ClientEndpoint->tryRegisterMaster->Master->Worker->ProcessBuilder->CoarseGrainedExecutorBackend

20、CoarseGrainedExecutorBackend在实例化的时候会通过回调onStart向DriverEndpoint发送RegisterExecutor来注册当前的CoarseGrainedExecutorBackend

【源代码】CoarseGrainedExecutorBackend.scala文件：第55－72行

27.    override def onStart() {
logInfo("Connecting to driver:" + driverUrl)
rpcEnv.asyncSetupEndpointRefByURI(driverUrl).flatMap { ref =>
    // This is a very fast action so wecan use "ThreadUtils.sameThread"
    driver = Some(ref)
    ref.ask[RegisterExecutorResponse](
      RegisterExecutor(executorId, self, hostPort,cores, extractLogUrls))
}(ThreadUtils.sameThread).onComplete {
    // This is a very fast action so wecan use "ThreadUtils.sameThread"
    case Success(msg) =>Utils.tryLogNonFatalError {
      Option(self).foreach(_.send(msg))// msg must be RegisterExecutorResponse
    }
    case Failure(e) => {
      logError(s"Cannot registerwith driver: $driverUrl", e)
      System.exit(1)
    }
}(ThreadUtils.sameThread)
}

你可能感兴趣的:(Hadoop)

RHEL 安装 Hadoop 服务器 XhClojure hadoop 服务器大数据
在这篇文章中，我们将探讨如何在RedHatEnterpriseLinux(RHEL)上安装和配置Hadoop服务器。Hadoop是一个开源的分布式数据处理框架，用于处理大规模数据集。以下是在RHEL上安装Hadoop的详细步骤。步骤1：安装Java在安装Hadoop之前，我们需要确保系统上安装了JavaDevelopmentKit(JDK)。执行以下命令安装JDK：sudoyuminstallja
如何安装Hadoop 薇晶晶 hadoop 大数据分布式
Hadoop入门(一)——CentOS7下载+VM上安装（手动分区）Hadoop入门(二)——VMware虚拟网络设置+Windows10的IP地址配置+CentOS静态IP设置Hadoop入门(三)——XSHELL7远程访问工具+XFTP7文件传输Hadoop入门(四)——模板虚拟机环境准备Hadoop入门(五)——Hadoop集群搭建-克隆三台虚拟机Hadoop入门(六)——JDK安装Hado
Hadoop01-入门&集群环境搭建--非原创（test） xl.liu 大数据 Test
Hadoop01-入门&集群环境搭建今日内容Hadoop的介绍集群环境搭建准备工作Linux命令和Shell脚本增强集群环境搭建来来来大数据概述大数据:就是对海量数据进行分析处理，得到一些有价值的信息，然后帮助企业做出判断和决策.处理流程:1:获取数据2:处理数据3:展示结果1：Hadoop介绍Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.它主
Hadoop管理工具dfsadmin和fsck的使用脚本无敌 Hadoop hadoop npm 大数据
Hadoop提供了多个管理工具，其中dfsadmin和fsck是用于管理HDFS（Hadoop分布式文件系统）的重要工具。以下是它们的使用方法和常见命令。1.dfsadmin工具dfsadmin是用于管理HDFS集群的命令行工具，主要用于监控和管理HDFS的状态。常用命令查看HDFS状态hdfsdfsadmin-report显示HDFS集群的总体状态，包括数据节点（DataNode）的状态、存储容
（一）大数据---Hadoop整体介绍（架构层）----（组件(3) 2401_84166965 程序员大数据 hadoop 架构
复杂性:体现在数据的管理和操作上。如何抽取，转换，加载，连接，关联以把握数据内蕴的有用信息已经变得越来越有挑战性二、大数据技术有哪些（重点）===================================================================================基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计
hive全量迁移脚本我要用代码向我喜欢的女孩表白数据迁移 bigdata-大数据专栏 hive hadoop 数据仓库
#!/bin/bash#场景：数据在同一库下，并且hive是内部表（前缀的hdfs地址是相同的）#1.读取一个文件，获取表名#echo"时间$dt_jian_2-------------------------">>/home/hadoop/qianyi_zengliang/rs.txt#跟客户宽带有关，万兆(1.2g)，然后咨询业务后，看监控高峰，大概可以用一般600mb/spinjie="ha
笔记：DataSphere Studio安装部署流程右边com Java 大数据
一、标准版部署标准版：有一定的安装难度，体现在Hadoop、Hive和Spark版本不同时，可能需要重新编译，可能会出现包冲突问题。适合于试用和生产使用，2~3小时即可部署起来。支持的功能有：数据开发IDE-Scriptis工作流实时执行信号功能和邮件功能数据可视化-Visualis数据质量-Qualitis(单机版)工作流定时调度-Azkaban(单机版)Linkis管理台二、基础环境准备2.1
hive-site.xml 配置总结 hxsln11 hive xml hadoop
在Hive安装后，hive主要的配置文件为conf中hive-site.xml那该文件中那么多的配置选项都是什么含义呢。下面这篇文章带你解密这些配置请跟随以下这些问题来看以下配置：1.hive输出格式的配置项是哪个？2.hive被各种语言调用如何配置？3.hive提交作业是在hive中还是hadoop中？4.一个查询的最后一个map/reduce任务输出是否被压缩的标志，通过哪个配置项？5.当用户
常见Linux命令程序员小柴后端工程化 linux 服务器运维
第八章常见Linux命令学习目标1熟练文件目录类命令2熟悉用户管理命令3熟悉组管理命令4熟练文件权限命令5熟悉搜索查找类命令6熟练压缩和解压缩命令7熟练进程线程类命令8了解磁盘分区类命令第一节文件目录类命令（1）pwd打印当前目录的绝对路径(printworkingdirectory)基本语法pwd（功能描述：显示当前工作目录的绝对路径）案例实操显示当前工作目录的绝对路径[root@hadoop1
Fink与Hadoop的简介以及联系 Bugkillers hadoop 大数据分布式
Fink和Hadoop是两个常用于大数据处理的开源工具，它们可以搭配使用以构建高效的数据处理系统。一、Fink和Hadoop的关系Fink：1、Fink是一个分布式流处理框架，专注于实时数据处理。它支持高吞吐、低延迟的流处理，适用于实时分析、事件驱动应用等场景。2、Fink提供精确一次（exactly-once）语义，确保数据处理的准确性。Hadoop：1、Hadoop是一个分布式存储和批处理框架
Hbase深入浅出天才之上数据存储 Hbase 大数据存储
目录HBase在大数据生态圈中的位置HBase与传统关系数据库的区别HBase相关的模块以及HBase表格的特性HBase的使用建议Phoenix的使用总结HBase在大数据生态圈中的位置提到大数据的存储，大多数人首先联想到的是Hadoop和Hadoop中的HDFS模块。大家熟知的Spark、以及Hadoop的MapReduce，可以理解为一种计算框架。而HDFS，我们可以认为是为计算框架服务的存
HBase简介：高效分布式数据存储和处理代码指四方分布式 hbase 数据库大数据
HBase简介：高效分布式数据存储和处理HBase是一个高效的、可扩展的分布式数据库，它是构建在ApacheHadoop之上的开源项目。HBase的设计目标是为大规模数据存储和处理提供高吞吐量和低延迟的解决方案。它可以在成百上千台服务器上运行，并能够处理海量的结构化和半结构化数据。HBase的核心特点包括：分布式存储：HBase使用Hadoop分布式文件系统（HDFS）作为底层存储，数据被分布在集
在Hadoop集群中实现数据安全：技术与策略并行 Echo_Wish 实战高阶大数据 hadoop 大数据分布式
在Hadoop集群中实现数据安全：技术与策略并行随着大数据技术的广泛应用，Hadoop已经成为处理和存储海量数据的首选平台。然而，随着数据规模的扩大，如何确保Hadoop集群中的数据安全也成为了亟待解决的难题。毕竟，数据安全不仅关系到企业的隐私保护，也直接影响到数据的可信度与可用性。本文将探讨如何在Hadoop集群中实现数据安全，分析数据加密、访问控制、审计日志等方面的技术与策略，并通过一些具体的
python编写mapreduce job教程 weixin_49526058 python mapreduce hadoop
在Python中实现MapReduce作业，通常可以使用mrjob库，这是一个用于编写和执行MapReduce作业的Python库。它可以运行在本地模式或Hadoop集群上。以下是一个简单的MapReduce示例，它计算文本文件中每个单词的出现次数。安装mrjob首先，你需要安装mrjob库。可以通过pip安装：pipinstallmrjobMapReduce示例：计算单词频率1.创建一个MapR
Knox原理与代码实例讲解 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Knox原理与代码实例讲解1.背景介绍在现代分布式系统中,安全性和隔离性是非常重要的需求。ApacheKnox是一个反向代理服务器,旨在为ApacheHadoop集群提供单一入口点,增强安全性和集中化管理。它位于Hadoop集群与客户端应用程序之间,充当网关和负载均衡器的角色。Knox的主要目标是:提供集中式身份验证和授权,减轻客户端应用程序的负担。实现多租户支持,允许不同的组织或部门安全地共享同
Apache ZooKeeper 分布式协调服务 slovess 分布式 apache zookeeper
1.ZooKeeper概述1.1定义与定位核心定位：分布式系统的协调服务，提供强一致性的配置管理、命名服务、分布式锁和集群管理能力核心模型：基于树形节点（ZNode）的键值存储，支持Watcher监听机制生态地位：Hadoop/Kafka等生态核心依赖，分布式系统基础设施级组件1.2设计目标强一致性：所有节点数据最终一致（基于ZAB协议）高可用性：集群半数以上节点存活即可提供服务顺序性：全局唯一递
Hadoop常用端口号海洋之心 Hadoop问题解决 hadoop hbase 大数据
Hadoop是一个由多个组件构成的分布式系统，每个组件都会使用一些特定的端口号来进行通信和交互。以下是Hadoop2.x常用的端口号列表：HDFS端口号：NameNode：50070SecondaryNameNode：50090DataNode：50010DataNode（数据传输）：50020YARN端口号：ResourceManager：8088NodeManager：8042MapReduc
Hadoop综合项目——二手房统计分析（可视化篇） WHYBIGDATA 大数据项目 hadoop 大数据
Hadoop综合项目——二手房统计分析（可视化篇）文章目录Hadoop综合项目——二手房统计分析（可视化篇）0、写在前面1、数据可视化1.1二手房四大一线城市总价Top51.2统计各个楼龄段的二手房比例1.3统计各个城市二手房标签的各类比例1.4统计各个城市各个楼层的平均价格1.5统计各个城市二手房优势的各类比例1.6统计各个城市二手房数量和关注人数的关系1.7统计各个城市二手房规格的各类比例1.
spark任务运行冰火同学 Spark spark 大数据分布式
运行环境在这里插入代码片[root@hadoop000conf]#java-versionjavaversion"1.8.0_144"Java(TM)SERuntimeEnvironment(build1.8.0_144-b01)[root@hadoop000conf]#echo$JAVA_HOME/home/hadoop/app/jdk1.8.0_144[root@hadoop000conf]#
Hadoop 的分布式缓存机制是如何实现的？如何在大规模集群中优化缓存性能？晚夜微雨问海棠呀分布式 hadoop 缓存
Hadoop的分布式缓存机制是一种用于在MapReduce任务中高效分发和访问文件的机制。通过分布式缓存，用户可以将小文件（如配置文件、字典文件等）分发到各个计算节点，从而提高任务的执行效率。分布式缓存的工作原理文件上传：用户将需要缓存的文件上传到HDFS（HadoopDistributedFileSystem）。文件路径可以在作业配置中指定。作业提交：在提交MapReduce作业时，用户可以通过
集群与分片：深入理解及应用实践一休哥助手架构系统架构
目录引言什么是集群？集群的定义集群的类型什么是分片？分片的定义分片的类型集群与分片的关系集群的应用场景负载均衡高可用性分片的应用场景大数据处理数据库分片集群与分片的架构设计系统架构设计数据存储设计案例分析Hadoop集群Elasticsearch分片性能优化策略集群性能优化分片性能优化挑战和解决方案总结参考资料引言在现代计算系统中，处理大规模数据和提高系统的可靠性已经成为了基础需求。集群和分片是两
hive spark读取hive hbase外表报错分析和解决 spring208208 hive hive spark hbase
问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。问题1：使用tez或spark引擎，在hive查询时只要关联hbase的hive表就会有问题其他表正常。“org.apache.hadoop.hbase.client.RetriesExhaustedException:Can’tgetthelocations”问题2：s
Ubuntu下配置安装Hadoop 2.2 weixin_30501857 大数据 java 运维
---恢复内容开始---这两天玩Hadoop，之前在我的Mac上配置了好长时间都没成功的Hadoop环境，今天想在win7虚拟机下的Ubuntu12.0464位机下配置，然后再建一个组群看一看。参考资料：1.InstallingsinglenodeHadoop2.2.0onUbuntu：http://bigdatahandler.com/hadoop-hdfs/installing-single-
2014 6月，比较老了金金2019
AwesomeBigDataAcuratedlistofawesomebigdataframeworks,resourcesandotherawesomeness.Inspiredbyawesome-php,awesome-python,awesome-ruby,hadoopecosystemtable&big-data.Yourcontributionsarealwayswelcome!Awes
Hive服务启动之 metastore配置和 hiveserver2 龍浮影 hive
Hive服务启动之metastore服务配置和hiveserver2 配置hive的时候都需要配置hive-site.xml，配置过程中可以选择hive直连或者使用metastore服务间接连接，那么他们之间有什么区别呢？首先贴直连配置代码：javax.jdo.option.ConnectionURLjdbc:mysql://hadoop102:3306/metastore?useSSL=fal
5. clickhouse 单节点多实例部署 Toroidals 大数据组件安装部署教程 clickhouse 单节点多实例伪分布安装部署
环境说明：主机名：cmc01为例操作系统：centos7安装部署软件版本部署方式centos7zookeeperzookeeper-3.4.10伪分布式hadoophadoop-3.1.3伪分布式hivehive-3.1.3-bin伪分布式clickhouse21.11.10.1-2单节点多实例dolphinscheduler3.0.0单节点kettlepdi-ce-9.3.0.0单节点sqoop
蓝易云 - HBase基础知识蓝易云 hbase 数据库大数据 php python 人工智能
HBase是一个分布式、可伸缩、列式存储的NoSQL数据库，它建立在Hadoop的HDFS之上，提供高可靠性、高性能的数据存储和访问。以下是HBase的基础知识：数据模型：HBase以表的形式存储数据，每个表由行和列组成，可以动态添加列族。每行由唯一的行键标识，列族和列限定符（Qualifier）用于唯一标识列。架构：HBase采用分布式架构，数据被分散存储在多个RegionServer上，每个R
腾讯云大数据套件TBDS与阿里云大数据能力产品对比奋力向前123 数据库 java 人工智能腾讯云大数据阿里云
前言博主在接触大数据方向研究的时候是在2016年，那时候正是大数据概念非常火热的一个时间段，最著名的Google的3篇论文。GoogleFS、MapReduce、BigTable，奠定了大数据框架产品的基础。Google文件系统，计算框架和存储框架。往后所有的大数据产品和过程域无一不是在三个模块的基础上进行搭建，迭代，完善。我们最开始使用的都是开源的产品，比如hadoop，HDSF，MAPRedu
DS缩写乱争：当小海豚撞上AI顶流，技术圈也逃不过“撞名”修罗场数据库
DS缩写风云：从“小海豚”到“深度求索”的魔幻现实曾几何时，技术圈提到DS，人们脑海中浮现的是一只灵动的“小海豚”——ApacheDolphinScheduler（简称DS）。这个2019年诞生的分布式任务调度系统，凭借可视化DAG界面、多租户支持和对Hadoop/Spark生态的深度集成，一度是大数据工程师的“梦中情工”。然而，命运的齿轮在2025年初突然加速转动：杭州AI公司DeepSeek（
1. hadoop 1.0.0 source code 小阿小火苗 hadoop
https://archive.apache.org/dist/hadoop/core/hadoop-1.0.0/
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

重磅！Spark运行内幕 打通Spark系统运行内幕机制流程

你可能感兴趣的:(Hadoop)

重磅！Spark运行内幕打通Spark系统运行内幕机制流程