Spark源码系列（七）Spark on yarn具体实现

本来不打算写的了，但是真的是闲来无事，整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现，1.0.0里面已经是一个stable的版本了，可是1.0.1也出来了，离1.0.0发布才一个月的时间，更新太快了，节奏跟不上啊，这里仍旧是讲1.0.0的代码，所以各位朋友也不要再问我讲的是哪个版本，目前为止发布的文章都是基于1.0.0的代码。

在第一章《spark-submit提交作业过程》的时候，我们讲过Spark on yarn的在cluster模式下它的main class是org.apache.spark.deploy.yarn.Client。okay，这个就是我们的头号目标。

提交作业

找到main函数，里面调用了run方法，我们直接看run方法。

    val appId = runApp()

    monitorApplication(appId)

    System.exit(0)

运行App，跟踪App，最后退出。我们先看runApp吧。

  def runApp(): ApplicationId = {

    // 校验参数，内存不能小于384Mb，Executor的数量不能少于1个。

    validateArgs()

    // 这两个是父类的方法，初始化并且启动Client

    init(yarnConf)

    start()



    // 记录集群的信息(e.g, NodeManagers的数量，队列的信息).

    logClusterResourceDetails()



    // 准备提交请求到ResourcManager (specifically its ApplicationsManager (ASM)// Get a new client application.

    val newApp = super.createApplication()

    val newAppResponse = newApp.getNewApplicationResponse()

    val appId = newAppResponse.getApplicationId()

    // 检查集群的内存是否满足当前的作业需求

    verifyClusterResources(newAppResponse)



    // 准备资源和环境变量.

    //1.获得工作目录的具体地址: /.sparkStaging/appId/

    val appStagingDir = getAppStagingDir(appId)

　　//2.创建工作目录，设置工作目录权限，上传运行时所需要的jar包

    val localResources = prepareLocalResources(appStagingDir)

    //3.设置运行时需要的环境变量

    val launchEnv = setupLaunchEnv(localResources, appStagingDir)

　　//4.设置运行时JVM参数，设置SPARK_USE_CONC_INCR_GC为true的话，就使用CMS的垃圾回收机制

    val amContainer = createContainerLaunchContext(newAppResponse, localResources, launchEnv)



    // 设置application submission context. 

    val appContext = newApp.getApplicationSubmissionContext()

    appContext.setApplicationName(args.appName)

    appContext.setQueue(args.amQueue)

    appContext.setAMContainerSpec(amContainer)

    appContext.setApplicationType("SPARK")



    // 设置ApplicationMaster的内存，Resource是表示资源的类，目前有CPU和内存两种.

    val memoryResource = Records.newRecord(classOf[Resource]).asInstanceOf[Resource]

    memoryResource.setMemory(args.amMemory + YarnAllocationHandler.MEMORY_OVERHEAD)

    appContext.setResource(memoryResource)



    // 提交Application.

    submitApp(appContext)

    appId

  }

View Code

monitorApplication就不说了，不停的调用getApplicationReport方法获得最新的Report，然后调用getYarnApplicationState获取当前状态，如果状态为FINISHED、FAILED、KILLED就退出。

说到这里，顺便把跟yarn相关的参数也贴出来一下，大家一看就清楚了。

    while (!args.isEmpty) {

      args match {

        case ("--jar") :: value :: tail =>

          userJar = value

          args = tail



        case ("--class") :: value :: tail =>

          userClass = value

          args = tail



        case ("--args" | "--arg") :: value :: tail =>

          if (args(0) == "--args") {

            println("--args is deprecated. Use --arg instead.")

          }

          userArgsBuffer += value

          args = tail



        case ("--master-class" | "--am-class") :: value :: tail =>

          if (args(0) == "--master-class") {

            println("--master-class is deprecated. Use --am-class instead.")

          }

          amClass = value

          args = tail



        case ("--master-memory" | "--driver-memory") :: MemoryParam(value) :: tail =>

          if (args(0) == "--master-memory") {

            println("--master-memory is deprecated. Use --driver-memory instead.")

          }

          amMemory = value

          args = tail



        case ("--num-workers" | "--num-executors") :: IntParam(value) :: tail =>

          if (args(0) == "--num-workers") {

            println("--num-workers is deprecated. Use --num-executors instead.")

          }

          numExecutors = value

          args = tail



        case ("--worker-memory" | "--executor-memory") :: MemoryParam(value) :: tail =>

          if (args(0) == "--worker-memory") {

            println("--worker-memory is deprecated. Use --executor-memory instead.")

          }

          executorMemory = value

          args = tail



        case ("--worker-cores" | "--executor-cores") :: IntParam(value) :: tail =>

          if (args(0) == "--worker-cores") {

            println("--worker-cores is deprecated. Use --executor-cores instead.")

          }

          executorCores = value

          args = tail



        case ("--queue") :: value :: tail =>

          amQueue = value

          args = tail



        case ("--name") :: value :: tail =>

          appName = value

          args = tail



        case ("--addJars") :: value :: tail =>

          addJars = value

          args = tail



        case ("--files") :: value :: tail =>

          files = value

          args = tail



        case ("--archives") :: value :: tail =>

          archives = value

          args = tail



        case Nil =>

          if (userClass == null) {

            printUsageAndExit(1)

          }



        case _ =>

          printUsageAndExit(1, args)

      }

    }

View Code

ApplicationMaster

直接看run方法就可以了，main函数就干了那么一件事...

  def run() {

    // 设置本地目录，默认是先使用yarn的YARN_LOCAL_DIRS目录，再到LOCAL_DIRS

    System.setProperty("spark.local.dir", getLocalDirs())



    // set the web ui port to be ephemeral for yarn so we don't conflict with

    // other spark processes running on the same box

    System.setProperty("spark.ui.port", "0")



    // when running the AM, the Spark master is always "yarn-cluster"

    System.setProperty("spark.master", "yarn-cluster")



 　　// 设置优先级为30，和mapreduce的优先级一样。它比HDFS的优先级高，因为它的操作是清理该作业在hdfs上面的Staging目录

    ShutdownHookManager.get().addShutdownHook(new AppMasterShutdownHook(this), 30)



    appAttemptId = getApplicationAttemptId()

　　// 通过yarn.resourcemanager.am.max-attempts来设置，默认是2

　　// 目前发现它只在清理Staging目录的时候用

    isLastAMRetry = appAttemptId.getAttemptId() >= maxAppAttempts

    amClient = AMRMClient.createAMRMClient()

    amClient.init(yarnConf)

    amClient.start()



    // setup AmIpFilter for the SparkUI - do this before we start the UI

　　//  方法的介绍说是yarn用来保护ui界面的，我感觉是设置ip代理的

    addAmIpFilter()

　　//  注册ApplicationMaster到内部的列表里

    ApplicationMaster.register(this)



    // 安全认证相关的东西，默认是不开启的，省得给自己找事

    val securityMgr = new SecurityManager(sparkConf)



    // 启动driver程序 

    userThread = startUserClass()



    // 等待SparkContext被实例化，主要是等待spark.driver.port property被使用

　　// 等待结束之后，实例化一个YarnAllocationHandler

    waitForSparkContextInitialized()



    // Do this after Spark master is up and SparkContext is created so that we can register UI Url.

　　// 向yarn注册当前的ApplicationMaster, 这个时候isFinished不能为true，是true就说明程序失败了

    synchronized {

      if (!isFinished) {

        registerApplicationMaster()

        registered = true

      }

    }



    // 申请Container来启动Executor

    allocateExecutors()



    // 等待程序运行结束

    userThread.join()



    System.exit(0)

  }

View Code

run方法里面主要干了5项工作：

1、初始化工作

2、启动driver程序

3、注册ApplicationMaster

4、分配Executors

5、等待程序运行结束

我们重点看分配Executor方法。

  private def allocateExecutors() {

    try {

      logInfo("Allocating " + args.numExecutors + " executors.")

      // 分host、rack、任意机器三种类型向ResourceManager提交ContainerRequest

　　　 // 请求的Container数量可能大于需要的数量

      yarnAllocator.addResourceRequests(args.numExecutors)

      // Exits the loop if the user thread exits.

      while (yarnAllocator.getNumExecutorsRunning < args.numExecutors && userThread.isAlive) {

        if (yarnAllocator.getNumExecutorsFailed >= maxNumExecutorFailures) {

          finishApplicationMaster(FinalApplicationStatus.FAILED, "max number of executor failures reached")

        }

　　　　 // 把请求回来的资源进行分配，并释放掉多余的资源

        yarnAllocator.allocateResources()

        ApplicationMaster.incrementAllocatorLoop(1)

        Thread.sleep(100)

      }

    } finally {

      // In case of exceptions, etc - ensure that count is at least ALLOCATOR_LOOP_WAIT_COUNT,

      // so that the loop in ApplicationMaster#sparkContextInitialized() breaks.

      ApplicationMaster.incrementAllocatorLoop(ApplicationMaster.ALLOCATOR_LOOP_WAIT_COUNT)

    }

    logInfo("All executors have launched.")



    // 启动一个线程来状态报告

    if (userThread.isAlive) {

      // Ensure that progress is sent before YarnConfiguration.RM_AM_EXPIRY_INTERVAL_MS elapses.

      val timeoutInterval = yarnConf.getInt(YarnConfiguration.RM_AM_EXPIRY_INTERVAL_MS, 120000)



      // we want to be reasonably responsive without causing too many requests to RM.

      val schedulerInterval = sparkConf.getLong("spark.yarn.scheduler.heartbeat.interval-ms", 5000)



      // must be <= timeoutInterval / 2.

      val interval = math.min(timeoutInterval / 2, schedulerInterval)



      launchReporterThread(interval)

    }

  }

View Code

这里面我们只需要看addResourceRequests和allocateResources方法即可。

先说addResourceRequests方法，代码就不贴了。

Client向ResourceManager提交Container的请求，分三种类型：优先选择机器、同一个rack的机器、任意机器。

优先选择机器是在RDD里面的getPreferredLocations获得的机器位置，如果没有优先选择机器，也就没有同一个rack之说了，可以是任意机器。

下面我们接着看allocateResources方法。

  def allocateResources() {

    // We have already set the container request. Poll the ResourceManager for a response.

    // This doubles as a heartbeat if there are no pending container requests.

　　// 之前已经提交过Container请求了，现在只需要获取response即可 

    val progressIndicator = 0.1f

    val allocateResponse = amClient.allocate(progressIndicator)



    val allocatedContainers = allocateResponse.getAllocatedContainers()

    if (allocatedContainers.size > 0) {

      var numPendingAllocateNow = numPendingAllocate.addAndGet(-1 * allocatedContainers.size)



      if (numPendingAllocateNow < 0) {

        numPendingAllocateNow = numPendingAllocate.addAndGet(-1 * numPendingAllocateNow)

      }



      val hostToContainers = new HashMap[String, ArrayBuffer[Container]]()



      for (container <- allocatedContainers) {

　　　　 // 内存 > Executor所需内存 + 384

        if (isResourceConstraintSatisfied(container)) {

          // 把container收入名册当中，等待发落

          val host = container.getNodeId.getHost

          val containersForHost = hostToContainers.getOrElseUpdate(host, new ArrayBuffer[Container]())

          containersForHost += container

        } else {

          // 内存不够，释放掉它

          releaseContainer(container)

        }

      }



      // 找到合适的container来使用.

      val dataLocalContainers = new HashMap[String, ArrayBuffer[Container]]()

      val rackLocalContainers = new HashMap[String, ArrayBuffer[Container]]()

      val offRackContainers = new HashMap[String, ArrayBuffer[Container]]()

　　　 // 遍历所有的host

      for (candidateHost <- hostToContainers.keySet) {

        val maxExpectedHostCount = preferredHostToCount.getOrElse(candidateHost, 0)

        val requiredHostCount = maxExpectedHostCount - allocatedContainersOnHost(candidateHost)



        val remainingContainersOpt = hostToContainers.get(candidateHost)

        var remainingContainers = remainingContainersOpt.get

　　　　　　

        if (requiredHostCount >= remainingContainers.size) {

          // 需要的比现有的多，把符合数据本地性的添加到dataLocalContainers映射关系里

          dataLocalContainers.put(candidateHost, remainingContainers)

          // 没有containner剩下的.

          remainingContainers = null

        } else if (requiredHostCount > 0) {

          // 获得的container比所需要的多，把多余的释放掉

          val (dataLocal, remaining) = remainingContainers.splitAt(remainingContainers.size - requiredHostCount)

          dataLocalContainers.put(candidateHost, dataLocal)



          for (container <- remaining) releaseContainer(container)

          remainingContainers = null

        }



        // 数据所在机器已经分配满任务了，只能在同一个rack里面挑选了

        if (remainingContainers != null) {

          val rack = YarnAllocationHandler.lookupRack(conf, candidateHost)

          if (rack != null) {

            val maxExpectedRackCount = preferredRackToCount.getOrElse(rack, 0)

            val requiredRackCount = maxExpectedRackCount - allocatedContainersOnRack(rack) -

              rackLocalContainers.getOrElse(rack, List()).size



            if (requiredRackCount >= remainingContainers.size) {

              // Add all remaining containers to to `dataLocalContainers`.

              dataLocalContainers.put(rack, remainingContainers)

              remainingContainers = null

            } else if (requiredRackCount > 0) {

              // Container list has more containers that we need for data locality.

              val (rackLocal, remaining) = remainingContainers.splitAt(remainingContainers.size - requiredRackCount)

              val existingRackLocal = rackLocalContainers.getOrElseUpdate(rack, new ArrayBuffer[Container]())



              existingRackLocal ++= rackLocal

              remainingContainers = remaining

            }

          }

        }



        if (remainingContainers != null) {

          // 还是不够，只能放到别的rack的机器上运行了

          offRackContainers.put(candidateHost, remainingContainers)

        }

      }



      // 按照数据所在机器、同一个rack、任意机器来排序

      val allocatedContainersToProcess = new ArrayBuffer[Container](allocatedContainers.size)

      allocatedContainersToProcess ++= TaskSchedulerImpl.prioritizeContainers(dataLocalContainers)

      allocatedContainersToProcess ++= TaskSchedulerImpl.prioritizeContainers(rackLocalContainers)

      allocatedContainersToProcess ++= TaskSchedulerImpl.prioritizeContainers(offRackContainers)



      // 遍历选择了的Container，为每个Container启动一个ExecutorRunnable线程专门负责给它发送命令

      for (container <- allocatedContainersToProcess) {

        val numExecutorsRunningNow = numExecutorsRunning.incrementAndGet()

        val executorHostname = container.getNodeId.getHost

        val containerId = container.getId

　　　　　// 内存需要大于Executor的内存 + 384

        val executorMemoryOverhead = (executorMemory + YarnAllocationHandler.MEMORY_OVERHEAD)



        if (numExecutorsRunningNow > maxExecutors) {

          // 正在运行的比需要的多了，释放掉多余的Container

          releaseContainer(container)

          numExecutorsRunning.decrementAndGet()

        } else {

          val executorId = executorIdCounter.incrementAndGet().toString

          val driverUrl = "akka.tcp://spark@%s:%s/user/%s".format(

            sparkConf.get("spark.driver.host"),

            sparkConf.get("spark.driver.port"),

            CoarseGrainedSchedulerBackend.ACTOR_NAME)





          // To be safe, remove the container from `pendingReleaseContainers`.

          pendingReleaseContainers.remove(containerId)

         // 把container记录到已分配的rack的映射关系当中

          val rack = YarnAllocationHandler.lookupRack(conf, executorHostname)

          allocatedHostToContainersMap.synchronized {

            val containerSet = allocatedHostToContainersMap.getOrElseUpdate(executorHostname,

              new HashSet[ContainerId]())



            containerSet += containerId

            allocatedContainerToHostMap.put(containerId, executorHostname)



            if (rack != null) {

              allocatedRackCount.put(rack, allocatedRackCount.getOrElse(rack, 0) + 1)

            }

          }

　　　　　　// 启动一个线程给它进行跟踪服务，给它发送运行Executor的命令

          val executorRunnable = new ExecutorRunnable(

            container,

            conf,

            sparkConf,

            driverUrl,

            executorId,

            executorHostname,

            executorMemory,

            executorCores)

          new Thread(executorRunnable).start()

        }

      }

      

  }

View Code

1、把从ResourceManager中获得的Container进行选择，选择顺序是按照前面的介绍的三种类别依次进行，优先选择机器 > 同一个rack的机器 > 任意机器。

2、选择了Container之后，给每一个Container都启动一个ExecutorRunner一对一贴身服务，给它发送运行CoarseGrainedExecutorBackend的命令。

3、ExecutorRunner通过NMClient来向NodeManager发送请求。

总结：

把作业发布到yarn上面去执行这块涉及到的类不多，主要是涉及到Client、ApplicationMaster、YarnAllocationHandler、ExecutorRunner这四个类。

1、Client作为Yarn的客户端，负责向Yarn发送启动ApplicationMaster的命令。

2、ApplicationMaster就像项目经理一样负责整个项目所需要的工作，包括请求资源，分配资源，启动Driver和Executor，Executor启动失败的错误处理。

3、ApplicationMaster的请求、分配资源是通过YarnAllocationHandler来进行的。

4、Container选择的顺序是：优先选择机器 > 同一个rack的机器 > 任意机器。

5、ExecutorRunner只负责向Container发送启动CoarseGrainedExecutorBackend的命令。

6、Executor的错误处理是在ApplicationMaster的launchReporterThread方法里面，它启动的线程除了报告运行状态，还会监控Executor的运行，一旦发现有丢失的Executor就重新请求。

7、在yarn目录下看到的名称里面带有YarnClient的是属于yarn-client模式的类，实现和前面的也差不多。

其它的内容更多是Yarn的客户端api使用，我也不太会，只是看到了能懂个意思，哈哈。

岑玉海

转载请注明出处，谢谢！

spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
玩转至轻云大数据平台-docker部署篇 fanciNate454 大数据 docker
产品介绍至轻云是一款超轻量级、企业级大数据计算平台，基于Spark生态打造。一键部署，开箱即用。快速实现大数据离线ETL、Spark计算、实时计算、可视化调度、自定义接口、数据大屏以及自定义表单等多种功能，为企业提供高效便捷的大数据解决方案。至轻云有什么特点呢？又能怎么玩呢？产品特点开源轻量化云原生架构:兼容云原生架构，支持Docker、Rancher平台的快速部署。国内镜像下载:可直接从阿里云镜
hadoop常用命令我要用代码向我喜欢的女孩表白 hadoop npm 大数据
Yarn查看提交到资源调度器的任务（任何用yarn资源的都可以看，比如spark、tez、mapreduce）看正在运行的yarn任务yarnapplication-list杀死对应的yarn任务yarnapplication-kill{application_Id}（id可以通过-list看到）hdfs查看hdfs目录hdfsdfs-ls/（查看本集群的目录）hdfsdfs-lshdfs://i
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）吃西红柿的鸡蛋大数据 hadoop spark python
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）项目地址http://dblab.xmu.edu.cn/blog/2307/踩坑:Spark分析文件rent_analyse.py改变Spark读取csv文件的写法sparkContext=SparkContext("local","rent_analyse")sqlContext=SQLCon
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
大数据学习（五）：如何使用 Livy提交spark批量任务--转载 zuoseve01 livy
Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。./bin/livy-server这里假设spark使用yarn模式，所以所有文件路径都默认位于HDFS中。如果是本地开发模式的话，直接使用本地文件即可（注意必须配置livy.conf文件，设置livy.
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
大数据学习（四）：Livy的安装配置及pyspark的会话执行猪笨是念来过倒大数据 pyspark
一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、Python或是R代码片段到远端的Spark集群上执行；提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行；提交批处理应用在集群中运行。从Livy所提供的基本功能可以看到Livy涵盖了原生Spar
探索数据科学新边界：Apache Livy 开源项目详解毕艾琳
探索数据科学新边界：ApacheLivy开源项目详解incubator-livyApacheLivyisanopensourceRESTinterfaceforinteractingwithApacheSparkfromanywhere.项目地址:https://gitcode.com/gh_mirrors/in/incubator-livyApacheLivy是一个为ApacheSpark提供的
大数据公司 Databricks 详解 Bj陈默大数据
Databricks是一家在大数据和人工智能领域具有重要影响力的美国企业软件公司，以下是关于它的详细技术解析：1.起源与背景：Databricks成立于2013年，由来自加州大学伯克利分校AMP实验室的Spark大数据处理系统的多位创始人联合创立，包括AliGhodsi、AndyKonwinski、IonStoica、PatrickWendell、ReynoldXin、MateiZaharia、A
全面解读 Databricks：从架构、引擎到优化策略克里斯蒂亚诺罗纳尔多阿维罗架构 spark 大数据
导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。在Databricks平台上，数据工程、数据科学与数据分析团队能够协作使用Spark、DeltaLake、MLflow等工具高效处理数据与构建机器学习应用。本文将深入介绍Databricks的平台概念、架构特点、优化机制、功能特性
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（正在更新中~）别人能写出来的，你也能行！多学习别人的思路，形成自己的思路，高薪工作奔你而来！小白的大数据历程 Spark源码解析开发语言 spark 大数据分布式 scala
后一篇链接在这接上一章请先看解读序列化抽象类第一部分（这是一个链接）目录接上一章请先看解读序列化抽象类第一部分2.Java序列化实现类JavaSerializer(1)JavaSerializationStream类代码实际例子1：序列化(2)JavaDeserializationStream代码实际例子2：反序列化Spark源码下类图在学习过程中，抓住主要问题，请思考问题为什么Kryo序列化更加
Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（java序列化部分完结，正在更新RpcEnv部分~）小白的大数据历程 Spark源码解析 spark java python
目录(3)JavaSerializerInstance定义了一个Java序列化实例(1)构造方法参数(2)方法1：serializeStream(3)方法2：deserializeStreamdefaultClassLoader(4)方法3：deserializeStreamloader(5)方法4：serialize(6)方法5：deserializeloader(7)方法6：deseriali
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
pyspark 中删除hdfs的文件夹 TDengine （老段）大数据 spark hadoop hdfs mapreduce
在pyspark中保存rdd的内存到文件的时候，会遇到文件夹已经存在而失败，所以如果文件夹已经存在，需要先删除。搜索了下资料，发现pyspark并没有提供直接管理hdfs文件系统的功能。寻找到一个删除的方法，是通过调用shell命令hadoopfs-rm-f来删除，这个方法感觉不怎么好，所以继续找。后来通过查找hadoophdfs的源代码发现hdfs是通过java的包org.appache.had
Python 爬虫：获取网页数据的 5 种方法王子良. 经验分享 python python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
python捕获异常青云游子 python
try:name="aaa"id="aaa"exceptExceptionase:print("任务报错")print(str(e))print(str(traceback.print_exc()))spark.sql("""insertintotabledim.aaaselect'1','666','{name}','{id}',null,null,null,null,current_times
Spark任务提交流程尘世壹俗人大数据Spark技术大数据
当包含在applicationmaster中的spark-driver启动后，会与资源调度平台交互获取其他执行器资源，并通过反向注册通知对应的node节点启动执行容器。此外，还会根据程序的执行规划生成两个非常重要的东西，一个是根据spark任务执行计划生成n个ADG有向无环图，另一个是根据有向无环图生成对应的taskset，也可以统称为stage，ADG和taskset由于宽窄依赖以及程序的复杂度
spark读取、写入Clickhouse以及遇到的问题 Alex_81D 大数据基础大数据从入门到精通 clickhouse spark
最近需要处理Clickhouse里面的数据，经过上网查找总结一下spark读写Clickhouse的工具类已经遇到的问题点。具体Clickhouse的讲解本篇不做讲解，后面专门讲解这个。一、clickhouse代码操作话不多说直接看代码1.引入依赖：ru.yandex.clickhouseclickhouse-jdbc0.2.40.2.4这个版本用的比较多一点2.spark对象创建valspark
2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集 m0_60707708 程序员 python 设计模式开发语言
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
2024年总结：大转向年度总结
本文于2025年1月2号首发于公众号“狗哥琐话”。2024年是个打工人苦命年，我看到几乎每个人都比以往辛苦。这让我想起了六字真言，钱难赚屎难吃。职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL和FlinkSQL的IDEA提效插件。那么我为什
Java爬虫——使用Spark进行数据清晰 Future_yzx java 爬虫 spark
1.依赖引入 org.apache.spark spark-core_2.13 3.5.3 org.apache.spark spark-sql_2.13 3.5.32.数据加载从MySQL数据库中加载jobTest表中的数据，使用Spark的JDBC功能连接到数据库。代码片段：//数据库连接信息StringjdbcUrl="jdbc:mysql://82.157.185.251:3306/
万字详解数仓分层设计架构 ODS-DWD-DWS-ADS _Jordan 自己写的数据仓库
参考：万字详解数仓分层设计架构ODS-DWD-DWS-ADS数据分层的意义1、清晰数据结构2、数据血缘追踪3、数据复用，减少重复开发4、把复杂问题简单化5、屏蔽原始数据的(影响)，屏蔽业务的影响ETL操作1、数据抽取2、数据清洗3、数据转换4、数据加载数据中台包含的内容很多，对应到具体工作中的话，它可以包含下面的这些内容：系统架构：以Hadoop、Spark等组件为中心的架构体系数据架构：顶层设计
Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换一只蜗牛儿 java spark 开发语言
ApacheSpark是一个强大的分布式计算框架，提供了高效的数据处理能力，广泛应用于大数据分析与机器学习。Spark提供了多种高级API，支持批处理和流处理。Spark提供了两种主要的数据抽象：RDD（弹性分布式数据集）和DataFrame。本文将重点介绍如何使用Java开发Spark应用，并深入探讨RDD的操作与数据转换。一、Spark环境搭建首先，确保您的环境中安装了Java和Spark。您
Spring Boot 和微服务：快速入门指南王子良. Java 经验分享 spring boot 微服务后端
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
CDP中的Hive3之Hive Metastore（HMS）对许 #Hive #Spark hive cdp
CDP中的Hive3之HiveMetastore（HMS）1、CDP中的HMS2、HMS表的存储（转换）3、HWC授权1、CDP中的HMSCDP中的HiveMetastore（HMS）是一种服务，用于在后端RDBMS（例如MySQL或PostgreSQL）中存储与ApacheHive和其他服务相关的元数据。Impala、Spark、Hive和其他服务共享元存储。与HMS的连接包括HiveServe
【YashanDB知识库】Hive 命令工具insert崖山数据库报错数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919217.html?templateId=171...【问题分类】功能兼容【关键字】spark30041、不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，初始化所有的原数据表和数据新建表之后，插入数据时候报错，hadoopcode30041
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Apache PAIMON 学习潇锐killer 学习
参考：ApachePAIMON：实时数据湖技术框架及其实践数据湖不仅仅是一个存储不同类数据的技术手段，更是提高数据分析效率、支持数据驱动决策、加速AI发展的基础设施。新一代实时数据湖技术，ApachePAIMON兼容ApacheFlink、Spark等主流计算引擎，并支持流批一体化处理、快速查询和性能优化，成为加速AI转型的重要工具。ApachePAIMON是一个支持大规模实时数据更新的存储和分析
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

Spark源码系列（七）Spark on yarn具体实现

提交作业

ApplicationMaster

你可能感兴趣的:(spark)