xiaoxin_ysj

Spark Streaming — StreamingCongtext初始化及Receiver启动

StreamingContext初始化

StreamingContext在初始化的时候，会创建两个重要的组件DStreamGraph和JobScheduler，如下所示：

  // 这里初始化的一个重要的组件DStreamGraph,
  // 它里面保存了Spark Streaming Application中一系列的DStream的依赖关系,以及互相之间的算子的应用
  private[streaming] val graph: DStreamGraph = {
    if (isCheckpointPresent) {
      cp_.graph.setContext(this)
      cp_.graph.restoreCheckpointData()
      cp_.graph
    } else {
      require(batchDur_ != null, "Batch duration for StreamingContext cannot be null")
      val newGraph = new DStreamGraph()
      newGraph.setBatchDuration(batchDur_)
      newGraph
    }
  }
  // 初始化JobScheduler，涉及到Job的调度；JobGenerator生成的Job，就是通过它来调度和提交的
  // 其底层还是基于Spark Core Engine
  private[streaming] val scheduler = new JobScheduler(this)

在初始化StreamingContext之后，我们以WordCount程序为例，程序接着往下执行。在前面Spark Core中分析过，触发Job的运行是通过一个output操作（也即action），我们以简单的print() action操作为例，它里面调用了print(10)，也就是打印RDD中前10个数据，并且里面调用了foreachRDD函数，而这个函数里面调用了ForEachDStream的register()方法，而最终会调用generatorJob()方法，到这里会触发Job的提交。
然而上面仅仅只是触发Job的提交，这里并没有涉及到Job的产生以及Receiver数据的接收，而触发这些功能则是调用StreamingContext的start()方法，所以在Spark Streaming中，如果没有调用它的start()方法程序是不会执行的，当然没有action操作程序也不会执行，因为没有Job提交。
下面我们就着重分析start()方法：

StreamingContext的start()方法

  def start(): Unit = synchronized {
    state match {
      case INITIALIZED =>
        startSite.set(DStream.getCreationSite())
        // 加锁，保证一个节点上只有一个StreamingContext在运行
        StreamingContext.ACTIVATION_LOCK.synchronized {
          // 判断是否有多个StreamingContext在运行
          StreamingContext.assertNoOtherContextIsActive()
          try {
            // 检测初始化组件是否合法，以及是否设置了checkpoint等。
            validate()
            
            // 启用一个单独的线程启动Streaming Application
            ThreadUtils.runInNewThread("streaming-start") {
              sparkContext.setCallSite(startSite.get)
              sparkContext.clearJobGroup()
              sparkContext.setLocalProperty(SparkContext.SPARK_JOB_INTERRUPT_ON_CANCEL, "false")
              // 调用JobScheduler的start方法，来进行Receiver的启动
              scheduler.start()
            }
            // 更新当前状态
            state = StreamingContextState.ACTIVE
          } catch {
            case NonFatal(e) =>
              logError("Error starting the context, marking it as stopped", e)
              scheduler.stop(false)
              state = StreamingContextState.STOPPED
              throw e
          }
          StreamingContext.setActiveContext(this)
        }
        //  省略部分代码
        .............................
    }
  }

从上面代码中可以看出，具体调用了JobScheduler的start()方法，我们到这个方法里面看一下。

JobScheduler的start()方法

  // StreamingContext的start()方法，其实里面真正调用的是JobScheduler的start()方法
  def start(): Unit = synchronized {
    // 假如这个StreamingContext已经在启动，那么返回（可能是故障重启动等）
    if (eventLoop != null) return // scheduler has already been started

    logDebug("Starting JobScheduler")
    // 创建一个接收消息的消息队列
    eventLoop = new EventLoop[JobSchedulerEvent]("JobScheduler") {
      override protected def onReceive(event: JobSchedulerEvent): Unit = processEvent(event)

      override protected def onError(e: Throwable): Unit = reportError("Error in job scheduler", e)
    }
    // 启动消息接收（接收的是本地消息）
    eventLoop.start()

    // 获取输入DStream的限流率
    // 这个其实还挺重要的，在基于Kafka Direct方式接收数据的时候（或者普通Receiver），
    // 可以设置一个最大接收速度，也就是进行限速
    for {
      inputDStream <- ssc.graph.getInputStreams
      rateController <- inputDStream.rateController
    } ssc.addStreamingListener(rateController)

    listenerBus.start(ssc.sparkContext)
    // 创建ReceiverTracker组件，这是数据接收相关组件
    receiverTracker = new ReceiverTracker(ssc)
    // 记录输入DStream的数据信息，以便Streaming进行监控
    inputInfoTracker = new InputInfoTracker(ssc)
    // 启动receiverTracker，这里启动输入DStream关联的Receiver
    receiverTracker.start()
    // 创建JobScheduler的时候，直接就把JobGenerator给创建出来了，并在这里启动
    jobGenerator.start()
    logInfo("Started JobScheduler")
  }

我们重点分析一下上面的代码：首先创建一个消息接收器，用于接收本地消息。接着获取DStream的限流器，这里涉及到输入DStream的限流。
这里简单说说Receiver的限流，如果集群资源有限，并没有大到Receiver一接收到数据就立即处理它，这会导致Receiver端有数据积压，为了防止数据积压太多，因此有必要调整接收数据的速度，这里可以通过两个参数来设置：spark.streaming.receiver.maxRate 和 spark.streaming.kafka.maxRatePerPartition
前者是设置普通Receiver，后者是设置Kafka 的，然而从Spark 1.5之后，对于Kafka Direct方式而言引入了backpressure（背压）机制，从而不需要设置Receiver的限速，Spark可以自动估计Receiver最合理的接收速度，并根据情况动态调整。启动这个机制只需要设置 spark.streaming.backpressure.enabled为true即可。
接着分析上述代码，然后创建了两个重要组件ReceiverTracker和JobGenerator，并启动他们，我们先分析ReceiverTracker的start()方法。

ReceiverTracker的start()方法

由于ReceiverTracker的start方法中实际上调用的是launchReceivers()方法，我们就看这个方法：

  private def launchReceivers(): Unit = {
    // 获取所有的Receiver
    val receivers = receiverInputStreams.map(nis => {
      // 将程序中创建的所有输入DStream，调用其getReceiver方法，拿到一个Receiver集合
      val rcvr = nis.getReceiver()
      // 设置Receiver的ID
      rcvr.setReceiverId(nis.id)
      rcvr
    })
    runDummySparkJob()

    logInfo("Starting " + receivers.length + " receivers")
    // 向ReceiverTrackerEndpoint发送启动所有Receiver消息，
    // 其实就是在本地进行消息收发
    endpoint.send(StartAllReceivers(receivers))
  }

从上述代码可以看到，启动Receiver是通过发送一个本地消息StartAllReceiver来启动的，下面我们看一下这个源码：

 override def receive: PartialFunction[Any, Unit] = {
      // Local messages
      // 启动所有的Receivers
      case StartAllReceivers(receivers) =>

        // 计算Receiver的启动位置，说白了就是看Receiver在哪个executor启动
        val scheduledLocations = schedulingPolicy.scheduleReceivers(receivers, getExecutors)
        for (receiver <- receivers) {
          // 获取Receiver启动的所在节点的executor
          val executors = scheduledLocations(receiver.streamId)
          // 更新到ReceiverInfo中
          updateReceiverScheduledExecutors(receiver.streamId, executors)
          // 记录每个Receiver的启动位置
          receiverPreferredLocations(receiver.streamId) = receiver.preferredLocation
          // 启动Receiver，这里传入了Receiver要启动的executor位置
          startReceiver(receiver, executors)
        }
        // 省略代码
    }

这里主要就是startReceiver()这个函数来启动Receiver，注意传入的参数，一个是待启动的Receiver的集合，还有就是每个Receiver的启动位置（也即在哪个Worker的executor节点上启动）。
下面重点分析startReceiver方法：

ReceiverTracker的startReceiver()方法

private def startReceiver(
        receiver: Receiver[_],
        scheduledLocations: Seq[TaskLocation]): Unit = {
    // 检测Receiver是否已经启动或已经被关闭等
      val receiverId = receiver.streamId
      if (!shouldStartReceiver) {
        onReceiverJobFinish(receiverId)
        return
      }
      // 是否设置Checkpoint
      val checkpointDirOption = Option(ssc.checkpointDir)
      val serializableHadoopConf =
        new SerializableConfiguration(ssc.sparkContext.hadoopConfiguration)
      /**
        *   这里定义了Receiver的核心逻辑，
        *   注意：这里以及之后的操作都只是定义，不是在Driver端执行的
        *   这里只是定义了一个函数，这个函数的执行，以及往后的过程
        *   都是在executor上执行的。这里强调，Receiver的启动绝对不是在Driver上的，是在Executor上的
        */
        // 遍历每个Receiver，并进行启动
      val startReceiverFunc: Iterator[Receiver[_]] => Unit =
        (iterator: Iterator[Receiver[_]]) => {
          if (!iterator.hasNext) {
            throw new SparkException(
              "Could not start receiver as object not found.")
          }
          if (TaskContext.get().attemptNumber() == 0) {
            // 获取一个Receiver
            val receiver = iterator.next()
            assert(iterator.hasNext == false)
            // 将每个Receiver封装在ReceiverSupervisorImpl中，并调用其start方法启动
            val supervisor = new ReceiverSupervisorImpl(
              receiver, SparkEnv.get, serializableHadoopConf.value, checkpointDirOption)
            // 这里调用了它的父类ReceiverSupervisor的start方法
            supervisor.start()
            supervisor.awaitTermination()
          } else {
            // It's restarted by TaskScheduler, but we want to reschedule it again. So exit it.
          }
        }

      // 这里做了优化，receiver接收到的数据，所封装成的RDD，它的最佳位置在Receiver启动的那个节点上
      val receiverRDD: RDD[Receiver[_]] =
        if (scheduledLocations.isEmpty) {
          ssc.sc.makeRDD(Seq(receiver), 1)
        } else {
          val preferredLocations = scheduledLocations.map(_.toString).distinct
          ssc.sc.makeRDD(Seq(receiver -> preferredLocations))
        }
      receiverRDD.setName(s"Receiver $receiverId")
      ssc.sparkContext.setJobDescription(s"Streaming job running receiver $receiverId")
      ssc.sparkContext.setCallSite(Option(ssc.getStartSite()).getOrElse(Utils.getCallSite()))

      // 这里的submitJob会真正将Receiver的启动函数，分布到各个Worker节点的Executor上去执行
      val future = ssc.sparkContext.submitJob[Receiver[_], Unit, Unit](
        receiverRDD, startReceiverFunc, Seq(0), (_, _) => Unit, ())
      // We will keep restarting the receiver job until ReceiverTracker is stopped
      // 这里就是判断Job的运行结果状态
      future.onComplete {
        case Success(_) =>
          if (!shouldStartReceiver) {
            onReceiverJobFinish(receiverId)
          } else {
            logInfo(s"Restarting Receiver $receiverId")
            self.send(RestartReceiver(receiver))
          }
        case Failure(e) =>
          if (!shouldStartReceiver) {
            onReceiverJobFinish(receiverId)
          } else {
            logError("Receiver has been stopped. Try to restart it.", e)
            logInfo(s"Restarting Receiver $receiverId")
            self.send(RestartReceiver(receiver))
          }
      }(submitJobThreadPool)
      logInfo(s"Receiver ${receiver.streamId} started")
    }

上面代码中重要的部分就是对每个Receiver封装了一个startReceiverFunc，这个Receiver的启动函数，它里面具体的就是将每个Receiver封装进了ReceiverSupervisorImpl中，然后调用它的start()方法，启动Receiver；接着就是封装了receiverRDD；最重要的是将他们两通过SparkContext的submitJob进行Job的提交发送到各个Worker节点的executor上去执行。
上面需要注意的是，真正启动Receiver是在Worker节点的executor上，而不是Driver上，Driver只是将Receiver进行封装，然后发送到各个Executor上进行启动。
下面我们看看在每个Worker的executor上，Receiver是如何启动的，首先调用的是ReceiverSupervisorImpl的start()方法。

ReceiverSupervisorImpl的start()

ReceiverSupervisorImpl的start()方法在这个类中没有，因为在其父类中实现的，我们看其父类ReceiverSupervisor的start方法：

  def start() {
    // 调用ReceiverSupervisorImpl的onStart()方法
    onStart()
    startReceiver()
  }

start方法中只有两个方法，一个是onStart()，如下所示，用于启动JobGenerator（后面再进行分析）；还有一个就是startReceiver，用于启动Receiver。

override protected def onStart() {
    // 这里启动了一个BlockGenerator，非常重要，它允许在worker的executor端负责
    // 数据接收后的一些存取工作，以及配合ReceiverTracker。
    // 所以在Executor上，启动Receiver之前，就会先启动这个Receiver，相关的BlockGenerator
    // 这里启动已经注册的BlockGenerator
    registeredBlockGenerators.foreach { _.start() }
  }

在startReceiver中启动Receiver。

startReceiver启动Receiver

// 这里就会启动Receiver
  def startReceiver(): Unit = synchronized {
    try {
      // 先向ReceiverTracker发送启动Receiver的信息进行注册
      if (onReceiverStart()) {
        logInfo("Starting receiver")
        // 启动Receiver
        receiverState = Started
        // 这里就启动Receiver
        receiver.onStart()
        logInfo("Called receiver onStart")
      } else {
        // The driver refused us
        stop("Registered unsuccessfully because Driver refused to start receiver " + streamId, None)
      }
    } catch {
      case NonFatal(t) =>
        stop("Error starting receiver " + streamId, Some(t))
    }
  }

首先向ReceiverTracker发送启动Receiver的消息，进行注册。发送成功之后，就会进行Receiver的启动，调用了Receiver的onStart()方法，我们这里以socket receiver为例，来进行说明，其他的Receiver启动都大同小异。

// 启动Receiver
  def onStart() {
    // Start the thread that receives data over a connection
    new Thread("Socket Receiver") {
      setDaemon(true)
      override def run() { receive() }
    }.start()
  }
 
 // 这里主要就是建立一个socket连接，用于接收数据
def receive() {
    var socket: Socket = null
    try {
      logInfo("Connecting to " + host + ":" + port)
      socket = new Socket(host, port)
      logInfo("Connected to " + host + ":" + port)
      val iterator = bytesToObjects(socket.getInputStream())
      while(!isStopped && iterator.hasNext) {
        store(iterator.next)
      }
      if (!isStopped()) {
        restart("Socket data stream had no more data")
      } else {
        logInfo("Stopped receiving")
      }
    } catch {
      case e: java.net.ConnectException =>
        restart("Error connecting to " + host + ":" + port, e)
      case NonFatal(e) =>
        logWarning("Error receiving data", e)
        restart("Error receiving data", e)
    } finally {
      if (socket != null) {
        socket.close()
        logInfo("Closed socket to " + host + ":" + port)
      }
    }
  }

从上面可以很清楚的看到，在Worker节点的executor上启动的Socket Receiver，主要就是与数据源建立一个Socket连接，然后接受数据，并保存到它对应的BlockManager上，然后进行后面一系列的算子处理。
总结一下：上面主要分析了StreamingContext初始化的过程，以及它的start()方法；这里面主要作用是创建了四个重要的组件JobScheduler、DStreamGraph、ReceiverTracker和JobGenerator。其中着重分析了Receiver的启动过程，首先将Receiver封装进启动函数startReceiverFunc中，然后通过SparkContext的submitJob，将各个Receiver分发到Worker节点的executor上去启动，启动的时候主要调用的是ReceiverSupervosor的startReceiver()方法，首先给ReceiverTracker发送启动消息，然后调用receiver的onStart()方法启动Receiver的数据接收。我们以Socket Receiver为例，进行了简单分析。

React对于流式数据和非流式数据的处理和优化香蕉可乐荷包蛋 React react.js 前端前端框架
React在处理流式数据和非流式数据时，可以借助其组件模型、状态管理以及React18引入的并发特性来实现高效的数据处理与渲染优化。文章目录一、流式数据（StreamingData）1.定义2.常见来源3.处理方式使用`useState`/`useReducer`管理状态使用`useRef`存储引用（避免重复渲染）自定义Hook封装逻辑使用WebWorker处理复杂计算渲染优化建议二、非流式数据（
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
Spark 各种配置项 zhixingheyi_tian 大数据 spark Spark Conf spark jvm java
/bin/spark-shell--masteryarn--deploy-modeclient/bin/spark-shell--masteryarn--deploy-modeclusterTherearetwodeploymodesthatcanbeusedtolaunchSparkapplicationsonYARN.Inclustermode,theSparkdriverrunsinside
Spark RDD 及性能调优 Aurora_NeAr spark wpf c#
RDDProgrammingRDD核心架构与特性分区（Partitions）：数据被切分为多个分区；每个分区在集群节点上独立处理；分区是并行计算的基本单位。计算函数（ComputeFunction）：每个分区应用相同的转换函数；惰性执行机制。依赖关系（Dependencies）窄依赖：1个父分区→1个子分区（map、filter）。宽依赖：1个父分区→多个子分区（groupByKey、join）。
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
【Unity&AssetBundle】同步加载大飞pkz Unity C#unity 游戏引擎 C#AssetBundle AssetBundle同步加载 AB包
加载包的方式包括：LoadFromFile（从文件）、LoadFromMemory（从内存）、LoadFromStream（从流）【异步同理】1.同步加载第一步.从Asset下的只读文件夹下获取AB包，下面是加载包路径为“Asset/StreamingAssets”，“cube”为包名AssetBundleab=AssetBundle.LoadFromFile(Application.stream
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
Flink将数据流写入Kafka,Redis,ES,Mysql 浅唱战无双 flink mysql es redis kafka
Flink写入不同的数据源写入到Mysql写入到ES向Redis写入向kafka写入导入公共依赖org.slf4jslf4j-simple1.7.25compileorg.apache.flinkflink-java1.10.1org.apache.flinkflink-streaming-java_2.121.10.1写入到Mysql导入依赖mysqlmysql-connector-java5.
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
Spark 4.0的VariantType 类型以及内部存储鸿乃江边鸟大数据 SQL spark spark sql 大数据
背景本文基于Spark4.0总结Spark中的VariantType类型，用尽量少的字节来存储Json的格式化数据分析这里主要介绍Variant的存储，我们从VariantBuilder.buildJson方法(把对应的json数据存储为VariantType类型)开始：publicstaticVariantparseJson(JsonParserparser,booleanallowDuplic
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
Spark从入门到熟悉（篇二）
本文介绍Spark的RDD编程，并进行实战演练，加强对编程的理解，实现快速入手知识脉络包含如下8部分内容：创建RDD常用Action操作常用Transformation操作针对PairRDD的常用操作缓存操作共享变量分区操作编程实战创建RDD实现方式有如下两种方式实现：textFile加载本地或者集群文件系统中的数据用parallelize方法将Driver中的数据结构并行化成RDD示例"""te
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽导语：在当今数据驱动的时代，ApacheKafka已经成为企业级数据架构的核心组件。本文将深入探讨Kafka与主流技术栈的整合方案，帮助架构师和开发者构建高效、可扩展的现代化数据处理平台。文章目录Kafka生态整合深度解析：构建现代化数据架构的核心枢纽一、Kafka与流处理引擎的深度集成1.1Kafka+ApacheSpark：批流一体化处理
主流视频流格式及 Vue3 实现方案玛卡巴卡半夜不睡觉 html5 前端 vue.js
1.HLS(HTTPLiveStreaming)技术原理：基于HTTP的流媒体协议，使用.m3u8索引文件+.ts分片文件。特点：高兼容性（尤其iOS）、10+秒延迟、支持自适应码率。Vue3实现（video.js）：npminstallvideo.jsvideojs-contrib-hlsimport{ref,onMounted,onUnmounted}from'vue';importvideo
Spark on Docker：容器化大数据开发环境搭建指南 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 spark docker ai
SparkonDocker：容器化大数据开发环境搭建指南关键词：Spark、Docker、容器化、大数据开发、分布式计算、开发环境搭建、容器编排摘要：本文系统讲解如何通过Docker实现Spark开发环境的容器化部署，涵盖从基础概念到实战部署的完整流程。首先分析Spark分布式计算框架与Docker容器技术的核心原理及融合优势，接着详细演示单节点开发环境和多节点集群环境的搭建步骤，包括Docker
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
Spark从入门到熟悉（篇三）小新学习屋数据分析 spark 大数据分布式
本文介绍Spark的DataFrame、SparkSQL，并进行SparkSQL实战，加强对编程的理解，实现快速入手知识脉络包含如下7部分内容：RDD和DataFrame、SparkSQL的对比创建DataFrameDataFrame保存成文件DataFrame的API交互DataFrame的SQL交互SparkSQL实战参考资料RDD和DataFrame、SparkSQL的对比RDD对比Data
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
脑机新手指南（十二）：BciPy 脑机接口工具入门（下篇）：核心功能与实践应用 Brduino脑机接口技术答疑脑机新手指南人工智能算法机器学习
一、BciPy核心模块深度解析（一）信号采集与处理模块（acquisition&signal）1.信号采集流程BciPy通过LabStreamingLayer（LSL）协议实现多设备同步采集：frombcipy.acquisitionimportLslStreamer # 初始化LSL流采集器 streamer=LslStreamer() streamer.connect() # 连接到EEG设
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
前端流式输出3种实现呼叫6945 前端 javascript
在前端开发中，流式输出（streamingoutput）通常是指逐步输出数据，而不是等待所有数据准备好后一次性显示。这种技术在处理大型数据集、实时数据或需要逐步加载内容的情况下非常有用。下面介绍几种实现流式输出的方法，包括使用FetchAPI和EventSource。1.使用FetchAPI实现流式输出通过FetchAPI和可读流（ReadableStreams），可以在响应到达时逐步读取和处理数
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
spark数据处理练习题番外篇【上】
一.单选题（共23题，100分）1.(单选题)maven依赖应该加在哪个文件中？A.pom.xmlB.log4j.propertiesC.src/main/scala.resourceD.src/test/scala.resource正确答案:A:pom.xml;Maven依赖应该添加在pom.xml文件中，这是Maven项目的核心配置文件。解释：pom.xml(ProjectObjectMode
Kitex v0.14.0 版本发布：支持流式泛化调用，优化排错体验后端
重要变更介绍新特性1.泛化调用：泛化Client支持流式调用，一个Client搞定流式/非流式调用场景泛化Client支持流式泛化调用，适配gRPC/TTHeaderStreaming并支持map/json和protobuf二进制泛化调用。简要代码示例如下：cli,err:=genericclient.NewClient("actualServiceName",g)//Ping-Pong泛化res
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置