Spark源码系列（八）Spark Streaming实例分析

这一章要讲Spark Streaming，讲之前首先回顾下它的用法，具体用法请参照《Spark Streaming编程指南》。

Example代码分析

val ssc = new StreamingContext(sparkConf, Seconds(1));

// 获得一个DStream负责连接 监听端口:地址

val lines = ssc.socketTextStream(serverIP, serverPort);

// 对每一行数据执行Split操作

val words = lines.flatMap(_.split(" "));

// 统计word的数量

val pairs = words.map(word => (word, 1));

val wordCounts = pairs.reduceByKey(_ + _);

// 输出结果

wordCounts.print();

ssc.start();             // 开始

ssc.awaitTermination();  // 计算完毕退出

1、首先实例化一个StreamingContext

2、调用StreamingContext的socketTextStream

3、对获得的DStream进行处理

4、调用StreamingContext是start方法，然后等待

我们看StreamingContext的socketTextStream方法吧。

  def socketTextStream(

      hostname: String,

      port: Int,

      storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_SER_2     ): ReceiverInputDStream[String] = {

    socketStream[String](hostname, port, SocketReceiver.bytesToLines, storageLevel)

  }

1、StoageLevel是StorageLevel.MEMORY_AND_DISK_SER_2

2、使用SocketReceiver的bytesToLines把输入流转换成可遍历的数据

继续看socketStream方法，它直接new了一个

new SocketInputDStream[T](this, hostname, port, converter, storageLevel)

继续深入挖掘SocketInputDStream，追述一下它的继承关系，SocketInputDStream>>ReceiverInputDStream>>InputDStream>>DStream。

具体实现ReceiverInputDStream的类有好几个，基本上都是从网络端来数据的。

它实现了ReceiverInputDStream的getReceiver方法，实例化了一个SocketReceiver来接收数据。

SocketReceiver的onStart方法里面调用了receive方法，处理代码如下：

      socket = new Socket(host, port)

      val iterator = bytesToObjects(socket.getInputStream())

      while(!isStopped && iterator.hasNext) {

        store(iterator.next)

      }

1、new了一个Socket来接收数据，用bytesToLines方法把InputStream转换成一行一行的字符串。

2、把每一行数据用store方法保存起来，store方法是从SocketReceiver的父类Receiver继承而来，内部实现是:

  def store(dataItem: T) {

    executor.pushSingle(dataItem)

  }

executor是ReceiverSupervisor类型，Receiver的操作都是由它来处理。这里先不深纠，后面我们再说这个pushSingle的实现。

到这里我们知道lines的类型是SocketInputDStream，然后对它是一顿的转换，flatMap、map、reduceByKey、print，这些方法都不是RDD的那种方法，而是DStream独有的。

讲到上面这几个方法，我们开始转入DStream了，flatMap、map、reduceByKey、print方法都涉及到DStream的转换，这和RDD的转换是类似的。我们讲一下reduceByKey和print。

reduceByKey方法和RDD一样，调用的combineByKey方法实现的，不一样的是它直接new了一个ShuffledDStream了，我们接着看一下它的实现吧。

override def compute(validTime: Time): Option[RDD[(K,C)]] = {

    parent.getOrCompute(validTime) match {

      case Some(rdd) => Some(rdd.combineByKey[C](createCombiner, mergeValue, mergeCombiner, partitioner, mapSideCombine))

      case None => None

    }

  }

在compute阶段，对通过Time获得的rdd进行reduceByKey操作。接下来的print方法也是一个转换：

new ForEachDStream(this, context.sparkContext.clean(foreachFunc)).register()

打印前十个，超过10个打印"..."。需要注意register方法。

ssc.graph.addOutputStream(this)

它会把代码插入到当前的DStream添加到outputStreams里面，后面输出的时候如果没有outputStream就不会有输出，这个需要记住哦！

启动过程分析

前戏结束之后，ssc.start() 高潮开始了。 start方法很小，最核心的一句是JobScheduler的start方法。我们得转到JobScheduler方法上面去。

下面是start方法的代码：

  def start(): Unit = synchronized {
　　// 接受到JobSchedulerEvent就处理事件

    eventActor = ssc.env.actorSystem.actorOf(Props(new Actor {

      def receive = {

        case event: JobSchedulerEvent => processEvent(event)

      }

    }), "JobScheduler")



    listenerBus.start()

    receiverTracker = new ReceiverTracker(ssc)

    receiverTracker.start()

    jobGenerator.start()

  }

1、启动了一个Actor来处理JobScheduler的JobStarted、JobCompleted、ErrorReported事件。

2、启动StreamingListenerBus作为监听器。

3、启动ReceiverTracker。

4、启动JobGenerator。

我们接下来看看ReceiverTracker的start方法。

  def start() = synchronized {if (!receiverInputStreams.isEmpty) {

      actor = ssc.env.actorSystem.actorOf(Props(new ReceiverTrackerActor), "ReceiverTracker")

      receiverExecutor.start()

    }

  }

1、首先判断了一下receiverInputStreams不能为空，那receiverInputStreams是怎么时候写入值的呢？答案在SocketInputDStream的父类InputDStream当中，当实例化InputDStream的时候会在DStreamGraph里面添加InputStream。

abstract class InputDStream[T: ClassTag] (@transient ssc_ : StreamingContext) extends DStream[T](ssc_) {

  ssc.graph.addInputStream(this)

  //....

}

2、实例化ReceiverTrackerActor，它负责RegisterReceiver（注册Receiver）、AddBlock、ReportError(报告错误)、DeregisterReceiver（注销Receiver）等事件的处理。

3、启动receiverExecutor（实际类是ReceiverLauncher，这名字起得。。），它主要负责启动Receiver，start方法里面调用了startReceivers方法吧。

    private def startReceivers() {

　　   // 对应着上面的那个例子，getReceiver方法获得是SocketReceiver

      val receivers = receiverInputStreams.map(nis => {

        val rcvr = nis.getReceiver()

        rcvr.setReceiverId(nis.id)

        rcvr

      })



      // 查看是否所有的receivers都有优先选择机器，这个需要重写Receiver的preferredLocation方法，目前只有FlumeReceiver重写了

      val hasLocationPreferences = receivers.map(_.preferredLocation.isDefined).reduce(_ && _)



      // 创建一个并行receiver集合的RDD, 把它们分散到各个worker节点上

      val tempRDD =

        if (hasLocationPreferences) {

          val receiversWithPreferences = receivers.map(r => (r, Seq(r.preferredLocation.get)))

          ssc.sc.makeRDD[Receiver[_]](receiversWithPreferences)

        } else {

          ssc.sc.makeRDD(receivers, receivers.size)

        }



      // 在worker节点上启动Receiver的方法，遍历所有Receiver，然后启动

      val startReceiver = (iterator: Iterator[Receiver[_]]) => {

        if (!iterator.hasNext) {

          throw new SparkException("Could not start receiver as object not found.")

        }

        val receiver = iterator.next()

        val executor = new ReceiverSupervisorImpl(receiver, SparkEnv.get)

        executor.start()

        executor.awaitTermination()

      }

      // 运行这个重复的作业来确保所有的slave都已经注册了，避免所有的receivers都到一个节点上

      if (!ssc.sparkContext.isLocal) {

        ssc.sparkContext.makeRDD(1 to 50, 50).map(x => (x, 1)).reduceByKey(_ + _, 20).collect()

      }



      // 把receivers分发出去，启动

      ssc.sparkContext.runJob(tempRDD, startReceiver)

    }

View Code

1、遍历receiverInputStreams获取所有的Receiver。

2、查看这些Receiver是否全都有优先选择机器。

3、把SparkContext的makeRDD方法把所有Receiver包装到ParallelCollectionRDD里面，并行度是Receiver的数量。

4、发个小任务给确保所有的slave节点都已经注册了（这个小任务有点儿莫名其妙，感觉怪怪的）。

5、提交作业，启动所有Receiver。

Spark写得实在是太巧妙了，居然可以把Receiver包装在RDD里面，当做是数据来处理！

启动Receiver的时候，new了一个ReceiverSupervisorImpl，然后调的start方法，主要干了这么三件事情，代码就不贴了。

1、启动BlockGenerator。

2、调用Receiver的OnStart方法，开始接受数据，并把数据写入到ReceiverSupervisor。

3、调用onReceiverStart方法，发送RegisterReceiver消息给driver报告自己启动了。

保存接收到的数据

ok，到了这里，重点落到了BlockGenerator。前面说到SocketReceiver把接受到的数据调用ReceiverSupervisor的pushSingle方法保存。

  // 这是ReceiverSupervisorImpl的方法
  def pushSingle(data: Any) {

    blockGenerator += (data)

  }

  // 这是BlockGenerator的方法

   def += (data: Any): Unit = synchronized {

    currentBuffer += data

  }

我们看一下它的start方法吧。

  def start() {

    blockIntervalTimer.start()

    blockPushingThread.start()

  }

View Code

它启动了一个定时器RecurringTimer和一个线程执行keepPushingBlocks方法。

先看RecurringTimer的实现：

      while (!stopped) {

        clock.waitTillTime(nextTime)

        callback(nextTime)

        prevTime = nextTime

        nextTime += period

      }

每隔一段时间就执行callback函数，callback函数是new的时候传进来的，是BlockGenerator的updateCurrentBuffer方法。

  private def updateCurrentBuffer(time: Long): Unit = synchronized {

    try {

      val newBlockBuffer = currentBuffer

      currentBuffer = new ArrayBuffer[Any]

      if (newBlockBuffer.size > 0) {

        val blockId = StreamBlockId(receiverId, time - blockInterval)

        val newBlock = new Block(blockId, newBlockBuffer)

        blocksForPushing.put(newBlock) 
      }

    } catch {case t: Throwable =>

        reportError("Error in block updating thread", t)

    }

  }

它new了一个Block出来，然后添加到blocksForPushing这个ArrayBlockingQueue队列当中。

提到这里，有两个参数需要大家注意的：

spark.streaming.blockInterval   默认值是200

spark.streaming.blockQueueSize  默认值是10

这是前面提到的间隔时间和队列的长度，间隔时间默认是200毫秒，队列是最多能容纳10个Block，多了就要阻塞了。

我们接下来看一下BlockGenerator另外启动的那个线程执行的keepPushingBlocks方法到底在干什么？

  private def keepPushingBlocks() {
　　　 while(!stopped) {

        Option(blocksForPushing.poll(100, TimeUnit.MILLISECONDS)) match {

          case Some(block) => pushBlock(block)

          case None =>

        }

      }
　　　// ...退出之前把剩下的也输出去了  }

它在把blocksForPushing中的block不停的拿出来，调用pushBlock方法，这个方法属于在实例化BlockGenerator的时候，从ReceiverSupervisorImpl传进来的BlockGeneratorListener的。

  private val blockGenerator = new BlockGenerator(new BlockGeneratorListener {

    def onError(message: String, throwable: Throwable) {

      reportError(message, throwable)

    }



    def onPushBlock(blockId: StreamBlockId, arrayBuffer: ArrayBuffer[_]) {

      pushArrayBuffer(arrayBuffer, None, Some(blockId))

    }

  }, streamId, env.conf)

1、reportError，通过actor向driver发送错误报告消息ReportError。

2、调用pushArrayBuffer保存数据。

下面是pushArrayBuffer方法：

  def pushArrayBuffer(arrayBuffer: ArrayBuffer[_], optionalMetadata: Option[Any], optionalBlockId: Option[StreamBlockId]

    ) {

    val blockId = optionalBlockId.getOrElse(nextBlockId)

    val time = System.currentTimeMillis

    blockManager.put(blockId, arrayBuffer.asInstanceOf[ArrayBuffer[Any]], storageLevel, tellMaster = true)

    reportPushedBlock(blockId, arrayBuffer.size, optionalMetadata)

  }

1、把Block保存到BlockManager当中，序列化方式为之前提到的StorageLevel.MEMORY_AND_DISK_SER_2（内存不够就写入到硬盘，并且在2个节点上保存的方式）。

2、调用reportPushedBlock给driver发送AddBlock消息，报告新添加的Block，ReceiverTracker收到消息之后更新内部的receivedBlockInfo映射关系。

处理接收到的数据

前面只讲了数据的接收和保存，那数据是怎么处理的呢？

之前一直讲ReceiverTracker，而忽略了之前的JobScheduler的start方法里面最后启动的JobGenerator。

  def start(): Unit = synchronized {

    eventActor = ssc.env.actorSystem.actorOf(Props(new Actor {

      def receive = {

        case event: JobGeneratorEvent =>  processEvent(event)

      }

    }), "JobGenerator")

    if (ssc.isCheckpointPresent) {

      restart()

    } else {

      startFirstTime()

    }

  }

1、启动一个actor处理JobGeneratorEvent事件。

2、如果是已经有CheckPoint了，就接着上次的记录进行处理，否则就是第一次启动。

我们先看startFirstTime吧，CheckPoint以后再说吧，有点儿小复杂。

  private def startFirstTime() {

    val startTime = new Time(timer.getStartTime())

    graph.start(startTime - graph.batchDuration)

    timer.start(startTime.milliseconds)

  }

1、timer.getStartTime计算出来下一个周期的到期时间，计算公式：(math.floor(clock.currentTime.toDouble / period) + 1).toLong * period，以当前的时间/除以间隔时间，再用math.floor求出它的上一个整数（即上一个周期的到期时间点），加上1，再乘以周期就等于下一个周期的到期时间。

2、启动DStreamGraph，启动时间=startTime - graph.batchDuration。

3、启动Timer，我们看看它的定义：

  private val timer = new RecurringTimer(clock, ssc.graph.batchDuration.milliseconds,

    longTime => eventActor ! GenerateJobs(new Time(longTime)), "JobGenerator")

到这里就清楚了，DStreamGraph的间隔时间就是timer的间隔时间，启动时间要设置成比Timer早一个时间间隔，原因再慢慢探究。

可以看出来每隔一段时间，Timer给eventActor发送GenerateJobs消息，我们直接去看它的处理方法generateJobs吧，中间忽略了一步，大家自己看。

  private def processEvent(event: JobGeneratorEvent) {

    event match {

      case GenerateJobs(time) => generateJobs(time)

      case ClearMetadata(time) => clearMetadata(time)

      case DoCheckpoint(time) => doCheckpoint(time)

      case ClearCheckpointData(time) => clearCheckpointData(time)

    }

  }

View Code

下面是generateJobs方法。

  private def generateJobs(time: Time) {

    SparkEnv.set(ssc.env)

    Try(graph.generateJobs(time)) match {

      case Success(jobs) =>

        val receivedBlockInfo = graph.getReceiverInputStreams.map { stream =>

          val streamId = stream.id

          val receivedBlockInfo = stream.getReceivedBlockInfo(time)

          (streamId, receivedBlockInfo)

        }.toMap

        jobScheduler.submitJobSet(JobSet(time, jobs, receivedBlockInfo))

      case Failure(e) =>

        jobScheduler.reportError("Error generating jobs for time " + time, e)

    }

    eventActor ! DoCheckpoint(time)

  }

1、DStreamGraph生成jobs。

2、从stream那里获取接收到的Block信息。

3、调用submitJobSet方法提交作业。

4、提交完作业之后，做一个CheckPoint。

先看DStreamGraph是怎么生成的jobs。

  def generateJobs(time: Time): Seq[Job] = {

    val jobs = this.synchronized {

      outputStreams.flatMap(outputStream => outputStream.generateJob(time))

    }

    jobs

  }

outputStreams在这个例子里面是print这个方法里面添加的，这个在前面说了，我们继续看DStream的generateJob。

  private[streaming] def generateJob(time: Time): Option[Job] = {

    getOrCompute(time) match {

      case Some(rdd) => {

        val jobFunc = () => {

          val emptyFunc = { (iterator: Iterator[T]) => {} }

          context.sparkContext.runJob(rdd, emptyFunc)

        }

        Some(new Job(time, jobFunc))

      }

      case None => None

    }

  }

View Code

1、调用getOrCompute方法获得RDD

2、new了一个方法去提交这个作业，缺什么都不做

为什么呢？这是直接跳转的错误，呵呵，因为这个outputStream是print方法返回的，它应该是ForEachDStream，所以我们应该看的是它里面的generateJob方法。

  override def generateJob(time: Time): Option[Job] = {

    parent.getOrCompute(time) match {

      case Some(rdd) =>

        val jobFunc = () => {

          foreachFunc(rdd, time)

        }

        Some(new Job(time, jobFunc))

      case None => None

    }

  }

View Code

这里请大家千万要注意，不要在这块被卡住了。

我们看看它这个RDD是怎么出来的吧。

  private[streaming] def getOrCompute(time: Time): Option[RDD[T]] = {

    // If this DStream was not initialized (i.e., zeroTime not set), then do it

    // If RDD was already generated, then retrieve it from HashMap

    generatedRDDs.get(time) match {



      // 这个RDD已经被生成过了，直接用就是了

      case Some(oldRDD) => Some(oldRDD)



      // 还没生成过，就调用compte函数生成一个

      case None => {

        if (isTimeValid(time)) {

          compute(time) match {

            case Some(newRDD) =>

　　　　　　　　 // 设置保存的级别

              if (storageLevel != StorageLevel.NONE) {

                newRDD.persist(storageLevel)

              }

　　　　　　　　 // 如果现在需要，就做CheckPoint

              if (checkpointDuration != null && (time - zeroTime).isMultipleOf(checkpointDuration)) {

                newRDD.checkpoint()

              }

　　　　　　　　 // 添加到generatedRDDs里面去，可以再次利用

              generatedRDDs.put(time, newRDD)

              Some(newRDD)

            case None =>

              None

          }

        } else {

          None

        }

      }

    }

  }

View Code

从上面的方法可以看出来它是通过每个DStream自己实现的compute函数得出来的RDD。我们找到SocketInputDStream，没有compute函数，在父类ReceiverInputDStream里面找到了。

  override def compute(validTime: Time): Option[RDD[T]] = {

    // 如果出现了时间比startTime早的话，就返回一个空的RDD，因为这个很可能是master挂了之后的错误恢复
    if (validTime >= graph.startTime) {

      val blockInfo = ssc.scheduler.receiverTracker.getReceivedBlockInfo(id)

      receivedBlockInfo(validTime) = blockInfo

      val blockIds = blockInfo.map(_.blockId.asInstanceOf[BlockId])

      Some(new BlockRDD[T](ssc.sc, blockIds))

    } else {

      Some(new BlockRDD[T](ssc.sc, Array[BlockId]()))

    }

  }

通过DStream的id把receiverTracker当中把接收到的block信息全部拿出来，记录到ReceiverInputDStream自身的receivedBlockInfo这个HashMap里面，就把RDD返回了，RDD里面实际包含的是Block的id的集合。

现在我们就可以回到之前JobGenerator的generateJobs方法，我们就清楚它这句是提交的什么了。

jobScheduler.submitJobSet(JobSet(time, jobs, receivedBlockInfo))

JobSet是记录Job的完成情况的，直接看submitJobSet方法吧。

  def submitJobSet(jobSet: JobSet) {

    if (jobSet.jobs.isEmpty) {

    } else {

      jobSets.put(jobSet.time, jobSet)

      jobSet.jobs.foreach(job => jobExecutor.execute(new JobHandler(job)))

    }

  }

View Code

遍历jobSet里面的所有jobs，通过jobExecutor这个线程池提交。我们看一下JobHandler就知道了。

  private class JobHandler(job: Job) extends Runnable {

    def run() {

      eventActor ! JobStarted(job)

      job.run()

      eventActor ! JobCompleted(job)

    }

  }

1、通知eventActor处理JobStarted事件。

2、运行job。

3、通知eventActor处理JobCompleted事件。

这里的重点是job.run，事件处理只是更新相关的job信息。

  def run() {

    result = Try(func())

  }

在遍历BlockRDD的时候，在compute函数获取该Block（详细请看BlockRDD），然后对这个RDD的结果进行打印。

到这里就算结束了，最后来个总结吧，图例在下一章补上，这一章只是过程分析:

1、可以有多个输入，我们可以通过StreamingContext定义多个输入，比如我们监听多个（host，ip），可以给它们定义各自的处理逻辑和输出，输出方式不仅限于print方法，还可以有别的方法，saveAsTextFiles和saveAsObjectFiles。这块的设计是支持共享StreamingContext的。

2、StreamingContext启动了JobScheduler，JobScheduler启动ReceiverTracker和JobGenerator。

3、ReceiverTracker是通过把Receiver包装成RDD的方式，发送到Executor端运行起来的，Receiver起来之后向ReceiverTracker发送RegisterReceiver消息。

3、Receiver把接收到的数据，通过ReceiverSupervisor保存。

4、ReceiverSupervisorImpl把数据写入到BlockGenerator的一个ArrayBuffer当中。

5、BlockGenerator内部每个一段时间（默认是200毫秒）就把这个ArrayBuffer构造成Block添加到blocksForPushing当中。

6、BlockGenerator的另外一条线程则不断的把加入到blocksForPushing当中的Block写入到BlockManager当中，并向ReceiverTracker发送AddBlock消息。

7、JobGenerator内部有个定时器，定期生成Job，通过DStream的id，把ReceiverTracker接收到的Block信息从BlockManager上抓取下来进行处理，这个间隔时间是我们在实例化StreamingContext的时候传进去的那个时间，在这个例子里面是Seconds(1)。

岑玉海

转载请注明出处，谢谢！

你可能感兴趣的:(Stream)

c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
metaRTC5.0 API编程指南(一) metaRTC metaRTC c++c语言 webrtc
概述metaRTC5.0版本API进行了重构，本篇文章将介绍webrtc传输调用流程和例子。metaRTC5.0版本提供了C++和纯C两种接口。纯C接口YangPeerConnection头文件:include/yangrtc/YangPeerConnection.htypedefstruct{void*conn;YangAVInfo*avinfo;YangStreamConfigstreamco
Shell脚本中sed使用 jcrhl321 linux
目录一、sed编辑器1、sed概述2、sed的工作流程3、sed命令的常见格式4、sed命令常用操作二、sed常用命令使用1、sed打印2、sed删除3、sed替换4、sed插入与增加4、sed剪切粘贴与复制粘贴一、sed编辑器sed（StreamEDitor）是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑（删除、替换、添加、移动等），最后输出所有行或者仅输出
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
Linux使用mjpg-streamer进行图像传输 —你的鼬先生 Linux驱动 linux 树莓派图像传输
图像传输是一项在Linux操作系统中比较常见的一个操作，在视频图传时，一般是采用MJPG-streamer来进行图像传输，本文就以树莓派为例子，来示范一个图像传输。1.树莓派的摄像头激活首先更新树莓派sudoapt-getupdatesudoapt-getupgrade随后打开树莓派的配置界面，选择InterfaceOptionsudoraspi-config在InterfaceOption选择C
C#文件被占用的解决方案花北城 C#项目文件占用
问题打更新包时，提示文件被占用。System.IO.IOException:文件“D:\RS\RS_CCVI20111210.exe”正由另一进程使用，因此该进程无法访问该文件。在System.IO.__Error.WinIOError(Int32errorCode,StringmaybeFullPath)在System.IO.FileStream.Init(Stringpath,FileMode
FPGA器件在线配置方法概述 fpga和matlab FPGA 其他 fpga开发 FPGA 在线配置
目录1.配置电路结构和原理2.ICR控制电路软件3.几种常见的FPGA在线配置方法3.1动态部分重配置（PartialReconfiguration,PR）3.2在系统编程（In-SystemProgramming,ISP）3.3多比特流配置（Multi-BitstreamConfiguration）3.4远程更新与配置3.5使用OpenCL或HLS工具FPGA（Field-Programmabl
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
函数可以返回数组吗？有哪3种返回方法呢？如代码种的func2、func3、func4都可以返回数组。func1为什么会报错呢？关于返回数组需要注意哪些呢？神笔馬良 java 算法数据结构
问题描述：根据下列代码回答下列问题。//Createdby黑马程序员.#include"iostream"usingnamespacestd;/**函数返回数组，就是返回指针，要注意：*-不可返回局部数组（在函数内创建的数组），如果要返回需要*-static修饰*-动态内存创建（new[]、delete[]）*-返回全局（在函数外创建的对象）**不推荐函数返回数组，因为要么手动delete、要么s
Java中将 File对象转MultipartFile对象 File ＞＞＞ MultipartFile 奔腾的隔壁老王 java spring 开发语言
Java中将File类型的对象转换为MultipartFile类型的对象所需要的包：importjava.io.FileInputStream;importorg.springframework.web.multipart.MultipartFile;实现代码：//传入一个File对象，获得一个转换后的MultipartFile对象publicMultipartFilegetMultipartFi
Java url转MultipartFile inputStream转File file转multipartFile Abel_JiaWei java
Javaurl转MultipartFileinputStream转Filefile转multipartFile/***url转MultipartFile*@paramurl*@return*@throwsException*/publicstaticMultipartFileurlToMultipartFile(Stringurl)throwsException{Filefile=null;Mul
Stream 流根据对象属性去重 abments jdk1.8新特性 python pandas 数据分析
目录前言一、实现原理二、实现过程三、filter过滤器的原理总结前言这篇文章介绍一种通过stream流对集合中的对象根据key值去重的简便方法。一、实现原理通过Stream流中的filter方法实现对数据的去重，具体操作是构造一个Predict对象，在Predict中通过检查数据是否存在返回断言中的布尔值。二、实现过程代码如下：publicstaticPredicatedistinctPredic
Dev-C++头文件小Bug 蒟蒻pzjdsg666 bug c语言 c++
Dev-C++应该是大家最常用的C++软件了吧，但它有几个小Bug。1、“万能头”众所周知，“万能头”在官方比赛中不能使用（你要用没人拦着你~呵呵），但在Dev-C++可以使用。所以，我们可以省掉好多头文件！如下：#includeusingnamespacestd;2、C语言头文件在Dev-C++中，你竟然可以使用C语言头文件（惊不惊喜~意不意外~）如下：#include3、iostream竟然包
SharedPreferences hdychi
一、简介在Android中，主要有以下几种存储方式：1、SharedPreferences，在键值对中存储私有原始数据。2、内部存储，在设备内存中存储私有数据。官方示例：StringFILENAME="hello_file";Stringstring="helloworld!";FileOutputStreamfos=openFileOutput(FILENAME,Context.MODE_PRI
PostgreSQL进阶教程爱分享的码瑞哥 postgresql
PostgreSQL进阶教程目录事务和并发控制事务事务隔离级别锁高级查询联合查询窗口函数子查询CTE（公用表表达式）数据类型自定义数据类型数组JSON高级索引部分索引表达式索引GIN和GiST索引性能调优查询优化配置优化备份与恢复物理备份逻辑备份扩展与插件PostGISpg_cron集群与高可用StreamingReplicationPatroni事务和并发控制事务事务是一个或多个SQL语句的组合
ExoPlayer简单使用 csdn_zxw 安卓视频播放 android
ExoPlayerLibrary概述ExoPlayer是运行在YouTubeappAndroid版本上的视频播放器ExoPlayer是构建在Android低水平媒体API之上的一个应用层媒体播放器。和Android内置的媒体播放器相比，ExoPlayer有许多优点。ExoPlayer支持内置的媒体播放器支持的所有格式外加自适应格式DASH和SmoothStreaming。ExoPlayer可以被高
使用poi替换XWPFTableCell内容，并设置行间距 RR369_yyh javaUtil java poi
使用poi读取word文档（docx类型），进行数据替换。另外，为了记录poi设置行间距的api，真是找了好几十分钟才找到啊啊啊啊！！！importorg.apache.poi.xwpf.usermodel.*;importorg.springframework.util.StringUtils;importjava.io.File;importjava.io.FileInputStream;im
多模态大模型微调Qwen-VL微调及日志 Messi^ 人工智能-大模型应用 python 人工智能深度学习
%pipinstallmodelscope-U%pipinstalltransformersacceleratetiktoken-U%pipinstalleinopstransformers_stream_generator-U%pipinstallpillow-U%pipinstalltorchvision%pipinstallmatplotlib-Ufrommodelscopeimport(s
vue3打包 error in node_modules/@types/node/stream/web.d.ts 错误解决办法柒先生~ 前端 javascript 开发语言
ue3项目打包的时候突然报错，错误如下ERRORFailedtocompilewith1error14:13:57errorinnode_modules/@types/node/stream/web.d.ts:469:56TS1005:'?'expected.467|//IfReportingObservercheckisremoved,thetypeherewillformacircularre
「经济学人」Streaming-video wars 英语学习社
GameofphonesHBOwillleadAT&T’schallengetoNetflixTimeWarner’scrownjewelmustscaleupwhilemaintainingqualityINLATE2012,justbeforethereleaseof“HouseofCards”,TedSarandos,chiefcontentofficerofNetflix,declared
java读取csv文件 c++代码诗人 java与net windows python 开发语言
importjava.io.BufferedReader;importjava.io.FileInputStream;importjava.io.IOException;importjava.io.InputStreamReader;importjava.util.ArrayList;importjava.util.List;importjava.util.regex.Matcher;import
☕【Java技术指南】「Java8技术盲区」在奔向Java13的同时，也让我们仔细研究一下Stream的学习认知！洛神灬殇
Java8的功能之最要说到Java8的技术体系中，最让人难以忘怀的功能，那非Lambda和Stream莫属了。两者结合操作，达成天作之合，有点势不可挡。它主要用于补充集合类，它的强大，相信用过它的朋友，能明显的感受到，不用使用for循环就能对集合作出很好的操作。Stream使用一种类似用SQL语句从数据库查询数据的直观方式来提供一种对Java集合运算和表达的高阶抽象。这种风格将要处理的元素集合看作
flask和fastapi和streamlit有什么区别小霖同学onism 小白的摸爬滚打 flask fastapi python
Flask、FastAPI和Streamlit都是用于构建Web应用程序的Python框架或工具，但它们的用途和特点各不相同。以下是它们之间的主要区别：1.Flask简介：Flask是一个轻量级的、易于使用的PythonWeb框架，非常适合构建简单的Web应用和API。特点：灵活性高：Flask仅提供最基础的功能，允许开发者根据需要引入第三方扩展和库。社区支持：拥有庞大的社区和丰富的第三方扩展，易
【HDFS】【HDFS架构】【HDFS Architecture】【架构】资源存储库 hdfs 架构 hadoop
目录1Introduction介绍2AssumptionsandGoals假设和目标HardwareFailure硬件故障StreamingDataAccess流式数据访问LargeDataSets大型数据集SimpleCoherencyModel简单凝聚力模型“MovingComputationisCheaperthanMovingData”“移动计算比移动数据更便宜”PortabilityAc
Linux从入门到开发实战(C/C++)Day12-ICMP协议黒井深 linux c语言 c++
ICMP协议：InternetControlMessageProtocol网络控制报文协议作用：用来检测网络是否畅通ping命令实现流程：1.创建socketTCP:SOCK_STREAMUDP:SOCK_DGRAMICMP:SOCK_RAWSOCK_PACKETicmp协议只有root用户可以创建2.设置套字节setsockopt3.设置接收ip4.打包准备好要发送的数据包5.发包6.收包7.解
【JAVA入门】Day42 - 转换流 Clown Piece JAVA入门 java python 开发语言
【JAVA入门】Day42-转换流文章目录【JAVA入门】Day42-转换流转换流是字符流和字节流之间的桥梁。转换流中的输入流叫做InputStreamReader，它可以把字节流转换为字符流。转换流的输出流叫做OutputStreamWriter，它可以把字符流转换成字节流。【使用例1】把一个GBK的文件中的中文读取到内存中，不能出现乱码。（作用1：按照指定的字符集读取数据）packageCon
如何实现视频数据的PES打包和传输？音视频牛哥软件开发音视频 ps打包数据 ps rtp ps H.264 gb28181 ps 大牛直播SDK
实现视频的PES（PacketizedElementaryStream）打包和传输涉及多个步骤，主要包括视频数据的编码、PES打包、以及通过网络协议的传输。以下是大概的实现思路：一、视频数据编码原始视频数据获取：获取需要传输的原始视频数据，这些数据可能来自摄像头、文件或其他视频源。视频编码：使用视频编码器（如H.264、H.265等）对原始视频数据进行编码，生成编码后的视频码流（ES，Elemen
C++ IO流元凌丶 c++开发语言
C++标准IO流使用cout进行标准输出，即数据从内存流向控制台(显示器)使用cin进行标准输入，即数据通过键盘输入到程序中使用cerr进行标准错误的输出使用clog进行日志的输出C++文件IO流文件流对象ofstream：只写ofstream是C++中用于输出文件操作的一个类，它可以创建新文件用于写入或者向已存在的文件写入数据。ofstream属于头文件中定义的一部分，是用于处理文件输出流的。基
Linux三剑客-sed krb___ linux 运维服务器
前言：sed是StreamEditor（字符流）的缩写，简称流编辑器。sed是操作、过滤和转换问吧内容的强大工具。sed是一次读取一行数据常用功能包括结合正则表达式对文件实现快速增删改查，其中查询的功能中最常用的两大功能是过滤（过滤指定字符串），取行（取出指定行）sed命令语法：sed[选项][sed内置命令字符][输入文件]选项参数解释-n取消默认sed的输出，常与sed内置命令p一起使用-i直
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要