zhou_yuefei

5.Spark Streaming流计算框架的运行流程源码分析

1 spark streaming 程序代码实例

代码如下：

 
      
object OnlineTheTop3ItemForEachCategory2DB {  
  def main(args: Array[String]){   
    val conf = new SparkConf() //创建SparkConf对象   
    //设置应用程序的名称，在程序运行的监控界面可以看到名称  
    conf.setAppName("OnlineTheTop3ItemForEachCategory2DB")  
    conf.setMaster("spark://Master:7077") //此时，程序在Spark集群  
    //设置batchDuration时间间隔来控制Job生成的频率并且创建Spark Streaming执行的入口  
    val ssc = new StreamingContext(conf, Seconds(5))   
    ssc.checkpoint("/root/Documents/SparkApps/checkpoint")  
    val soketDStream = ssc.socketTextStream("Master", 9999)   
 
    /// 业务处理逻辑 ..... 
      
    ssc.start()  
    ssc.awaitTermination()  
  }  
}  
 
    

2 Spark Streaming的运行源码分析

2.1 创建StreamingContext

我们将基于以上实例例，粗略地分析一下Spark源码，提示一些有针对性的内容，以了解其运行的主要流程。

1）代码没有直接使用SparkContext，而是使用StreamingContext。

我们来看看StreamingContext 的源码片段：

 
      /**  
 * Create a StreamingContext by providing the configuration necessary for a new SparkContext.  
 * @param conf a org.apache.spark.SparkConf object specifying Spark parameters  
 * @param batchDuration the time interval at which streaming data will be divided into batches  
 */  
def this(conf: SparkConf, batchDuration: Duration) = {  
  this(StreamingContext.createNewSparkContext(conf), null, batchDuration)  
}  
 
     

没错，createNewSparkContext就是创建SparkContext：

 
     private[streaming] def createNewSparkContext(conf: SparkConf): SparkContext = {    
  new SparkContext(conf)   
}

这说明Spark Streaming也是Spark上的一个应用程序。

2）案例最开始的地方肯定要通过数据流创建一个InputDStream。

 
     val socketDstram = ssc.socketTextStream("Master", 9999)

socketTextStream方法定义如下：

 
      /**  
 * Create a input stream from TCP source hostname:port. Data is received using  
 * a TCP socket and the receive bytes is interpreted as UTF8 encoded `\n` delimited  
 * lines.  
 * @param hostname      Hostname to connect to for receiving data  
 * @param port          Port to connect to for receiving data  
 * @param storageLevel  Storage level to use for storing the received objects  
 *                      (default: StorageLevel.MEMORY_AND_DISK_SER_2)  
 */  
def socketTextStream(  
    hostname: String,  
    port: Int,  
    storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_SER_2   
  ): ReceiverInputDStream[String] = withNamedScope("socket text stream") {  
  socketStream[String](hostname, port, SocketReceiver.bytesToLines, storageLevel)  
}  
 
     

3）可看到代码最后面调用socketStream。

socketStream定义如下：

 
      /**  
 * Create a input stream from TCP source hostname:port. Data is received using  
 * a TCP socket and the receive bytes it interepreted as object using the given  
 * converter.  
 * @param hostname      Hostname to connect to for receiving data  
 * @param port          Port to connect to for receiving data  
 * @param converter     Function to convert the byte stream to objects  
 * @param storageLevel  Storage level to use for storing the received objects  
 * @tparam T            Type of the objects received (after converting bytes to objects)  
 */  
def socketStream[T: ClassTag](  
    hostname: String,  
    port: Int,  
    converter: (InputStream) => Iterator[T],   
    storageLevel: StorageLevel  
  ): ReceiverInputDStream[T] = {  
  new SocketInputDStream[T](this, hostname, port, converter, storageLevel)  
}  
 
     

4） 实际上生成SocketInputDStream。

SocketInputDStream类如下：

 
      private[streaming]  
class SocketInputDStream[T: ClassTag](  
    ssc_ : StreamingContext,  
    host: String,  
    port: Int,  
    bytesToObjects: InputStream => Iterator[T],   
    storageLevel: StorageLevel  
  ) extends ReceiverInputDStream[T](ssc_) {  
  def getReceiver(): Receiver[T] = {  
    new SocketReceiver(host, port, bytesToObjects, storageLevel)  
  }  
}  
 
     

SocketInputDStream继承ReceiverInputDStream。

其中实现getReceiver方法，返回SocketReceiver对象。
总结一下SocketInputDStream的继承关系：

SocketInputDStream -> ReceiverInputDStream -> InputDStream -> DStream。　　

5） DStream是生成RDD的模板，是逻辑级别，当达到Interval的时候这些模板会被batch data实例化成为RDD和DAG。

DStream的generatedRDDs：

 
      // RDDs generated, marked as private[streaming] so that testsuites can access it  
@transient  
private[streaming] var generatedRDDs = new HashMap[Time, RDD[T]] ()

DStream的getOrCompute：

 
      /**  
 * Get the RDD corresponding to the given time; either retrieve it from cache  
 * or compute-and-cache it.  
 */  
private[streaming] final def getOrCompute(time: Time): Option[RDD[T]] = {  
  // If RDD was already generated, then retrieve it from HashMap,  
  // or else compute the RDD  
  generatedRDDs.get(time).orElse {  
    // Compute the RDD if time is valid (e.g. correct time in a sliding window)  
    // of RDD generation, else generate nothing.  
    if (isTimeValid(time)) {  
      val rddOption = createRDDWithLocalProperties(time, displayInnerRDDOps = false) {   
        // Disable checks for existing output directories in jobs launched by the streaming  
        // scheduler, since we may need to write output to an existing directory during checkpoint  
        // recovery; see SPARK-4835 for more details. We need to have this call here because  
        // compute() might cause Spark jobs to be launched.  
        PairRDDFunctions.disableOutputSpecValidation.withValue(true) {  
          compute(time)  
        }  
      }  
      rddOption.foreach { case newRDD =>   
        // Register the generated RDD for caching and checkpointing  
        if (storageLevel != StorageLevel.NONE) {  
          newRDD.persist(storageLevel)  
          logDebug(s"Persisting RDD ${newRDD.id} for time $time to $storageLevel")  
        }  
        if (checkpointDuration != null && (time - zeroTime).isMultipleOf(checkpointDuration)) {  
          newRDD.checkpoint()  
          logInfo(s"Marking RDD ${newRDD.id} for time $time for checkpointing")  
        }  
        generatedRDDs.put(time, newRDD)  
      }  
      rddOption  
    } else {  
      None  
    }  
  }  
}  
 
     

主要是生成RDD，再将生成的RDD放在HashMap中。具体生成RDD过程以后剖析。

目前大致讲了DStream和RDD这些核心概念在Spark Streaming中的使用。

2.2 启动StreamingContext

代码实例中的ssc.start() 方法启动StreamingContext,主要的逻辑发生在这个start方法中:

* 在StreamingContext调用start方法的内部其实是会启动JobScheduler的Start方法，进行消息循环，

* 在JobScheduler的start内部会构造JobGenerator和ReceiverTacker，并且调用JobGenerator和

* ReceiverTacker的start方法：

* 1，JobGenerator启动后会不断的根据batchDuration生成一个个的Job

* 其实这里的Job不是Spark Core中所指的Job，它只是基于DStreamGraph而生成的RDD的DAG

* 而已，从Java角度讲，相当于Runnable接口实例，此时要想运行Job需要提交给JobScheduler，

* 在JobScheduler中通过线程池的方式找到一个单独的线程来提交Job到集群运行（其实是在线程中

* 基于RDD的Action触发真正的作业的运行）

* 2，ReceiverTracker启动后首先在Spark Cluster中启动Receiver（其实是在Executor中先启动

* ReceiverSupervisor），在Receiver收到数据后会通过ReceiverSupervisor存储到Executor并且把

* 数据的Metadata信息发送给Driver中的ReceiverTracker，在ReceiverTracker内部会通过

* ReceivedBlockTracker来管理接受到的元数据信息.

体现Spark Streaming应用运行流程的关键类如下图所示。

下面开启神奇的源码分析之旅,过程痛苦,痛苦之后是大彻大悟的畅快...........

1）先看看ScreamingContext的start()。

start()方法启动StreamContext，由于Spark应用程序不能有多个SparkContext对象实例，所以Spark Streaming框架在启动时对状态进行判断。代码如下：

 
     /**  
 * Start the execution of the streams.  
 *  
 * @throws IllegalStateException if the StreamingContext is already stopped.  
 */  
def start(): Unit = synchronized {   
  state match {  
    case INITIALIZED =>   
      startSite.set(DStream.getCreationSite())  
      StreamingContext.ACTIVATION_LOCK.synchronized {  
        StreamingContext.assertNoOtherContextIsActive()  
        try {  
          validate()  
          // Start the streaming scheduler in a new thread, so that thread local properties  
          // like call sites and job groups can be reset without affecting those of the  
          // current thread.  
          //线程本地存储，线程有自己的私有属性，设置这些线程的时候不会影响其他线程， 
         ThreadUtils.runInNewThread("streaming-start") {  
            sparkContext.setCallSite(startSite.get)  
            sparkContext.clearJobGroup()  
            sparkContext.setLocalProperty(SparkContext.SPARK_JOB_INTERRUPT_ON_CANCEL, "false")  
            //启动JobScheduler   
            scheduler.start()  
          }  
          state = StreamingContextState.ACTIVE   
        } catch {  
          case NonFatal(e) =>   
            logError("Error starting the context, marking it as stopped", e)  
            scheduler.stop(false)  
            state = StreamingContextState.STOPPED   
            throw e  
        }  
        StreamingContext.setActiveContext(this)  
      }  
      shutdownHookRef = ShutdownHookManager.addShutdownHook(   
        StreamingContext.SHUTDOWN_HOOK_PRIORITY)(stopOnShutdown)  
      // Registering Streaming Metrics at the start of the StreamingContext  
      assert(env.metricsSystem != null)  
      env.metricsSystem.registerSource(streamingSource)  
      uiTab.foreach(_.attach())  
      logInfo("StreamingContext started")  
    case ACTIVE =>   
      logWarning("StreamingContext has already been started")  
    case STOPPED =>   
      throw new IllegalStateException("StreamingContext has already been stopped")  
  }  
}  
 
    

初始状态时，会启动JobScheduler。

2）接着来看下JobScheduler的启动过程start()。

其中启动了EventLoop、StreamListenerBus、ReceiverTracker和jobGenerator等多项工作。

 
     def start(): Unit = synchronized {   
  if (eventLoop != null) return // scheduler has already been started  
    logDebug("Starting JobScheduler")  
    eventLoop = new EventLoop[JobSchedulerEvent]("JobScheduler") {  
    override protected def onReceive(event: JobSchedulerEvent): Unit = processEvent(event)   
    override protected def onError(e: Throwable): Unit = reportError("Error in job scheduler", e)   
  }  
  // 启动消息循环处理线程。用于处理JobScheduler的各种事件。  
  eventLoop.start()  
  // attach rate controllers of input streams to receive batch completion updates  
  for {  
    inputDStream <- ssc.graph.getInputStreams   
// rateController可以控制输入速度
    rateController <- inputDStream.rateController   
  } ssc.addStreamingListener(rateController)  
  // 启动监听器。用于更新Spark UI中StreamTab的内容。  
  listenerBus.start(ssc.sparkContext)   
  receiverTracker = new ReceiverTracker(ssc)   
  // 生成InputInfoTracker。用于管理所有的输入的流，以及他们输入的数据统计。这些信息将通过 StreamingListener监听。  
  inputInfoTracker = new InputInfoTracker(ssc)   
  // 启动ReceiverTracker。用于处理数据接收、数据缓存、Block生成。  
  receiverTracker.start()   
  // 启动JobGenerator。用于DStreamGraph初始化、DStream与RDD的转换、生成Job、提交执行等工作。  
  jobGenerator.start()   
  logInfo("Started JobScheduler")  
}  
 
    

3）JobScheduler中的消息处理函数processEvent。

处理三类消息：Job已开始，Job已完成，错误报告。

 
     private def processEvent(event: JobSchedulerEvent) {  
  try {  
    event match {  
      case JobStarted(job, startTime) => handleJobStart(job, startTime)   
      case JobCompleted(job, completedTime) => handleJobCompletion(job, completedTime)   
      case ErrorReported(m, e) => handleError(m, e)   
    }  
  } catch {  
    case e: Throwable =>   
      reportError("Error in job scheduler", e)  
  }  
}
 
    

4）我们再粗略地分析一下JobScheduler.start()中启动的工作。

4.1）先看JobScheduler.start()启动的第一项工作EventLoop。

EventLoop用于处理JobScheduler的各种事件。

EventLoop中有事件队列：

 
     private val eventQueue: BlockingQueue[E] = new LinkedBlockingDeque[E]()

还有一个线程处理队列中的事件：

 
     private val eventThread = new Thread(name) {   
  setDaemon(true)  
  override def run(): Unit = {   
    try {  
      while (!stopped.get) {  
        val event = eventQueue.take()   
        try {  
          onReceive(event)  
        } catch {  
          case NonFatal(e) => {   
            try {  
              onError(e)   
            } catch {  
              case NonFatal(e) => logError("Unexpected error in " + name, e)   
            }  
          }  
        }  
      }  
    } catch {  
      case ie: InterruptedException => // exit even if eventQueue is not empty   
      case NonFatal(e) => logError("Unexpected error in " + name, e)   
    }  
  }  
}  
 
    

这个线程中的onReceive、onError，在JobScheduler中的EventLoop实例化时已定义。

4.2）JobScheduler.start()启动的第二项工作StreamListenerBus。

- 用于异步传递StreamingListenerEvents到注册的StreamingListeners。

- 用于更新 Spark UI中StreamTab的内容。

4.3）看JobScheduler.start()启动的第三项工作ReceiverTracker。

ReceiverTracker用于管理所有的输入的流，以及他们输入的数据统计。

这些信息将通过 StreamingListener监听。

ReceiverTracker的start()中，会内部实例化ReceiverTrackerEndpoint这个Rpc消息通信体。

 1 def start(): Unit = synchronized {
 2   if (isTrackerStarted) {
 3     throw new SparkException("ReceiverTracker already started")
 4   }
 5  
 6   if (!receiverInputStreams.isEmpty) {
 7     endpoint = ssc.env.rpcEnv.setupEndpoint(
 8       "ReceiverTracker", new ReceiverTrackerEndpoint(ssc.env.rpcEnv))
 9     if (!skipReceiverLaunch) launchReceivers()
10     logInfo("ReceiverTracker started")
11     trackerState = Started
12   }
13 }

在ReceiverTracker启动的过程中会调用其launchReceivers方法：

/**
 * Get the receivers from the ReceiverInputDStreams, distributes them to the
 * worker nodes as a parallel collection, and runs them.
 */
private def launchReceivers(): Unit = {
  val receivers = receiverInputStreams.map(nis => {
    val rcvr = nis.getReceiver()
    rcvr.setReceiverId(nis.id)
    rcvr
  })
  runDummySparkJob()
  logInfo("Starting " + receivers.length + " receivers")
  endpoint.send(StartAllReceivers(receivers))
}

其中调用了runDummySparkJob方法来启动Spark Streaming的框架第一个Job，其中collect这个action操作会触发Spark Job的执行。这个方法是为了确保每个Slave都注册上，避免所有Receiver都在一个节点，使后面的计算能负载均衡。

/**
 * Run the dummy Spark job to ensure that all slaves have registered. This avoids all the
 * receivers to be scheduled on the same node.
 *
 * TODO Should poll the executor number and wait for executors according to
 * "spark.scheduler.minRegisteredResourcesRatio" and
 * "spark.scheduler.maxRegisteredResourcesWaitingTime" rather than running a dummy job.
 */
private def runDummySparkJob(): Unit = {
  if (!ssc.sparkContext.isLocal) {
    ssc.sparkContext.makeRDD(1 to 50, 50).map(x => (x, 1)).reduceByKey(_ + _, 20).collect()
  }
  assert(getExecutors.nonEmpty)
}

ReceiverTracker.launchReceivers()还调用了endpoint.send(StartAllReceivers(receivers))方法，Rpc消息通信体发送StartAllReceivers消息。
ReceiverTrackerEndpoint它自己接收到消息后，先根据调度策略获得Recevier在哪个Executor上运行，然后在调用startReceiver(receiver, executors)方法，来启动Receiver。

override def receive: PartialFunction[Any, Unit] = {
  // Local messages
  case StartAllReceivers(receivers) =>
    val scheduledLocations = schedulingPolicy.scheduleReceivers(receivers, getExecutors)
    for (receiver <- receivers) {
      val executors = scheduledLocations(receiver.streamId)
      updateReceiverScheduledExecutors(receiver.streamId, executors)
      receiverPreferredLocations(receiver.streamId) = receiver.preferredLocation
      startReceiver(receiver, executors)
    }

在startReceiver方法中，ssc.sparkContext.submitJob提交Job的时候传入startReceiverFunc这个方法，因为startReceiverFunc该方法是在Executor上执行的。而在startReceiverFunc方法中实例化ReceiverSupervisorImpl对象，该对象是对Receiver进行管理和监控。这个Job是Spark Streaming框架为我们启动的第二个Job，且一直运行。因为supervisor.awaitTermination()该方法会阻塞等待退出。

/**
 * Start a receiver along with its scheduled executors
 */
private def startReceiver(
    receiver: Receiver[_],
    scheduledLocations: Seq[TaskLocation]): Unit = {
  def shouldStartReceiver: Boolean = {
 
    // ........... 此处省略1万字 (无关代码) , 呵呵哒 .........
 
  // Function to start the receiver on the worker node
  val startReceiverFunc: Iterator[Receiver[_]] => Unit =
    (iterator: Iterator[Receiver[_]]) => {
      if (!iterator.hasNext) {
        throw new SparkException(
          "Could not start receiver as object not found.")
      }
      if (TaskContext.get().attemptNumber() == 0) {
        val receiver = iterator.next()
        assert(iterator.hasNext == false)
        //实例化Receiver监控者
        val supervisor = new ReceiverSupervisorImpl(
          receiver, SparkEnv.get, serializableHadoopConf.value, checkpointDirOption)
        supervisor.start()
        supervisor.awaitTermination()
      } else {
        // It's restarted by TaskScheduler, but we want to reschedule it again. So exit it.
      }
    }
 
  // Create the RDD using the scheduledLocations to run the receiver in a Spark job
  val receiverRDD: RDD[Receiver[_]] =
    if (scheduledLocations.isEmpty) {
      ssc.sc.makeRDD(Seq(receiver), 1)
    } else {
      val preferredLocations = scheduledLocations.map(_.toString).distinct
      ssc.sc.makeRDD(Seq(receiver -> preferredLocations))
    }
 
  receiverRDD.setName(s"Receiver $receiverId")
  ssc.sparkContext.setJobDescription(s"Streaming job running receiver $receiverId")
  ssc.sparkContext.setCallSite(Option(ssc.getStartSite()).getOrElse(Utils.getCallSite()))
  val future = ssc.sparkContext.submitJob[Receiver[_], Unit, Unit](
    receiverRDD, 
   startReceiverFunc, //提交Job时候传入startReceiverFunc这个方法，因为startReceiverFunc该方法是在Executor上执行的
  Seq(0), (_, _) => Unit, ())
 
  // 一直重启 receiver job直到 ReceiverTracker is stopped
  future.onComplete {
    case Success(_) =>
      if (!shouldStartReceiver) {
        onReceiverJobFinish(receiverId)
      } else {
        logInfo(s"Restarting Receiver $receiverId")
        self.send(RestartReceiver(receiver))
      }
    case Failure(e) =>
      if (!shouldStartReceiver) {
        onReceiverJobFinish(receiverId)
      } else {
        logError("Receiver has been stopped. Try to restart it.", e)
        logInfo(s"Restarting Receiver $receiverId")
        self.send(RestartReceiver(receiver))
      }
  }(submitJobThreadPool)
  logInfo(s"Receiver ${receiver.streamId} started")
}

接下来看下ReceiverSupervisorImpl的启动过程，先启动所有注册上的BlockGenerator对象，然后向ReceiverTrackerEndpoint发送RegisterReceiver消息，再调用receiver的onStart方法。

/** Start the supervisor */
def start() {
  onStart()
  startReceiver()
}

其中的onStart():启动所有注册上的BlockGenerator对象

override protected def onStart() {
  registeredBlockGenerators.foreach { _.start() }
}

其中的startReceiver()方法中调用onReceiverStart()然后再调用receiver的onStart方法。

/** Start receiver */
def startReceiver(): Unit = synchronized {
  try {
    if (onReceiverStart()) {
      logInfo("Starting receiver")
      receiverState = Started
      receiver.onStart()
      logInfo("Called receiver onStart")
    } else {
      // The driver refused us
      stop("Registered unsuccessfully because Driver refused to start receiver " + streamId, None)
    }
  } catch {
    case NonFatal(t) =>
      stop("Error starting receiver " + streamId, Some(t))
  }
}

在onReceiverStart()中向ReceiverTrackerEndpoint发送RegisterReceiver消息

override protected def onReceiverStart(): Boolean = {
  val msg = RegisterReceiver(
    streamId, receiver.getClass.getSimpleName, host, executorId, endpoint)
  trackerEndpoint.askWithRetry[Boolean](msg)
}

其中在Driver运行的ReceiverTrackerEndpoint对象接收到RegisterReceiver消息后，将streamId, typ, host, executorId, receiverEndpoint封装为ReceiverTrackingInfo保存到内存对象receiverTrackingInfos这个HashMap中。

override def receiveAndReply(context: RpcCallContext): PartialFunction[Any, Unit] = {
  // Remote messages
  case RegisterReceiver(streamId, typ, host, executorId, receiverEndpoint) =>
    val successful =
      registerReceiver(streamId, typ, host, executorId, receiverEndpoint, context.senderAddress)
    context.reply(successful)

registerReceiver方法源码:

/** Register a receiver */
private def registerReceiver(
    streamId: Int,
    typ: String,
    host: String,
    executorId: String,
    receiverEndpoint: RpcEndpointRef,
    senderAddress: RpcAddress
  ): Boolean = {
  if (!receiverInputStreamIds.contains(streamId)) {
    throw new SparkException("Register received for unexpected id " + streamId)
  }
 
    // ........... 此处省略1万字 (无关代码) , 呵呵哒 .........
 
  if (!isAcceptable) {
    // Refuse it since it's scheduled to a wrong executor
    false
  } else {
    val name = s"${typ}-${streamId}"
    val receiverTrackingInfo = ReceiverTrackingInfo(
      streamId,
      ReceiverState.ACTIVE,
      scheduledLocations = None,
      runningExecutor = Some(ExecutorCacheTaskLocation(host, executorId)),
      name = Some(name),
      endpoint = Some(receiverEndpoint))
    receiverTrackingInfos.put(streamId, receiverTrackingInfo)
    listenerBus.post(StreamingListenerReceiverStarted(receiverTrackingInfo.toReceiverInfo))
    logInfo("Registered receiver for stream " + streamId + " from " + senderAddress)
    true
  }
}

Receiver的启动，以ssc.socketTextStream("localhost", 9999)为例，创建的是SocketReceiver对象。内部启动一个线程来连接Socket Server，读取socket数据并存储。

private[streaming]
class SocketReceiver[T: ClassTag](
    host: String,
    port: Int,
    bytesToObjects: InputStream => Iterator[T],
    storageLevel: StorageLevel
  ) extends Receiver[T](storageLevel) with Logging {
 
  def onStart() {
    // Start the thread that receives data over a connection
    new Thread("Socket Receiver") {
      setDaemon(true)
      override def run() { receive() }
    }.start()
  }
 
 
  /** Create a socket connection and receive data until receiver is stopped */
  def receive() {
    var socket: Socket = null
    try {
      logInfo("Connecting to " + host + ":" + port)
      socket = new Socket(host, port)
      logInfo("Connected to " + host + ":" + port)
      val iterator = bytesToObjects(socket.getInputStream())
      while(!isStopped && iterator.hasNext) {
        store(iterator.next)
      }
      if (!isStopped()) {
        restart("Socket data stream had no more data")
      } else {
        logInfo("Stopped receiving")
      }
    } catch {
        // ........... 此处省略1万字 (无关代码) , 呵呵哒 .........
  }
}

4.4）接下来看JobScheduler.start()中启动的第四项工作JobGenerator。

JobGenerator有成员RecurringTimer，用于启动消息系统和定时器。按照batchInterval时间间隔定期发送GenerateJobs消息。

//根据创建StreamContext时传入的batchInterval，定时发送GenerateJobs消息
private val timer = new RecurringTimer(clock, ssc.graph.batchDuration.milliseconds,
  longTime => eventLoop.post(GenerateJobs(new Time(longTime))), "JobGenerator")
 
JobGenerator的start()方法：
/** Start generation of jobs */
def start(): Unit = synchronized {
  if (eventLoop != null) return // generator has already been started
 
  // Call checkpointWriter here to initialize it before eventLoop uses it to avoid a deadlock.
  // See SPARK-10125
  checkpointWriter
 
  eventLoop = new EventLoop[JobGeneratorEvent]("JobGenerator") {
    override protected def onReceive(event: JobGeneratorEvent): Unit = processEvent(event)
 
    override protected def onError(e: Throwable): Unit = {
      jobScheduler.reportError("Error in job generator", e)
    }
  }
 
  // 启动消息循环处理线程
  eventLoop.start()
 
  if (ssc.isCheckpointPresent) {
    restart()
  } else {
    // 开启定时生成Job的定时器
    startFirstTime()
  }
}

JobGenerator.start()中的startFirstTime()的定义：

/** Starts the generator for the first time */
private def startFirstTime() {
  val startTime = new Time(timer.getStartTime())
  graph.start(startTime - graph.batchDuration)
  timer.start(startTime.milliseconds)
  logInfo("Started JobGenerator at " + startTime)
}

JobGenerator.start()中的processEvent()的定义：

 
     /** Processes all events */  
private def processEvent(event: JobGeneratorEvent) {  
  logDebug("Got event " + event)  
  event match {  
    case GenerateJobs(time) => generateJobs(time)   
    case ClearMetadata(time) => clearMetadata(time)   
    case DoCheckpoint(time, clearCheckpointDataLater) =>   
      doCheckpoint(time, clearCheckpointDataLater)  
    case ClearCheckpointData(time) => clearCheckpointData(time)   
  }  
}  
 
    

其中generateJobs的定义：

/** Generate jobs and perform checkpoint for the given `time`.  */
private def generateJobs(time: Time) {
  // Set the SparkEnv in this thread, so that job generation code can access the environment
  // Example: BlockRDDs are created in this thread, and it needs to access BlockManager
  // Update: This is probably redundant after threadlocal stuff in SparkEnv has been removed.
  SparkEnv.set(ssc.env)
  Try {
 
    // 根据特定的时间获取具体的数据
    jobScheduler.receiverTracker.allocateBlocksToBatch(time) // allocate received blocks to batch
    //调用DStreamGraph的generateJobs生成Job
    graph.generateJobs(time) // generate jobs using allocated block
  } match {
    case Success(jobs) =>
      val streamIdToInputInfos = jobScheduler.inputInfoTracker.getInfo(time)
      jobScheduler.submitJobSet(JobSet(time, jobs, streamIdToInputInfos))
    case Failure(e) =>
      jobScheduler.reportError("Error generating jobs for time " + time, e)
  }
  eventLoop.post(DoCheckpoint(time, clearCheckpointDataLater = false))
}

DStreamGraph的generateJobs方法，调用输出流的generateJob方法来生成Jobs集合。

// 输出流：具体Action的输出操作
private val outputStreams = new ArrayBuffer[DStream[_]]()
 
def generateJobs(time: Time): Seq[Job] = {
  logDebug("Generating jobs for time " + time)
  val jobs = this.synchronized {
    outputStreams.flatMap { outputStream =>
      val jobOption = outputStream.generateJob(time)
      jobOption.foreach(_.setCallSite(outputStream.creationSite))
      jobOption
    }
  }
  logDebug("Generated " + jobs.length + " jobs for time " + time)
  jobs
}

来看下DStream的generateJob方法，调用getOrCompute方法来获取当Interval的时候，DStreamGraph会被BatchData实例化成为RDD，如果有RDD则封装jobFunc方法，里面包含context.sparkContext.runJob(rdd, emptyFunc)，然后返回封装后的Job。

 
     /**  
 * Generate a SparkStreaming job for the given time. This is an internal method that  
 * should not be called directly. This default implementation creates a job  
 * that materializes the corresponding RDD. Subclasses of DStream may override this  
 * to generate their own jobs.  
 */  
private[streaming] def generateJob(time: Time): Option[Job] = {  
  getOrCompute(time) match {  
    case Some(rdd) => {   
      val jobFunc = () => {   
        val emptyFunc = { (iterator: Iterator[T]) => {} }   
        context.sparkContext.runJob(rdd, emptyFunc)   
      }  
      Some(new Job(time, jobFunc))  
    }  
    case None => None   
  }  
}  
 
    

接下来看JobScheduler的submitJobSet方法，向线程池中提交JobHandler。而JobHandler实现了Runnable 接口，最终调用了job.run()这个方法。看一下Job类的定义，其中run方法调用的func为构造Job时传入的jobFunc，其包含了context.sparkContext.runJob(rdd, emptyFunc)操作，最终导致Job的提交。

def submitJobSet(jobSet: JobSet) {
  if (jobSet.jobs.isEmpty) {
    logInfo("No jobs added for time " + jobSet.time)
  } else {
    listenerBus.post(StreamingListenerBatchSubmitted(jobSet.toBatchInfo))
    jobSets.put(jobSet.time, jobSet)
    jobSet.jobs.foreach(job => jobExecutor.execute(new JobHandler(job)))
    logInfo("Added jobs for time " + jobSet.time)
  }
}

JobHandler实现了Runnable 接口，最终调用了job.run()这个方法:

private class JobHandler(job: Job) extends Runnable with Logging {
    import JobScheduler._
 
    def run() {
      try {
    
         //  *********** 此处省略无关代码 *******************
 
        // We need to assign `eventLoop` to a temp variable. Otherwise, because
        // `JobScheduler.stop(false)` may set `eventLoop` to null when this method is running, then
        // it's possible that when `post` is called, `eventLoop` happens to null.
        var _eventLoop = eventLoop
        if (_eventLoop != null) {
          _eventLoop.post(JobStarted(job, clock.getTimeMillis()))
          // Disable checks for existing output directories in jobs launched by the streaming
          // scheduler, since we may need to write output to an existing directory during checkpoint
          // recovery; see SPARK-4835 for more details.
          PairRDDFunctions.disableOutputSpecValidation.withValue(true) {
            job.run()
          }
          _eventLoop = eventLoop
          if (_eventLoop != null) {
            _eventLoop.post(JobCompleted(job, clock.getTimeMillis()))
          }
        } else {
          // JobScheduler has been stopped.
        }
      } finally {
        ssc.sc.setLocalProperty(JobScheduler.BATCH_TIME_PROPERTY_KEY, null)
        ssc.sc.setLocalProperty(JobScheduler.OUTPUT_OP_ID_PROPERTY_KEY, null)
      }
    }
  }
}

Job的代码片段：

 
     private[streaming]  
class Job(val time: Time, func: () => _) {   
  private var _id: String = _   
  private var _outputOpId: Int = _   
  private var isSet = false   
  private var _result: Try[_] = null  
  private var _callSite: CallSite = null   
  private var _startTime: Option[Long] = None  
  private var _endTime: Option[Long] = None  
  def run() {  
    _result = Try(func())   
  }  
 
    

以上是主要源码的分析,累死宝宝了,......慢慢的成就感

你可能感兴趣的:(sparkstreaming,源码分析,架构流程)

UDP通信开发 Charary udp 网络
开发流程：UDP本身不考虑链接，不存在客户和服务器的概念，UDP开发只有三步：创建UDP的套接字socket(AF_INET,SOCK_DGRAM,0)绑定自己的属性bindUDP随意的发送和接收数据sendto/recvfromUDP接口函数：sendto()函数功能：UDP专用的发送函数函数原型：ssize_tsendto(intsockfd,//套接字constvoid*buf,//待发送的
网络协议、网络安全架构、网络安全标准 Utopia.️ 网络协议 web安全架构
1.网络协议网络协议是计算机网络中设备之间通信的规则集。熟悉常见的网络协议及其工作原理是确保网络安全的基础。常见协议：TCP/IP协议：这是网络通信的基础协议，确保数据从源端传输到目标端，支持多种传输方式（TCP可靠传输，UDP快速但不可靠）。HTTP/HTTPS：HTTP用于浏览器与服务器之间的通信，HTTPS则是在HTTP上添加了SSL/TLS加密层，用于确保数据传输的安全性。DNS协议：用于
国内大厂面试一般流程——扫盲 weixin_49526058 面试职场和发展
中国大型互联网企业的面试流程通常分为若干轮，具体轮数和考察内容可能因公司、岗位及招聘需求有所不同，但一般来说，大致可以分为以下几轮：1.简历筛选考察内容：主要看简历是否符合岗位要求，关注工作经历、项目经验、技术栈、学历背景等。如果简历突出，通常会进入下一轮面试。2.电话/视频初面（HR面）考察内容：HR面试主要是了解你的基本情况、动机和软技能。一般会问一些关于简历的问题，了解你对公司的了解、为什么
transformer模型构建 AI耽误的大厨自然语言处理nlp transformer 算法人工智能神经网络 word2vec
2.6模型构建学习目标掌握编码器-解码器结构的实现过程.掌握Transformer模型的构建过程.通过上面的小节,我们已经完成了所有组成部分的实现,接下来就来实现完整的编码器-解码器结构.Transformer总体架构图:编码器-解码器结构的代码实现#使用EncoderDecoder类来实现编码器-解码器结构classEncoderDecoder(nn.Module):def__init__(se
DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清... 雪停时偶遇一叶春流程图
合集-人工智能(5)1.如何改进AI模型在特定环境中的知识检索2024-09-242.深度学习与统计学中的时间序列预测2024-10-033.《使用coze搭建一个会搜索、写ppt、思维导图的Agent》2024-10-294.深入浅出：Agent如何调用工具——从OpenAIFunctionCall到CrewAI框架01-145.DeepSeek-R1技术全景解析：从原理到实践的“炼金术配方”—
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
麒麟v10安装mysql5.7（ARM架构） qqxinxi arm开发
下载路径：华为云镜像麒麟v10是潮流时代的新时髦的linux操作系统，但随着ARM架构流行，出现了一些卡点，不以为然，没当回事的大吃一惊。经常卡住。例如:在安装mysql5.7（ARM架构）最简单：使用rpmmysql-5.7.27.1.el7.aarch64.rpm文件比较小下载完之后rpm-ivhmysql-5.7.27.1.el7.aarch64.rpm比较简单常用的方法，再不能连接互联网时
YOLOv8 Pose使用RKNN进行推理い不靠譜︶朱Sir 实用项目部署 YOLO 人工智能 python linux pip
关注微信公众号：朱sir的小站，发送202411081即可免费获取源代码下载链接一、简单介绍YOLOv8-Pose是一种基于YOLOv8架构的姿态估计模型，能够识别图像中的关键点位置，这些关键点通常表示人体的关节、特征点或其他显著位置。该模型在COCO关键点数据集上训练，适合多种姿势估计任务。二、ONNX推理1.首先需要先将Pytorch模型转换为Onnx模型，下载pt模型这里给出官方的权重下载地
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
产品架构图怎么画？看这篇就够了！小天才学习机打游戏 caffe 人工智能深度学习 AI编程金融 prompt 机器学习
1.什么是产品架构图?产品是由不同的业务功能单元组成的，功能单元之间又有一定逻辑关系，将这些功能单元和它们的逻辑关系以可视化形式展现出来就是产品架构图，这张图最重要的作用就是在产品规划阶段帮助各方快速建立这个产品画像。立项评审时这个图必不可少，产品最后做出来长么样，大家就对着这张图yy了田所以如何画出一张各方(领导、研发、测试)都看得懂的产品架构图就很考验功力。2.怎么画?产品架构图一般由上至下分
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
语聊房软件开发流程与基础功能 ALLSectorSorft java html5 javascript
开发一款语聊房软件需要系统的规划和多领域技术整合。以下是关键流程、基础功能及示例代码：---一、开发流程1.需求分析-明确目标用户（社交/游戏/教育）-竞品分析（Clubhouse/Discord/狼人杀）-核心功能优先级排序2.技术选型-实时语音：声网Agora（推荐）/腾讯云TRTC/WebRTC-即时通讯：Socket.io/Sendbird/Firebase-后端框架：Node.js/Sp
Transformer 模型架构 2401_89793006 热门话题 transformer 深度学习人工智能
Transformer是一种模型架构（ModelArchitecture），而不是一个软件框架（Framework）。它的定位更接近于一种设计蓝图，类似于建筑中的结构设计方案。以下是详细解释：1.架构vs框架的区别概念定义示例模型架构定义神经网络的结构设计Transformer、CNN、RNN开发框架提供实现模型的工具和库PyTorch、TensorFlow2.Transformer作为架构的核心
深入解析JVM性能问题定位与优化测试不打烊性能测试 jvm 性能优化
JVM性能问题定位与优化详解：架构、内存、Linux命令与监控工具的全面解析引言Java虚拟机（JVM）是运行Java应用程序的核心组件，它管理内存、执行字节码，并提供垃圾回收机制等功能。然而，随着应用规模的增长，JVM的性能问题时常会成为系统瓶颈。为了有效定位和优化JVM性能问题，我们需要从JVM架构、内存管理、Linux系统命令，以及监控工具入手，对JVM的各类指标进行详尽的分析和优化。本文将
关于防火墙运维面试题2 编织幻境的妖运维网络 php
三、防火墙配置与管理类21.如何根据企业的网络安全策略，制定一套全面的防火墙规则集？需要考虑哪些关键因素？以下是根据企业网络安全策略制定全面防火墙规则集的指导，以及需要考虑的关键因素：一、关键因素（一）网络架构与拓扑了解企业的网络结构明确企业网络是简单的星型拓扑、复杂的网状拓扑还是混合拓扑等。例如，在星型拓扑中，所有设备都连接到一个中心交换机或集线器，这种结构下防火墙规则可能相对集中和简单；而在网
Java平台上的多线程与多核处理研究向哆哆 Java入门到精通 java python 开发语言
Java平台上的多线程与多核处理研究在现代计算机架构中，多核处理器已成为主流。随着硬件性能的提升，如何有效利用多核处理器的计算能力成为开发者面临的重要问题之一。Java作为一种广泛使用的编程语言，提供了多线程编程的强大支持，使得开发者能够在多核环境下实现并行计算。本篇文章将深入探讨Java平台上的多线程与多核处理，探讨其工作原理、应用场景，并通过代码实例进行演示。1.多线程与多核处理的基本概念1.
Linux发展史：从个人项目到开源帝国的技术演进 ♢.＊人工智能大模型 Linux 操作系统
一、起源与诞生（1960s-1991）UNIX的奠基Linux的基因可追溯至1969年贝尔实验室的KenThompson与DennisRitchie。为运行《星际旅行》游戏，Thompson用BCPL语言开发了UNIX原型，后由Ritchie以C语言重构，成为首个可移植操作系统12。其“一切皆文件”的设计哲学深刻影响了后续系统架构1。MINIX的启发1987年，AndrewS.Tanenbaum开
马斯克的Grok-3：技术突破与行业冲击的深度解析 ♢.＊马斯克人工智能大模型 xAI Grok 3
一、技术架构与核心突破超大规模算力集群Grok-3基于xAI自研的Colossus超级计算机训练完成，搭载20万块英伟达H100GPU，累计消耗2亿GPU小时，算力投入是前代Grok-2的10倍48。这一规模远超行业平均水平，例如中国团队DeepSeek-V3的算力消耗仅为Grok-3的1/2634。技术挑战：团队在122天内完成首期10万块GPU部署，克服了散热、电力供应等工程难题1。思维链推理
微信支付-扫码支付全流程自娱自乐22 thinkphp php 微信扫码支付
微信支付官方文档：`https://pay.weixin.qq.com/wiki/doc/api/index.html`微信支付分为2种模式：【模式一】：商户后台系统根据微信支付规则链接生成二维码，链接中带固定参数productid（可定义为产品标识或订单号）。用户扫码后，微信支付系统将productid和用户唯一标识(openid)回调商户后台系统(需要设置支付回调URL)，商户后台系统根据pr
等保系列之——网络安全等级保护测评工作流程及工作内容等保管家 web安全安全
等保系列之——网络安全等级保护测评工作流程及工作内容引言随着信息技术的快速发展，网络安全问题日益凸显。为了保障信息系统的安全稳定运行，我国实施了网络安全等级保护制度（简称等保）。等保测评作为该制度的重要组成部分，对于提高信息系统的安全防护能力具有重要意义。等保测评概述等保测评全称是信息安全等级保护测评，它依据国家标准《信息安全技术网络安全等级保护测评要求》进行，旨在评估信息系统的安全防护能力是否达
【登月计划】 DAY2 上期：产品研发与设计验证（1-3）-《煮饭煮到天花板炸穿！你家厨房可能藏着一颗定时炸弹》泛泛不谈 0-2岁智能制造工程师启蒙制造需求分析经验分享
目录一、血腥开场：电饭煲变“炸弹”？实验室里的致命疏忽！二、死亡案例：电热水壶漏电杀人！一个螺丝毁掉一个家庭三、段位表：从“菜鸟”到“大神”的6个等级四、产线实战：电热水壶的“保命测试”流程一、血腥开场：电饭煲变“炸弹”？实验室里的致命疏忽！某电饭煲厂商推出“超快煮”功能，本想赢得市场，却引发危机。实验室测试时一切正常，可产品到用户手中却频频炸锅。用户遭遇：李阿姨煮粥时，电饭煲突然炸开，粥喷到天花
RUST练习生如何在生产环境构建万亿流量|得物技术后端rust
一、引言在《得物新一代可观测性架构：海量数据下的存算分离设计与实践》一文中，我们探讨了存算分离架构如何通过解耦计算与存储资源，显著降低存储成本并提升系统扩展性。然而，仅优化存储成本不足以支撑高效可观测性系统的全局目标。在生产环境中，计算层作为可观测性体系的核心模块，需在处理日益复杂和动态的大流量数据时，保持高性能、强稳定性与优异的资源利用效率。在得物的可观测性计算层中，Java凭借其成熟的生态系统
经销商管理系统架构设计方案（附 Java版本和Python版本源代码详解） AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
经销商管理系统架构设计方案（Java实现源代码详解）关键词：经销商管理系统，Java，SpringBoot，MyBatis，MySQL，架构设计，源代码1.背景介绍随着市场竞争的日益激烈，企业对经销商的管理越来越重视。传统的经销商管理方式效率低下，信息滞后，难以适应现代企业的发展需求。为了提高经销商管理效率，降低运营成本，越来越多的企业开始采用信息化的手段来管理经销商，而经销商管理系统应运而生。经
LLM的分布式部署：AI的云端革命 AI天才研究院 AI大模型企业级应用开发实战 Python实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《LLM的分布式部署：AI的云端革命》关键词分布式部署语言模型云端计算资源管理性能优化安全性摘要本文将深入探讨大型语言模型（LLM）的分布式部署，分析其技术背景、架构设计、资源管理、性能优化以及安全性等方面。通过对LLM分布式部署的关键技术进行详细介绍，我们旨在为读者提供一个全面、系统的理解，以及展望未来LLM分布式部署的发展趋势。目录大纲第一部分：分布式部署概述第1章：分布式系统基础第2章：LL
DeepSeek与ChatGPT：AI语言模型的全面对决金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 chatgpt 人工智能语言模型
DeepSeek（深度求索）与ChatGPT作为当前备受关注的两大AI语言模型，在技术架构、应用场景和性能表现上各有特色。以下从六大维度展开全面对比，为不同需求场景提供选择参考：一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统（MoE）+自研深度优化架构Transformer架构（GPT-3.5/4系列）训练策略万亿token中文语料预训练+领域强化学习多语言混合训练+RLH
DeepSeek和ChatGPT的全面对比陈皮话梅糖@ AI编程
一、模型基础架构对比（2023技术版本）维度DeepSeekChatGPT模型家族LLAMA架构改进GPT-4优化版本参数量级开放7B/35B/120B闭源175B+位置编码RoPE+NTK扩展ALiBiAttention机制FlashAttention-3FlashAttention-2激活函数SwiGLUProGeGLU训练框架DeepSpeed+Megatron定制内部框架上下文窗口32k（
【系统架构设计师】系统性能之性能指标王佑辉系统架构设计师系统架构
目录1.说明2.计算机的性能指标3.路由器的性能指标4.交换机的性能指标5.网络的性能指标6.操作系统的性能指标7.数据库管理系统的性能指标8.Web服务器的性能指标9.例题9.1例题11.说明1.性能指标是软、硬件的性能指标的集成。2.在硬件中，包括计算机、各种通信交换设备、各类网络设备等；在软件中，包括操作系统、数据库、网络协议以及应用程序等。2.计算机的性能指标1.评价计算机的主要性能指标有
LTC流程华为任正非的高屋建瓴的总结概括华为LTC专栏流程管理专家许浩明华为LTC
企业间的竞争就是管理的竞争！(这里的“管理”是指广义的管理，包含市场定位、市场规划、市场拓展、战略管理、产品研发与规划、员工激励、服务管理、财务管理等等)，绝大多数企业（尤其是中小企业）要么正在倒闭，要么在倒闭的路上，少数企业重视管理，不断地提升管理水平，使得企业在残酷的市场竞争中获得一定优势继续“活下去”，极少数企业（如华为）保持危机感，不断地“折腾”变革创新，驱使组织与员工远离“舒适区”，长期
LTC流程概述与核心要点--华为LTC流程专家许浩明老师分享心得体会华为LTC专栏流程管理专家许浩明华为LTC 项目管理数据库经验分享云计算区块链
销售关乎企业生死，可是很多企业的销售流程体系是散乱无序、效率低下；没能洞察市场寻找更多商机，项目线索不够多，即便有了项目线索也因为没能尽早有效跟踪培育线索而失去项目机会；难以快速响应客户需求；面向客户界面混乱，销售人员基本是单兵作战，难以形成战斗力，很多销售人员销售经验能力又不足，直接导致的结果就是：市场中标概率小、中标了交付也存在各种各样风险与问题、回款缓慢甚至最后成为“烂尾工程”应收帐款巨大…
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本