wang2leee

spark broadcast广播原理优缺点示例源码权威讲解

文章目录

spark broadcast广播原理优缺点示例源码权威讲解
广播原理
适用场景
缺点
示例
源码
- broadcast方法
- 基础类Broadcast抽象类
- 实现类TorrentBroadcast
- - 内部版本广播方法broadcastInternal
- broadcastManager初始化和创建广播对象
- 初始化
- 创建广播变量
源码拓展
- BroadcastManager对象
- BroadcastFactory接口
- TorrentBroadcastFactory
- BitTorrent 协议
- - BitTorrent 的工作原理
  - 块链技术
  - 安全性
  - 总结
参考链接

广播原理

Spark广播（broadcast）的原理是通过将一个只读变量从驱动程序发送到集群上的所有工作节点，以便在运行任务时能够高效地访问这个变量。广播变量只会被发送一次，并且在工作节点上缓存，以供后续任务重用。

下面是Spark广播的实现方法：

驱动程序将要广播的变量划分为小块，并对每个块进行序列化。
驱动程序将序列化的块发送给各个工作节点。
每个工作节点接收到序列化的块后，将其反序列化并存储在内存中。
在执行任务时，每个工作节点可以直接访问已经缓存的广播变量，而不需要从驱动程序再次获取。

这种方式可以避免在任务执行期间多次传输相同的数据，从而提高性能和效率。

在Spark中，广播变量的实现主要依赖于DriverEndpoint和ExecutorEndpoint之间的通信机制。具体来说，当驱动程序将广播变量发送给工作节点时，它会使用BlockManager将序列化的块存储在内存中，并将块的元数据注册到BlockManagerMaster。然后，当工作节点执行任务时，它会向BlockManagerMaster请求获取广播变量的块，并从本地BlockManager中获取这些块的数据。这样，每个工作节点都可以在本地快速访问广播变量的数据。

总结起来，Spark广播的实现涉及驱动程序对广播变量进行序列化和发送，以及工作节点接收、反序列化和缓存广播变量的块。这种机制有效地将只读数据分发到集群上的所有工作节点，提高了任务执行的性能和效率。

适用场景

广播变量在以下场景中非常有用：

广播较大的只读数据集：当需要在多个任务中共享一个较大的只读数据集时，广播变量可以避免将该数据集复制到每个任务中。这样可以减少网络传输和内存消耗。
提高任务执行效率：如果一个任务需要频繁地使用相同的只读数据，通过广播变量可以将数据缓存在工作节点上，避免重复传输数据，从而提高任务的执行效率。
减少数据传输开销：广播变量将只读数据发送到工作节点一次，并在本地进行缓存，避免了多次传输相同的数据，减少了网络开销。
避免内存溢出：对于大规模的只读数据集，将其广播到工作节点并在本地缓存可以避免驱动程序的内存溢出问题。
共享全局配置信息：如果有全局的配置信息需要在不同任务之间共享，可以使用广播变量将其发送到工作节点，方便任务访问。

总之，广播变量适用于需要在多个任务之间共享只读数据，并且能够提供更高效的数据访问和减少网络传输开销的情况。通过使用广播变量，可以提高Spark应用程序的性能和效率。

缺点

虽然广播在分布式计算中有很多优点，但它也存在一些缺点：

内存消耗：广播变量需要将数据集复制到每个工作节点的内存中进行缓存。对于较大的数据集，这可能导致内存消耗较高，特别是当集群规模较大时。
延迟问题：由于广播变量需要将数据集发送到每个工作节点并进行缓存，所以在开始任务之前可能会有一定的延迟。这可能会对实时性要求较高的应用程序产生影响。
传输开销：广播变量的数据需要通过网络传输到工作节点，并且每个节点都需要接收和存储这些数据。对于大规模数据集，传输开销可能会比较大，特别是在网络带宽有限的情况下。
只读限制：广播变量是只读的，无法在任务执行过程中进行修改。如果需要对数据进行更新或变换，广播变量可能不适合。
需要额外管理：使用广播变量需要在驱动程序中显式创建和管理，包括序列化、发送和缓存。这增加了编码和维护的复杂性。

因此，在使用广播变量时需要考虑其局限性和适用场景。如果数据集较大，实时性要求高，或者需要频繁修改数据，可能需要考虑其他替代方案来避免广播的缺点。

示例

import org.apache.spark.{SparkConf, SparkContext}

object BroadcastExample {
  def main(args: Array[String]): Unit = {
    // 创建SparkConf对象
    val conf = new SparkConf().setAppName("Broadcast Example").setMaster("local[*]")

    // 创建SparkContext对象
    val sc = new SparkContext(conf)

    try {
      // 创建要广播的只读数据集
      val data = Map("A" -> 1, "B" -> 2, "C" -> 3)
      val broadcastData = sc.broadcast(data)

      // 创建RDD并在任务中访问广播变量
      val rdd = sc.parallelize(Seq("A", "B", "C"))
      val result = rdd.map(key => (key, broadcastData.value.getOrElse(key, -1)))

      // 打印结果
      result.foreach(println)
    } finally {
      // 关闭SparkContext对象
      sc.stop()
    }
  }
}

源码

broadcast方法

功能：将只读变量广播到集群,返回一个Broadcast对象以在分布式函数中进行读取变量将仅发送一次到每个执行器，同时调用了内部的方法broadcastInternal

/**
 * 将只读变量广播到集群，返回一个 [[org.apache.spark.broadcast.Broadcast]] 对象以在分布式函数中进行读取。
 * 变量将仅发送一次到每个执行器。
 *
 * @param value 要广播到 Spark 节点的值
 * @return `Broadcast` 对象，一个在每台机器上缓存的只读变量
 */
def broadcast[T: ClassTag](value: T): Broadcast[T] = {
  broadcastInternal(value, serializedOnly = false)
}

基础类Broadcast抽象类

Broadcast 是 Spark 中的一个广播变量类。广播变量允许程序员在每台机器上缓存一个只读的变量，而不是将它与任务一起传输。通过使用广播变量，可以以高效的方式为每个节点提供大型输入数据集的副本。

Broadcast 类的构造函数接收一个唯一标识符 id，用于标识广播变量。

Broadcast 类是一个抽象类，有以下几个主要方法：

value 方法：获取广播变量的值。
unpersist 方法：异步删除执行器上此广播变量的缓存副本。可以选择阻塞等待操作完成。
destroy 方法：销毁与此广播变量相关的所有数据和元数据。一旦广播变量被销毁，就不能再次使用它。也可以选择阻塞等待操作完成。

Broadcast 类还定义了一些受保护的方法，用于实际获取广播变量的值、取消持久化广播变量的值以及销毁广播变量的状态。

Broadcast 类还具有 _isValid 和 _destroySite 两个私有变量，分别表示广播变量是否有效（即尚未销毁）以及销毁广播变量的位置信息。

总体来说，Broadcast 类提供了管理广播变量的功能，并确保广播变量的正确使用和销毁。

/**
 * 广播变量。广播变量允许程序员在每台机器上缓存一个只读变量，而不是将其与任务一起传输。它们可以用于以高效的方式为每个节点提供大型输入数据集的副本。
 * Spark 还尝试使用高效的广播算法分发广播变量，以减少通信成本。
 *
 * 广播变量是通过调用 [[org.apache.spark.SparkContext#broadcast]] 从变量 `v` 创建的。
 * 广播变量是对 `v` 的包装，可以通过调用 `value` 方法来访问其值。下面的解释器会话显示了这一点：
 *
 * {{{
 * scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
 * broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0)
 *
 * scala> broadcastVar.value
 * res0: Array[Int] = Array(1, 2, 3)
 * }}}
 *
 * 创建广播变量后，在集群上运行的任何函数中都应该使用广播变量，而不是值 `v`，以便 `v` 不会多次发送到节点。
 * 此外，在广播之后不应修改对象 `v`，以确保所有节点获得相同的广播变量的值（例如，如果稍后将变量发送到新节点）。
 *
 * @param id 广播变量的唯一标识符。
 * @tparam T 广播变量中包含的数据的类型。
 */
abstract class Broadcast[T: ClassTag](val id: Long) extends Serializable with Logging {

  /**
   * 表示广播变量是否有效（即尚未销毁）的标志。
   */
  @volatile private var _isValid = true

  private var _destroySite = ""

  /** 获取广播变量的值。 */
  def value: T = {
    assertValid()
    getValue()
  }

  /**
   * 异步删除执行器上此广播的缓存副本。
   * 如果在调用此方法后继续使用广播变量，则需要将其重新发送到每个执行器。
   */
  def unpersist(): Unit = {
    unpersist(blocking = false)
  }

  /**
   * 删除执行器上此广播的缓存副本。
   * 如果在调用此方法后继续使用广播变量，则需要将其重新发送到每个执行器。
   * @param blocking 是否阻塞，直到取消持久化完成
   */
  def unpersist(blocking: Boolean): Unit = {
    assertValid()
    doUnpersist(blocking)
  }


  /**
   * 销毁与此广播变量相关的所有数据和元数据。请谨慎使用此方法；一旦销毁了广播变量，就无法再次使用它。
   */
  def destroy(): Unit = {
    destroy(blocking = false)
  }

  /**
   * 销毁与此广播变量相关的所有数据和元数据。请谨慎使用此方法；一旦销毁了广播变量，就无法再次使用它。
   * @param blocking 是否阻塞，直到销毁完成
   */
  private[spark] def destroy(blocking: Boolean): Unit = {
    assertValid()
    _isValid = false
    _destroySite = Utils.getCallSite().shortForm
    logInfo("正在销毁 %s（来自 %s）".format(toString, _destroySite))
    doDestroy(blocking)
  }

  /**
   * 此广播变量是否可用。一旦从驱动程序中删除了持久状态，这个值应该为 false。
   */
  private[spark] def isValid: Boolean = {
    _isValid
  }

  /**
   * 实际获取广播的值。Broadcast 类的具体实现必须定义自己的获取值的方法。
   */
  protected def getValue(): T

  /**
   * 在执行器上异步取消持久化广播的值。Broadcast 类的具体实现必须定义自己的取消持久化逻辑。
   */
  protected def doUnpersist(blocking: Boolean): Unit

  /**
   * 实际销毁与此广播变量相关的所有数据和元数据。Broadcast 类的实现必须定义自己的销毁状态的逻辑。
   */
  protected def doDestroy(blocking: Boolean): Unit

  /** 检查此广播变量是否有效。如果无效，则抛出异常。 */
  protected def assertValid(): Unit = {
    if (!_isValid) {
      throw new SparkException(
        "在销毁后尝试使用 %s（%s）".format(toString, _destroySite))
    }
  }

  override def toString: String = "Broadcast(" + id + ")"
}

实现类TorrentBroadcast

TorrentBroadcast 是使用类似 BitTorrent 协议实现的 Broadcast 的具体实现（目前spark中只有一种实现）。它继承自 Broadcast 类，并提供以下功能：

将对象分成多个块并将这些块存储在驱动程序的块管理器中。
在每个执行器上，首先尝试从其块管理器获取对象。如果不存在，则使用远程获取从驱动程序和/或其他执行器获取小块。获取到块后，将块放入自己的块管理器中，以便其他执行器可以获取。
这样可以防止驱动程序成为发送多个副本的广播数据的瓶颈。
当初始化时，TorrentBroadcast 从 SparkEnv 获取配置。

TorrentBroadcast 包含以下主要成员变量和方法：

_value：在执行器上的广播对象的值。通过调用 readBroadcastBlock 方法从驱动程序和/或其他执行器读取块来重建该值。
compressionCodec：用于压缩的压缩编解码器。
blockSize：每个块的大小，默认为4MB。
isLocalMaster：是否在本地模式下执行。
checksumEnabled：是否生成块的校验和。
writeBlocks(value: T): Int：将对象分成多个块并将这些块存储在块管理器中。
readBlocks(): Array[BlockData]：从驱动程序和/或其他执行器获取 torrent 块。
readBroadcastBlock(): T：读取广播块，重建广播对象的值。
unpersist(id: Long, removeFromDriver: Boolean, blocking: Boolean): Unit：从执行器中移除与指定 ID 相关的所有持久化块。

TorrentBroadcast 通过将广播数据分成小块并使用类似 BitTorrent 的协议进行分布式传输，以提高广播性能和可靠性。它允许在集群中高效地广播大量数据，并减少了驱动程序的负载。

/**
 * 使用类似 BitTorrent 的协议实现的 [[org.apache.spark.broadcast.Broadcast]]。
 *
 * 具体机制如下：
 *
 * 驱动程序将序列化对象分成小块，并将这些块存储在驱动程序的块管理器中。
 *
 * 在每个执行器上，执行器首先尝试从自己的块管理器获取对象。如果不存在，则使用远程获取从驱动程序和/或其他执行器获取小块。获取到块后，将块放入自己的块管理器中，以便其他执行器可以获取。
 *
 * 这样可以防止驱动程序成为发送多个副本的广播数据（每个执行器一个）的瓶颈。
 *
 * 初始化时，TorrentBroadcast 对象会读取 SparkEnv.get.conf。
 *
 * @param obj 要广播的对象
 * @param id 广播变量的唯一标识符
 * @param serializedOnly 如果为 true，则不在驱动程序上缓存未序列化的值
 */
private[spark] class TorrentBroadcast[T: ClassTag](obj: T, id: Long, serializedOnly: Boolean)
  extends Broadcast[T](id) with Logging with Serializable {

  /**
   * 执行器上的广播对象的值。这是通过 [[readBroadcastBlock]] 方法从驱动程序和/或其他执行器读取块来重建的值。
   *
   * 在驱动程序上，如果需要该值，则会从块管理器中进行延迟读取。我们使用软引用来进行持有，以便在需要时可以进行垃圾回收，因为我们始终可以在将来重建。对于 `serializedOnly = true` 的内部广播变量，我们使用弱引用来更积极地回收值。
   */
  @transient private var _value: Reference[T] = _

  /** 压缩编解码器的选择，如果禁用压缩则为 None */
  @transient private var compressionCodec: Option[CompressionCodec] = _
  /** 每个块的大小，默认值为4MB。只有广播器会读取这个值。 */
  @transient private var blockSize: Int = _
  /** 是否处于本地模式 */
  @transient private var isLocalMaster: Boolean = _

  /** 是否生成块的校验和 */
  private var checksumEnabled: Boolean = false

  private def setConf(conf: SparkConf): Unit = {
    compressionCodec = if (conf.get(config.BROADCAST_COMPRESS)) {
      Some(CompressionCodec.createCodec(conf))
    } else {
      None
    }
    // 注意：使用 getSizeAsKb（而不是 bytes）来保持兼容性（如果未提供单位）
    blockSize = conf.get(config.BROADCAST_BLOCKSIZE).toInt * 1024
    checksumEnabled = conf.get(config.BROADCAST_CHECKSUM)
    isLocalMaster = Utils.isLocalMaster(conf)
  }
  setConf(SparkEnv.get.conf)

  private val broadcastId = BroadcastBlockId(id)

  /** 广播变量包含的块总数 */
  private val numBlocks: Int = writeBlocks(obj)

  /** 所有块的校验和 */
  private var checksums: Array[Int] = _

  override protected def getValue() = synchronized {
    val memoized: T = if (_value == null) null.asInstanceOf[T] else _value.get
    if (memoized != null) {
      memoized
    } else {
      val newlyRead = readBroadcastBlock()
      _value = if (serializedOnly) {
        new WeakReference[T](newlyRead)
      } else {
        new SoftReference[T](newlyRead)
      }
      newlyRead
    }
  }

  private def calcChecksum(block: ByteBuffer): Int = {
    val adler = new Adler32()
    if (block.hasArray) {
      adler.update(block.array, block.arrayOffset + block.position(), block.limit()
        - block.position())
    } else {
      val bytes = new Array[Byte](block.remaining())
      block.duplicate.get(bytes)
      adler.update(bytes)
    }
    adler.getValue.toInt
  }

  /**
   * 将对象分成多个块并将这些块放入块管理器中。
   *
   * @param value 要分割的对象
   * @return 广播变量被分割成的块数
   */
  private def writeBlocks(value: T): Int = {
    import StorageLevel._
    val blockManager = SparkEnv.get.blockManager
    if (serializedOnly && !isLocalMaster) {
      // SPARK-39983：在创建内部广播变量（如哈希关系广播）时，不要将广播值存储在驱动程序的块管理器中：
      // 我们不期望在驱动程序上读取内部广播变量的值，因此跳过存储可以减少驱动程序的内存压力，
      // 因为我们不会添加一个长期存在的对广播对象的引用。但是，这个优化不能应用于本地模式（因为任务可能在驱动程序上运行）。
      // 为了防止在驱动程序上访问内部广播变量时性能退化，我们使用弱引用来保存广播值：
      _value = new WeakReference[T](value)
    } else {
      // 在驱动程序中存储广播变量的副本，以便在驱动程序上运行的任务不会创建广播变量值的重复副本。
      if (!blockManager.putSingle(broadcastId, value, MEMORY_AND_DISK, tellMaster = false)) {
        throw new SparkException(s"Failed to store $broadcastId in BlockManager")
      }
    }
    try {
      val blocks =
        TorrentBroadcast.blockifyObject(value, blockSize, SparkEnv.get.serializer, compressionCodec)
      if (checksumEnabled) {
        checksums = new Array[Int](blocks.length)
      }
      blocks.zipWithIndex.foreach { case (block, i) =>
        if (checksumEnabled) {
          checksums(i) = calcChecksum(block)
        }
        val pieceId = BroadcastBlockId(id, "piece" + i)
        val bytes = new ChunkedByteBuffer(block.duplicate())
        if (!blockManager.putBytes(pieceId, bytes, MEMORY_AND_DISK_SER, tellMaster = true)) {
          throw new SparkException(s"Failed to store $pieceId of $broadcastId " +
            s"in local BlockManager")
        }
      }
      blocks.length
    } catch {
      case t: Throwable =>
        logError(s"Store broadcast $broadcastId fail, remove all pieces of the broadcast")
        blockManager.removeBroadcast(id, tellMaster = true)
        throw t
    }
  }

  /** 从驱动程序和/或其他执行器获取 torrent 块。 */
  private def readBlocks(): Array[BlockData] = {
    // 获取数据块的片段。注意，所有这些片段都存储在块管理器中并报告给驱动程序，
    // 因此其他执行器也可以从该执行器中提取这些片段。
    val blocks = new Array[BlockData](numBlocks)
    val bm = SparkEnv.get.blockManager

    for (pid <- Random.shuffle(Seq.range(0, numBlocks))) {
      val pieceId = BroadcastBlockId(id, "piece" + pid)
      logDebug(s"Reading piece $pieceId of $broadcastId")
      // 首先尝试使用 getLocalBytes，因为先前获取广播块的尝试可能已经获取了一些块。
      // 在这种情况下，一些块会在本地（在该执行器上）可用。
      bm.getLocalBytes(pieceId) match {
        case Some(block) =>
          blocks(pid) = block
          releaseBlockManagerLock(pieceId)
        case None =>
          bm.getRemoteBytes(pieceId) match {
            case Some(b) =>
              if (checksumEnabled) {
                val sum = calcChecksum(b.chunks(0))
                if (sum != checksums(pid)) {
                  throw new SparkException(s"corrupt remote block $pieceId of $broadcastId:" +
                    s" $sum != ${checksums(pid)}")
                }
              }
              // 从远程执行器/驱动程序的块管理器中找到了块，因此将该块放入此执行器的块管理器中。
              if (!bm.putBytes(pieceId, b, StorageLevel.MEMORY_AND_DISK_SER, tellMaster = true)) {
                throw new SparkException(
                  s"Failed to store $pieceId of $broadcastId in local BlockManager")
              }
              blocks(pid) = new ByteBufferBlockData(b, true)
            case None =>
              throw new SparkException(s"Failed to get $pieceId of $broadcastId")
          }
      }
    }
    blocks
  }

  /**
   * 在执行器上移除与此 Torrent 广播相关联的所有持久状态。
   */
  override protected def doUnpersist(blocking: Boolean): Unit = {
    TorrentBroadcast.unpersist(id, removeFromDriver = false, blocking)
  }

  /**
   * 在执行器和驱动程序上移除与此 Torrent 广播相关联的所有持久状态。
   */
  override protected def doDestroy(blocking: Boolean): Unit = {
    TorrentBroadcast.unpersist(id, removeFromDriver = true, blocking)
  }

  /** JVM 在序列化此对象时使用。 */
  private def writeObject(out: ObjectOutputStream): Unit = Utils.tryOrIOException {
    assertValid()
    out.defaultWriteObject()
  }

  private def readBroadcastBlock(): T = Utils.tryOrIOException {
    TorrentBroadcast.torrentBroadcastLock.withLock(broadcastId) {
      // 因为我们只是基于 `broadcastId` 锁定，所以在使用 `broadcastCache` 时，
      // 我们应该只涉及 `broadcastId`。
      val broadcastCache = SparkEnv.get.broadcastManager.cachedValues

      Option(broadcastCache.get(broadcastId)).map(_.asInstanceOf[T]).getOrElse {
        setConf(SparkEnv.get.conf)
        val blockManager = SparkEnv.get.blockManager
        blockManager.getLocalValues(broadcastId) match {
          case Some(blockResult) =>
            if (blockResult.data.hasNext) {
              val x = blockResult.data.next().asInstanceOf[T]
              releaseBlockManagerLock(broadcastId)

              if (x != null) {
                broadcastCache.put(broadcastId, x)
              }

              x
            } else {
              throw new SparkException(s"Failed to get locally stored broadcast data: $broadcastId")
            }
          case None =>
            val estimatedTotalSize = Utils.bytesToString(numBlocks.toLong * blockSize)
            logInfo(s"Started reading broadcast variable $id with $numBlocks pieces " +
              s"(estimated total size $estimatedTotalSize)")
            val startTimeNs = System.nanoTime()
            val blocks = readBlocks()
            logInfo(s"Reading broadcast variable $id took ${Utils.getUsedTimeNs(startTimeNs)}")

            try {
              val obj = TorrentBroadcast.unBlockifyObject[T](
                blocks.map(_.toInputStream()), SparkEnv.get.serializer, compressionCodec)

              if (!serializedOnly || isLocalMaster || Utils.isInRunningSparkTask) {
                // 将合并后的副本存储在块管理器中，以便此执行器上的其他任务无需重新获取它。
                val storageLevel = StorageLevel.MEMORY_AND_DISK
                if (!blockManager.putSingle(broadcastId, obj, storageLevel, tellMaster = false)) {
                  throw new SparkException(s"Failed to store $broadcastId in BlockManager")
                }
              }

              if (obj != null) {
                broadcastCache.put(broadcastId, obj)
              }

              obj
            } finally {
              blocks.foreach(_.dispose())
            }
        }
      }
    }
  }

  /**
   * 如果正在运行任务，则注册给定块的锁以在任务完成时释放。否则，如果不在运行任务中，则立即释放锁。
   */
  private def releaseBlockManagerLock(blockId: BlockId): Unit = {
    val blockManager = SparkEnv.get.blockManager
    Option(TaskContext.get()) match {
      case Some(taskContext) =>
        taskContext.addTaskCompletionListener[Unit](_ => blockManager.releaseLock(blockId))
      case None =>
        // 这只会发生在驱动程序上，在驱动程序上可能会在没有运行任务的情况下访问广播变量
        // （例如在计算 rdd.partitions() 时）。为了允许广播变量进行垃圾回收，我们需要在这里释放引用，
        // 这略微存在一些风险，但从技术上来说是可以的，因为广播变量不存储在堆外内存中。
        blockManager.releaseLock(blockId)
    }
  }

  // 是否缓存了未序列化的值。用于测试。
  private[spark] def hasCachedValue: Boolean = {
    TorrentBroadcast.torrentBroadcastLock.withLock(broadcastId) {
      setConf(SparkEnv.get.conf)
      val blockManager = SparkEnv.get.blockManager
      blockManager.getLocalValues(broadcastId) match {
        case Some(blockResult) if (blockResult.data.hasNext) =>
          val x = blockResult.data.next().asInstanceOf[T]
          releaseBlockManagerLock(broadcastId)
          x != null
        case _ => false
      }
    }
  }
}


private object TorrentBroadcast extends Logging {

  /**
   * 一个 [[KeyLock]]，其键是 [[BroadcastBlockId]]，以确保只有一个线程获取相同的 [[TorrentBroadcast]] 块。
   */
  private val torrentBroadcastLock = new KeyLock[BroadcastBlockId]

  def blockifyObject[T: ClassTag](
      obj: T,
      blockSize: Int,
      serializer: Serializer,
      compressionCodec: Option[CompressionCodec]): Array[ByteBuffer] = {
    val cbbos = new ChunkedByteBufferOutputStream(blockSize, ByteBuffer.allocate)
    val out = compressionCodec.map(c => c.compressedOutputStream(cbbos)).getOrElse(cbbos)
    val ser = serializer.newInstance()
    val serOut = ser.serializeStream(out)
    Utils.tryWithSafeFinally {
      serOut.writeObject[T](obj)
    } {
      serOut.close()
    }
    cbbos.toChunkedByteBuffer.getChunks()
  }

  def unBlockifyObject[T: ClassTag](
      blocks: Array[InputStream],
      serializer: Serializer,
      compressionCodec: Option[CompressionCodec]): T = {
    require(blocks.nonEmpty, "Cannot unblockify an empty array of blocks")
    val is = new SequenceInputStream(blocks.iterator.asJavaEnumeration)
    val in: InputStream = compressionCodec.map(c => c.compressedInputStream(is)).getOrElse(is)
    val ser = serializer.newInstance()
    val serIn = ser.deserializeStream(in)
    val obj = Utils.tryWithSafeFinally {
      serIn.readObject[T]()
    } {
      serIn.close()
    }
    obj
  }

  /**
   * 移除与此 torrent 广播相关联的所有持久化块。
   * 如果 removeFromDriver 为 true，则还会在驱动程序上移除这些持久化块。
   */
  def unpersist(id: Long, removeFromDriver: Boolean, blocking: Boolean): Unit = {
    logDebug(s"Unpersisting TorrentBroadcast $id")
    SparkEnv.get.blockManager.master.removeBroadcast(id, removeFromDriver, blocking)
  }
}

内部版本广播方法broadcastInternal

该方法是spark内部版本的广播 - 将只读变量广播到集群，变量将仅发送一次到每个执行器。该方法中使用了broadcastManager对象中的newBroadcast创建广播变量

/**
 * 内部版本的广播 - 将只读变量广播到集群，返回一个 [[org.apache.spark.broadcast.Broadcast]] 对象以在分布式函数中进行读取。
 * 变量将仅发送一次到每个执行器。
 *
 * @param value 要广播到 Spark 节点的值
 * @param serializedOnly 如果为 true，则不会在驱动程序上缓存未序列化的值
 * @return `Broadcast` 对象，一个在每台机器上缓存的只读变量
 */
private[spark] def broadcastInternal[T: ClassTag](
    value: T,
    serializedOnly: Boolean): Broadcast[T] = {
  assertNotStopped()
  require(!classOf[RDD[_]].isAssignableFrom(classTag[T].runtimeClass),
    "Can not directly broadcast RDDs; instead, call collect() and broadcast the result.")
  val bc = env.broadcastManager.newBroadcast[T](value, isLocal, serializedOnly)
  val callSite = getCallSite
  logInfo("Created broadcast " + bc.id + " from " + callSite.shortForm)
  cleaner.foreach(_.registerBroadcastForCleanup(bc))
  bc
}

broadcastManager初始化和创建广播对象

private[spark] class BroadcastManager(
    val isDriver: Boolean, conf: SparkConf) extends Logging {

  private var initialized = false
  private var broadcastFactory: BroadcastFactory = null

  initialize()

  // 在使用 Broadcast 之前由 SparkContext 或 Executor 调用
  private def initialize(): Unit = {
    synchronized {
      if (!initialized) {
        broadcastFactory = new TorrentBroadcastFactory
        broadcastFactory.initialize(isDriver, conf)
        initialized = true
      }
    }
  }   

  /**
   * 创建新的广播变量。
   *
   * @param value_ 要广播的值
   * @param isLocal 如果为 true，则广播将被限制在本地节点上
   * @param serializedOnly 如果为 true，则不会在驱动程序上缓存未序列化的值
   * @return 广播变量对象
   */
  def newBroadcast[T: ClassTag](
      value_ : T,
      isLocal: Boolean,
      serializedOnly: Boolean = false): Broadcast[T] = {
    val bid = nextBroadcastId.getAndIncrement()
    value_ match {
      case pb: PythonBroadcast =>
        // SPARK-28486: 将新广播变量的 id 附加到 PythonBroadcast 上，
        // 以便 PythonBroadcast 的底层数据文件可以根据此 id 映射到 BroadcastBlockId。
        // 请参阅 PythonBroadcast.readObject() 中对 id 的具体使用方式。
        pb.setBroadcastId(bid)

      case _ => // do nothing
    }
    broadcastFactory.newBroadcast[T](value_, isLocal, bid, serializedOnly)
  }   
}

初始化

**BroadcastManager构造函数会调用自身的initialize方法，创建一个TorrentBroadcastFactory实例.**对象在实例化时，会自动调用自身的writeBlocks，把数据写入blockManager：

使用了实现了BroadcastFactory接口的TorrentBroadcastFactory工厂方法。TorrentBroadcastFactory 是一个使用类似 BitTorrent 的协议来进行广播数据分布式传输的广播工厂。

创建广播变量

TorrentBroadcastFactory实例通过调用 newBroadcast() 方法创建新的 TorrentBroadcast对象即广播变量。可以参考上文实现类

源码拓展

BroadcastManager对象

BroadcastManager 是 Spark 中负责管理广播变量的类。它包含以下主要功能：

初始化广播工厂：在第一次使用广播变量之前，会调用 initialize() 方法初始化广播工厂。
停止广播管理器：通过调用 stop() 方法停止广播管理器，释放相关资源。
创建新的广播变量：通过调用 newBroadcast() 方法创建新的广播变量。该方法接受要广播的值、是否限制在本地节点上以及是否只序列化等参数，并返回一个广播变量对象。
解除广播变量的广播：通过调用 unbroadcast() 方法解除已广播的广播变量。该方法接受广播变量的 ID、是否从驱动程序中删除以及是否阻塞等参数，并执行相应操作。

此外，BroadcastManager 还包含了一些内部变量，如下：

initialized：指示广播管理器是否已初始化的标志。
broadcastFactory：广播工厂对象，负责实际的广播操作。
nextBroadcastId：用于生成下一个广播变量的 ID 的原子长整型。
cachedValues：用于缓存已广播的值的映射。

总而言之，BroadcastManager 提供了广播变量的管理和操作功能，确保广播变量能够在集群中高效地分发和访问。

private[spark] class BroadcastManager(
    val isDriver: Boolean, conf: SparkConf) extends Logging {

  private var initialized = false
  private var broadcastFactory: BroadcastFactory = null

  initialize()

  // 在使用 Broadcast 之前由 SparkContext 或 Executor 调用
  private def initialize(): Unit = {
    synchronized {
      if (!initialized) {
        broadcastFactory = new TorrentBroadcastFactory
        broadcastFactory.initialize(isDriver, conf)
        initialized = true
      }
    }
  }

  /**
   * 停止 BroadcastManager，释放资源。
   */
  def stop(): Unit = {
    broadcastFactory.stop()
  }

  private val nextBroadcastId = new AtomicLong(0)

  /**
   * 缓存已广播的值。
   */
  private[broadcast] val cachedValues =
    Collections.synchronizedMap(
      new ReferenceMap(ReferenceStrength.HARD, ReferenceStrength.WEAK)
        .asInstanceOf[java.util.Map[Any, Any]]
    )

  /**
   * 创建新的广播变量。
   *
   * @param value_ 要广播的值
   * @param isLocal 如果为 true，则广播将被限制在本地节点上
   * @param serializedOnly 如果为 true，则不会在驱动程序上缓存未序列化的值
   * @return 广播变量对象
   */
  def newBroadcast[T: ClassTag](
      value_ : T,
      isLocal: Boolean,
      serializedOnly: Boolean = false): Broadcast[T] = {
    val bid = nextBroadcastId.getAndIncrement()
    value_ match {
      case pb: PythonBroadcast =>
        // SPARK-28486: 将新广播变量的 id 附加到 PythonBroadcast 上，
        // 以便 PythonBroadcast 的底层数据文件可以根据此 id 映射到 BroadcastBlockId。
        // 请参阅 PythonBroadcast.readObject() 中对 id 的具体使用方式。
        pb.setBroadcastId(bid)

      case _ => // do nothing
    }
    broadcastFactory.newBroadcast[T](value_, isLocal, bid, serializedOnly)
  }

  /**
   * 解除广播变量的广播。
   *
   * @param id 广播变量的 id
   * @param removeFromDriver 如果为 true，则从驱动程序中删除广播变量
   * @param blocking 如果为 true，则阻塞直到解除广播完成
   */
  def unbroadcast(id: Long, removeFromDriver: Boolean, blocking: Boolean): Unit = {
    broadcastFactory.unbroadcast(id, removeFromDriver, blocking)
  }
}

BroadcastFactory接口

BroadcastFactory 是 Spark 中所有广播实现的接口，用于允许多个广播实现。它定义了以下方法：

initialize(isDriver: Boolean, conf: SparkConf): Unit：初始化广播工厂。
newBroadcast[T: ClassTag](value: T, isLocal: Boolean, id: Long, serializedOnly: Boolean = false): Broadcast[T]：创建新的广播变量。
unbroadcast(id: Long, removeFromDriver: Boolean, blocking: Boolean): Unit：解除广播变量的广播。
stop(): Unit：停止广播工厂，释放资源。

通过实现 BroadcastFactory 接口，可以自定义广播实现，并在 SparkContext 中使用相应的广播工厂来实例化广播变量。

/**
 * Spark 中所有广播实现的接口（允许多个广播实现）。
 * SparkContext 使用 BroadcastFactory 实现来为整个 Spark 作业实例化特定的广播。
 */
private[spark] trait BroadcastFactory {

  /**
   * 初始化广播工厂。
   *
   * @param isDriver 是否为驱动程序节点
   * @param conf Spark 配置
   */
  def initialize(isDriver: Boolean, conf: SparkConf): Unit

  /**
   * 创建新的广播变量。
   *
   * @param value 要广播的值
   * @param isLocal 是否处于本地模式（单个 JVM 进程）
   * @param id 表示此广播变量的唯一 ID
   * @param serializedOnly 如果为 true，则不会在驱动程序上缓存未序列化的值
   * @return `Broadcast` 对象，一个在每台机器上缓存的只读变量
   */
  def newBroadcast[T: ClassTag](
      value: T,
      isLocal: Boolean,
      id: Long,
      serializedOnly: Boolean = false): Broadcast[T]

  /**
   * 解除广播变量的广播。
   *
   * @param id 广播变量的 ID
   * @param removeFromDriver 如果为 true，则从驱动程序中删除广播变量
   * @param blocking 如果为 true，则阻塞直到解除广播完成
   */
  def unbroadcast(id: Long, removeFromDriver: Boolean, blocking: Boolean): Unit

  /**
   * 停止广播工厂，释放资源。
   */
  def stop(): Unit
}

TorrentBroadcastFactory

TorrentBroadcastFactory 是一个使用类似 BitTorrent 的协议来进行广播数据分布式传输的广播工厂。它实现了 BroadcastFactory 接口，并提供以下功能：

创建新的 TorrentBroadcast 广播变量：通过调用 newBroadcast() 方法创建新的 TorrentBroadcast 广播变量。
停止广播工厂：通过调用 stop() 方法停止广播工厂，释放相关资源。
解除广播变量的广播：通过调用 unbroadcast() 方法解除已广播的广播变量。

TorrentBroadcastFactory 主要用于支持使用 BitTorrent-like 协议进行分布式传输的广播操作，以提高广播数据在集群中的传输效率和可靠性。

/**
 * 使用类似 BitTorrent 的协议来进行广播数据的分布式传输的 [[org.apache.spark.broadcast.Broadcast]] 实现。
 * 有关详细信息，请参见 [[org.apache.spark.broadcast.TorrentBroadcast]]。
 */
private[spark] class TorrentBroadcastFactory extends BroadcastFactory {

  override def initialize(isDriver: Boolean, conf: SparkConf): Unit = { }

  /**
   * 创建新的 TorrentBroadcast 广播变量。
   *
   * @param value_ 要广播的值
   * @param isLocal 是否处于本地模式（单个 JVM 进程）
   * @param id 表示此广播变量的唯一 ID
   * @param serializedOnly 如果为 true，则不会在驱动程序上缓存未序列化的值
   * @return TorrentBroadcast 对象，一个在每台机器上缓存的只读变量
   */
  override def newBroadcast[T: ClassTag](
      value_ : T,
      isLocal: Boolean,
      id: Long,
      serializedOnly: Boolean = false): Broadcast[T] = {
    new TorrentBroadcast[T](value_, id, serializedOnly)
  }

  override def stop(): Unit = { }

  /**
   * 移除与给定 ID 的 torrent 广播相关联的所有持久状态。
   * @param removeFromDriver 是否从驱动程序中删除状态
   * @param blocking 是否阻塞直到解除广播完成
   */
  override def unbroadcast(id: Long, removeFromDriver: Boolean, blocking: Boolean): Unit = {
    TorrentBroadcast.unpersist(id, removeFromDriver, blocking)
  }
}

BitTorrent 协议

BitTorrent 是一种流行的文件分享协议，它使用了一种名为 “块链” 的技术。块链技术通常用于比特币等加密货币，但在 BitTorrent 中，它用于分发大型文件。

BitTorrent 的工作原理

初始化: 当一个用户想要下载一个文件时，他首先创建一个 “种子” 文件，这个文件包含该文件的所有块的哈希列表。
查找: 下载者使用 BitTorrent 客户端软件查找其他下载者，并请求他们分享文件块。
交换: 下载者与其他下载者交换文件块。每个下载者不仅下载文件，还同时通过上传已下载的块来帮助其他下载者。
完整性: 每个块都有一个哈希值，用于验证块的完整性。如果某个块的哈希值不匹配，则该块被认为是无效的，需要重新下载。

块链技术

BitTorrent 使用块链来确保每个块的完整性。每个块都包含前一个块的哈希值，这使得整个文件的所有块形成了一个链。如果某个块被修改或损坏，它的哈希值将不再匹配，BitTorrent 客户端将自动从其他下载者那里请求一个新的块。

安全性

BitTorrent 协议不使用加密，这意味着在交换文件块时，你的数据可能被第三方监听。为了提高安全性，你可以使用一个加密的 BitTorrent 客户端，如 BitTorrent Secure。

总结

BitTorrent 协议是一种高效的文件分享协议，它使用块链技术来保证文件块的完整性和安全性。然而，由于其不加密的特点，它可能不适合传输敏感信息。

参考链接

你可能感兴趣的:(大数据,spark,spark,大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情