AlanHand

11.CacheManager源码分析

先来张原理图:

从rdd的iterator方法开始 , 因为在读取rdd的数据时是从iterator方法开始迭代数据的:

     
     
     
     
      
      
      
      /**
      
      
      
       * Internal method to this RDD; will read from cache if applicable, or otherwise compute it.
      
      
      
       * This should ''not'' be called by users directly, but is available for implementors of custom
      
      
      
       * subclasses of RDD.
      
      
      
       * 
      
      
      
       * RDD的迭代方法 , 获取RDD中的数据
      
      
      
       */
      
      
      
       final def iterator(split: Partition, context: TaskContext): Iterator[T] = {
      
      
      
       // 如果StorageLevel不为NONE , 表示之前持久化过RDD那么就不直接去从父RDD执行算子计算新的RDD的partition
      
      
      
       // 优先尝试使用CacheManager去获取持久化的数据
      
      
      
       if (storageLevel != StorageLevel.NONE) {
      
      
      
       // CacheManager
      
      
      
       SparkEnv.get.cacheManager.getOrCompute(this, split, context, storageLevel)
      
      
      
       } else {
      
      
      
       computeOrReadCheckpoint(split, context)
      
      
      
       }
      
      
      
       }

1. 首先深入Cachemanager的getOrCompute方法 , 源码如下:

     
     
     
     
      
      
      
      def getOrCompute[T](
      
      
      
       rdd: RDD[T],
      
      
      
       partition: Partition,
      
      
      
       context: TaskContext,
      
      
      
       storageLevel: StorageLevel): Iterator[T] = {
      
      
      
      
      
      
      
       val key = RDDBlockId(rdd.id, partition.index)
      
      
      
       logDebug(s"Looking for partition $key")
      
      
      
       
      
      
      
       // 直接用BlockManager来获取数据 , 如果获取到了那就直接返回就好了
      
      
      
       blockManager.get(key) match {
      
      
      
       case Some(blockResult) =>
      
      
      
       // Partition is already materialized, so just return its values
      
      
      
       val inputMetrics = blockResult.inputMetrics
      
      
      
       val existingMetrics = context.taskMetrics
      
      
      
       .getInputMetricsForReadMethod(inputMetrics.readMethod)
      
      
      
       existingMetrics.incBytesRead(inputMetrics.bytesRead)
      
      
      
      
      
      
      
       val iter = blockResult.data.asInstanceOf[Iterator[T]]
      
      
      
       new InterruptibleIterator[T](context, iter) {
      
      
      
       override def next(): T = {
      
      
      
       existingMetrics.incRecordsRead(1)
      
      
      
       delegate.next()
      
      
      
       }
      
      
      
       }
      
      
      
       // 如果BlockManager没有获取到数据 , 虽然rdd持久化过但是因为未知的原因数据既不在本地内存或磁盘也不再远程的BlockManager上
      
      
      
       // 那么需要做后续的处理
      
      
      
       case None =>
      
      
      
       
      
      
      
       // 再次尝试一次BlockManager的get方法去获取数据 , 如果获取到了就直接返回数据若是没有获取到继续往后走 
      
      
      
       val storedValues = acquireLockForPartition[T](key)
      
      
      
       if (storedValues.isDefined) {
      
      
      
       return new InterruptibleIterator[T](context, storedValues.get)
      
      
      
       }
      
      
      
      
      
      
      
       // Otherwise, we have to load the partition ourselves
      
      
      
       try {
      
      
      
       logInfo(s"Partition $key not found, computing it")
      
      
      
       // 如果computeOrReadCheckpoint()方法 , 如果rdd之前checkPoint过 , 那么就尝试读取它的checkpoint
      
      
      
       // 但是如果rdd没有checkpoint过 , 那么此时就别无选择 , 只能重新使用父rdd的数据执行算子计算一份
      
      
      
       val computedValues = rdd.computeOrReadCheckpoint(partition, context)
      
      
      
      
      
      
      
       // If the task is running locally, do not persist the result
      
      
      
       if (context.isRunningLocally) {
      
      
      
       return computedValues
      
      
      
       }
      
      
      
      
      
      
      
       // Otherwise, cache the values and keep track of any updates in block statuses
      
      
      
       
      
      
      
       val updatedBlocks = new ArrayBuffer[(BlockId, BlockStatus)]
      
      
      
       
      
      
      
       // 由于走CacheManager肯定意味着rdd是设置过持久化级别的
      
      
      
       // 只是因为某些原因持久化的数据没有找到那么才会走到这里来
      
      
      
       // 所以读取了checkpoint数据或者是重新计算数据之后要用putInBlockManager方法将数据在BlockManager中持久化一份
      
      
      
       val cachedValues = putInBlockManager(key, computedValues, storageLevel, updatedBlocks)
      
      
      
       val metrics = context.taskMetrics
      
      
      
       val lastUpdatedBlocks = metrics.updatedBlocks.getOrElse(Seq[(BlockId, BlockStatus)]())
      
      
      
       metrics.updatedBlocks = Some(lastUpdatedBlocks ++ updatedBlocks.toSeq)
      
      
      
       new InterruptibleIterator(context, cachedValues)
      
      
      
      
      
      
      
       } finally {
      
      
      
       loading.synchronized {
      
      
      
       loading.remove(key)
      
      
      
       loading.notifyAll()
      
      
      
       }
      
      
      
       }
      
      
      
       }
      
      
      
       }

上面的代码就是说一步一步往持久化级别更低的方式去获取数据 , 先内存在磁盘 , 最后若是走到了putInBlockManager方法那就表示这一份数据是经过父RDD重新计算得来,

那么本身这份数据是设置过持久化级别的但是就是在通过CacheManager获取数据时失败那么就需要再一次将这份数据持久化 , putInBlockManager方法源码如下:

     
     
     
     
      
      
      
      private def putInBlockManager[T](
      
      
      
       key: BlockId,
      
      
      
       values: Iterator[T],
      
      
      
       level: StorageLevel,
      
      
      
       updatedBlocks: ArrayBuffer[(BlockId, BlockStatus)],
      
      
      
       effectiveStorageLevel: Option[StorageLevel] = None): Iterator[T] = {
      
      
      
      
      
      
      
       val putLevel = effectiveStorageLevel.getOrElse(level)
      
      
      
       
      
      
      
       // 如果持久化级别没有指定内存级别仅仅是纯磁盘的级别
      
      
      
       if (!putLevel.useMemory) {
      
      
      
       /*
      
      
      
       * This RDD is not to be cached in memory, so we can just pass the computed values as an
      
      
      
       * iterator directly to the BlockManager rather than first fully unrolling it in memory.
      
      
      
       */
      
      
      
       updatedBlocks ++=
      
      
      
       // 那么直接调用BlockManager的putIterator()方法将数据写入磁盘即可
      
      
      
       blockManager.putIterator(key, values, level, tellMaster = true, effectiveStorageLevel)
      
      
      
       blockManager.get(key) match {
      
      
      
       case Some(v) => v.data.asInstanceOf[Iterator[T]]
      
      
      
       case None =>
      
      
      
       logInfo(s"Failure to store $key")
      
      
      
       throw new BlockException(key, s"Block manager failed to return cached value for $key!")
      
      
      
       }
      
      
      
       // 如果指定了内存存储级别
      
      
      
       } else {
      
      
      
       /*
      
      
      
       * This RDD is to be cached in memory. In this case we cannot pass the computed values
      
      
      
       * to the BlockManager as an iterator and expect to read it back later. This is because
      
      
      
       * we may end up dropping a partition from memory store before getting it back.
      
      
      
       *
      
      
      
       * In addition, we must be careful to not unroll the entire partition in memory at once.
      
      
      
       * Otherwise, we may cause an OOM exception if the JVM does not have enough space for this
      
      
      
       * single partition. Instead, we unroll the values cautiously, potentially aborting and
      
      
      
       * dropping the partition to disk if applicable.
      
      
      
       */
      
      
      
       
      
      
      
       // 这里会调用MemoryStore的unrollSafely()方法尝试将数据写入内存
      
      
      
       // 如果unrollSafely()方法判断数据可以写入内存那么写入 , 反之则只能写入文件
      
      
      
       blockManager.memoryStore.unrollSafely(key, values, updatedBlocks) match {
      
      
      
       case Left(arr) =>
      
      
      
       // We have successfully unrolled the entire partition, so cache it in memory
      
      
      
       updatedBlocks ++=
      
      
      
       blockManager.putArray(key, arr, level, tellMaster = true, effectiveStorageLevel)
      
      
      
       arr.iterator.asInstanceOf[Iterator[T]]
      
      
      
       case Right(it) =>
      
      
      
       // There is not enough space to cache this partition in memory
      
      
      
       val returnValues = it.asInstanceOf[Iterator[T]]
      
      
      
       // 如果有些数据是在无法写入内存那么就判断数据是否有磁盘级别 , 有的话就写入磁盘
      
      
      
       if (putLevel.useDisk) {
      
      
      
       logWarning(s"Persisting partition $key to disk instead.")
      
      
      
       val diskOnlyLevel = StorageLevel(useDisk = true, useMemory = false,
      
      
      
       useOffHeap = false, deserialized = false, putLevel.replication)
      
      
      
       putInBlockManager[T](key, returnValues, level, updatedBlocks, Some(diskOnlyLevel))
      
      
      
       } else {
      
      
      
       returnValues
      
      
      
       }
      
      
      
       }
      
      
      
       }
      
      
      
       }

在深入到unrollSafely()方法尝试将数据写入内存 :

      
      
      
      
       
       
       
       def unrollSafely(
       
       
       
        blockId: BlockId,
       
       
       
        values: Iterator[Any],
       
       
       
        droppedBlocks: ArrayBuffer[(BlockId, BlockStatus)])
       
       
       
        : Either[Array[Any], Iterator[Any]] = {
       
       
       
       
       
       
       
        // Number of elements unrolled so far
       
       
       
        var elementsUnrolled = 0
       
       
       
        // Whether there is still enough memory for us to continue unrolling this block
       
       
       
        var keepUnrolling = true
       
       
       
        // Initial per-thread memory to request for unrolling blocks (bytes). Exposed for testing.
       
       
       
        val initialMemoryThreshold = unrollMemoryThreshold
       
       
       
        // How often to check whether we need to request more memory
       
       
       
        val memoryCheckPeriod = 16
       
       
       
        // Memory currently reserved by this thread for this particular unrolling operation
       
       
       
        var memoryThreshold = initialMemoryThreshold
       
       
       
        // Memory to request as a multiple of current vector size
       
       
       
        val memoryGrowthFactor = 1.5
       
       
       
        // Previous unroll memory held by this thread, for releasing later (only at the very end)
       
       
       
        val previousMemoryReserved = currentUnrollMemoryForThisThread
       
       
       
        // Underlying vector for unrolling the block
       
       
       
        var vector = new SizeTrackingVector[Any]
       
       
       
       
       
       
       
        // Request enough memory to begin unrolling
       
       
       
        keepUnrolling = reserveUnrollMemoryForThisThread(initialMemoryThreshold)
       
       
       
       
       
       
       
        if (!keepUnrolling) {
       
       
       
        logWarning(s"Failed to reserve initial memory threshold of " +
       
       
       
        s"${Utils.bytesToString(initialMemoryThreshold)} for computing block $blockId in memory.")
       
       
       
        }
       
       
       
       
       
       
       
        // Unroll this block safely, checking whether we have exceeded our threshold periodically
       
       
       
        try {
       
       
       
        while (values.hasNext && keepUnrolling) {
       
       
       
        vector += values.next()
       
       
       
        if (elementsUnrolled % memoryCheckPeriod == 0) {
       
       
       
        // If our vector's size has exceeded the threshold, request more memory
       
       
       
        val currentSize = vector.estimateSize()
       
       
       
        if (currentSize >= memoryThreshold) {
       
       
       
        val amountToRequest = (currentSize * memoryGrowthFactor - memoryThreshold).toLong
       
       
       
        // Hold the accounting lock, in case another thread concurrently puts a block that
       
       
       
        // takes up the unrolling space we just ensured here
       
       
       
        accountingLock.synchronized {
       
       
       
        if (!reserveUnrollMemoryForThisThread(amountToRequest)) {
       
       
       
        // If the first request is not granted, try again after ensuring free space
       
       
       
        // If there is still not enough space, give up and drop the partition
       
       
       
        val spaceToEnsure = maxUnrollMemory - currentUnrollMemory
       
       
       
        
       
       
       
        // 反复判断只要还有数据需要写入内存并且可以继续尝试写入内存那么就判断内存大小是否够用
       
       
       
        // 如果不够用的话调用ensureFreeSpace()反复尝试清空一些内存空间
       
       
       
        if (spaceToEnsure > 0) {
       
       
       
        val result = ensureFreeSpace(blockId, spaceToEnsure)
       
       
       
        droppedBlocks ++= result.droppedBlocks
       
       
       
        }
       
       
       
        keepUnrolling = reserveUnrollMemoryForThisThread(amountToRequest)
       
       
       
        }
       
       
       
        }
       
       
       
        // New threshold is currentSize * memoryGrowthFactor
       
       
       
        memoryThreshold += amountToRequest
       
       
       
        }
       
       
       
        }
       
       
       
        elementsUnrolled += 1
       
       
       
        }
       
       
       
       
       
       
       
        if (keepUnrolling) {
       
       
       
        // We successfully unrolled the entirety of this block
       
       
       
        Left(vector.toArray)
       
       
       
        } else {
       
       
       
        // We ran out of space while unrolling the values for this block
       
       
       
        logUnrollFailureMessage(blockId, vector.estimateSize())
       
       
       
        Right(vector.iterator ++ values)
       
       
       
        }
       
       
       
       
       
       
       
        } finally {
       
       
       
        // If we return an array, the values returned do not depend on the underlying vector and
       
       
       
        // we can immediately free up space for other threads. Otherwise, if we return an iterator,
       
       
       
        // we release the memory claimed by this thread later on when the task finishes.
       
       
       
        if (keepUnrolling) {
       
       
       
        val amountToRelease = currentUnrollMemoryForThisThread - previousMemoryReserved
       
       
       
        releaseUnrollMemoryForThisThread(amountToRelease)
       
       
       
        }
       
       
       
        }
       
       
       
        }

最后在看看putIterator方法将数据写入磁盘:

      
      
      
      
       
       
       
       def putIterator(
       
       
       
        blockId: BlockId,
       
       
       
        values: Iterator[Any],
       
       
       
        level: StorageLevel,
       
       
       
        tellMaster: Boolean = true,
       
       
       
        effectiveStorageLevel: Option[StorageLevel] = None): Seq[(BlockId, BlockStatus)] = {
       
       
       
        require(values != null, "Values is null")
       
       
       
        doPut(blockId, IteratorValues(values), level, tellMaster, effectiveStorageLevel)
       
       
       
        }

其实还是调用了BlockManager的doPut方法 , doPut方法调用就是上一章节讲到的BlockManager原理咯 , 这里不在分析

以上就是CacheManager的整个过程 , 其实从我们的代码中设置rdd的持久化persist开始 , CacheManager就开始工作 , 将数据持久化 , 当后面在需要用到这个rdd的时候 , 调用rdd的iterator方法开始找寻持久化的rdd对应的那份数据 , 若是没有找到则从父RDD重新计算并再一次进行持久化 ,这就是CacheManager的整个作用 !

你可能感兴趣的:(Java,spark)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟