A221133

Nutch 1.3 源码分析 5 Fetcher流程

1. Fetcher模块的简单介绍

Fetcher这个模块在Nutch中有单独一个包在实现，在org.apache.nutch.fetcher，其中有Fetcher.java, FetcherOutput 和FetcherOutputFormat来组成，看上去很简单，但其中使用到了多线程，多线程的生产者与消费者模型，MapReduce的多路径输出等方法。

下面我们来看一下Fetcher的注释，从中我们可以得到很多有用的信息。
首先，这是一种基于队列的fetcher方法，它使用了一种经典的线程模型，生产者(a-QueueFeeder)与消费者(many-FetcherThread)模型，注意，这里有多个消费者。生产者从Generate产生的fetchlists中分类得到一批FetchItemQueue，每一个FetchItmeQueue都是由一类相同host的FetchItem组成，这些FetchItem是用来描述被抓取的对象。当一个FetchItem从FetchItemQueue中取出后，QueueFeeder这个生产者会不断的向队列中加入新的FetchItem，直到这个队列满了为止或者已经没有fetchlist可读取，当队列中的所有FetchItem都被抓取完成后，所有抓取线程都会退出运行。每一个FetchItemQueue都有一套自己的抓取策略，如最大的并行抓取个数，两次抓取的间隔等，如果当FetcherThread向队列申请一个FetchItem时，FetchItemQueue发现当前的FetchItem没有满足抓取策略，那这里它就会返回null，表达当前FetchItem还没有准备好被抓取。如果这些所有FetchItem都没有准备好被抓取，那这时FetchThread就会进入等待状态，直到条件满足被促发或者是等待超时，它会认为任务已经被挂起，这时FetchThread会自动退出。

2. FetcherOutputFormat的介绍

这个类是用来把FetcherOutput对象切分到不同的Map文件中的，也就是说它会根据对象的类型来判断输出到哪一个文件中，这里用到了一个多文件的输出。
FetcherOutputFormat继承自MapReduce框架的OutputFormat模板，其输出的<key,value>类型为<Text,NutchWritable>。
这里的OutputFormat定义了Map-Reduce任务的输出描述，Map-Reduce框架依赖任务的OutputFormat来做如下二件事情，一是用来验证输出源的可用性，如是否已经建立了相应的目录，数据库是否已经连上;另一件事是提供RecordWriter抽象来对数据进行写出到特定的数据源，一般输出文件定义在FileSystem里面。

FetcherOutputFormat主要是实现了getRecordWriter这个方法，用于得到相应的数据写出对象，我们来分析一下其源代码：

     view plain 
   
 public RecordWriter<Text, NutchWritable> getRecordWriter(final FileSystem fs,  
                                       final JobConf job,  
                                       final String name,  
                                       final Progressable progress) throws IOException {  
     // 定义输出目录  
     Path out = FileOutputFormat.getOutputPath(job);  
     // 定义抓取的输出目录  
     final Path fetch = new Path(new Path(out, CrawlDatum.FETCH_DIR_NAME), name);  
     // 定义抓取内容的输出目录  
     final Path content = new Path(new Path(out, Content.DIR_NAME), name);  
     // 定义数据压缩格式  
     final CompressionType compType = SequenceFileOutputFormat.getOutputCompressionType(job);  
   
   
     // 定义抓取的输出抽象类  
     final MapFile.Writer fetchOut =  
       new MapFile.Writer(job, fs, fetch.toString(), Text.class, CrawlDatum.class,  
           compType, progress);  
       
     // 这里使用了inner class来定义相应的RecordWriter  
     return new RecordWriter<Text, NutchWritable>() {  
         private MapFile.Writer contentOut;  
         private RecordWriter<Text, Parse> parseOut;  
   
   
         {  
             // 这里看如果Fetcher定义了输出内容，就生成相应的Content输出抽象  
           if (Fetcher.isStoringContent(job)) {  
             contentOut = new MapFile.Writer(job, fs, content.toString(),  
                                             Text.class, Content.class,  
                                             compType, progress);  
           }  
             // 如果Fetcher对抓取的内容进行了解析，这里就定义相应的解析输出抽象  
             // 注意这里使用了ParseOutputFormat的getReocrdWriter,主要是解析网页，抽取其外链接  
           if (Fetcher.isParsing(job)) {  
             parseOut = new ParseOutputFormat().getRecordWriter(fs, job, name, progress);  
           }  
         }  
   
   
         public void write(Text key, NutchWritable value)  
           throws IOException {  
   
   
           Writable w = value.get();  
           // 对对象类型进行判断，调用相应的抽象输出，写到不同的文件中去  
           if (w instanceof CrawlDatum)  
             fetchOut.append(key, w);  
           else if (w instanceof Content)  
             contentOut.append(key, w);  
           else if (w instanceof Parse)  
             parseOut.write(key, (Parse)w);  
         }  
   
   
         public void close(Reporter reporter) throws IOException {  
           fetchOut.close();  
           if (contentOut != null) {  
             contentOut.close();  
           }  
           if (parseOut != null) {  
             parseOut.close(reporter);  
           }  
         }  
   
   
       };  

3. 生产者QueueFeeder的介绍

这个类作用是用于生产被抓取的FetchItem对象，把其放入抓取队列中。下来我们来对其源代码进行分析

     view plain 
   
 // 这个类继承自Thread，是用一个单独的线程来做的  
 private static class QueueFeeder extends Thread {  
    private RecordReader<Text, CrawlDatum> reader;  // 这里是InputFormat产生的ReocrdReader，用于读取Generate的产生的数据  
    private FetchItemQueues queues;                 // 这是生产者与消费者所使用的共享队列，这个对列是分层的，分一层对应一个host  
    private int size;                               // 队列的大小  
    private long timelimit = -1;                 // 这是一个过滤机制的策略，用于过滤所有的FetchItem  
      
 // 构造方法  
    public QueueFeeder(RecordReader<Text, CrawlDatum> reader,  
        FetchItemQueues queues, int size) {  
      this.reader = reader;  
      this.queues = queues;  
      this.size = size;  
      this.setDaemon(true);  
      this.setName("QueueFeeder");  
    }  
      
    public void setTimeLimit(long tl) {  
      timelimit = tl;  
    }  
   
   
 // 函数的run方法  
    public void run() {  
      boolean hasMore = true;    // while的循环条件  
      int cnt = 0;  
      int timelimitcount = 0;  
      while (hasMore) {  
       // 这里判断是否设置了这个过滤机制，如果设置了，判断相前时间是否大于这个timelimit，如果大于timelimit，过滤所有的FetchItem  
        if (System.currentTimeMillis() >= timelimit && timelimit != -1) {  
          // enough .. lets' simply  
          // read all the entries from the input without processing them  
          try {  
           // 读出<key,value>对，过滤之  
            Text url = new Text();  
            CrawlDatum datum = new CrawlDatum();  
            hasMore = reader.next(url, datum);  
            timelimitcount++;  
          } catch (IOException e) {  
            LOG.fatal("QueueFeeder error reading input, record " + cnt, e);  
            return;  
          }  
          continue; // 过滤之  
        }  
        int feed = size - queues.getTotalSize();  
     // 判断剩余的队列空间是否为0  
        if (feed <= 0) {  
          // queues are full - spin-wait until they have some free space  
          try {  
           // 休息1秒种  
            Thread.sleep(1000);  
          } catch (Exception e) {};  
          continue;  
        } else {  
          LOG.debug("-feeding " + feed + " input urls ...");  
       // 如果队列还有空间(feed>0)并且recordRedder中还有数据(hasMore)  
          while (feed > 0 && hasMore) {  
            try {  
              Text url = new Text();  
              CrawlDatum datum = new CrawlDatum();  
           // 读出<key,value>  
              hasMore = reader.next(url, datum);  
              if (hasMore) {  // 判断是否成功读出数据  
                queues.addFetchItem(url, datum); // 放入对列，这个队列应该是thread-safe的，下面我们可以看到  
                cnt++;    // 统计总数  
                feed--;   // 剩余队列空间减1  
              }  
            } catch (IOException e) {  
              LOG.fatal("QueueFeeder error reading input, record " + cnt, e);  
              return;  
            }  
          }  
        }  
      }  
      LOG.info("QueueFeeder finished: total " + cnt + " records + hit by time limit :"  
          + timelimitcount);  
    }  
  }  

这个类主要负责向队列中放数据。

4. 下面我们来看一下这个队列是如果工作的

这里的共享对列主要如三个类组成，一个是FetchItem，存储队列中的元素;另一个是FetchItemQueue，用于存储相同host的FetchItem，最后一个是FetchItemQueues,看名字我们就知道，这是用于存储所有的FetchItemQueue的。

4.1 先让我们来看一下FetchItem的结构：

     view plain 
   
 FetchItem =>   
 {  
     queueID:String,     // 用于存储队列的ID号  
     url:Text,           // 用于存储CrawlDatum的url地址  
     u:URL,              //  也是存储url,但是以URL的类型来存储，不过我看了一下，这东东在判断RobotRules的时候用了一下  
     datum:CrawlDatum    // 这是存储抓取对象的一些元数据信息àà  
 }  

下面我们来看一下它的create方法，是用来生成相应的FetchItem的，源代码如下：

     view plain 
   
 //从注释中我们可以看到，队列ID是由protocol+hotname或者是protocol+IP组成的  
 /** Create an item. Queue id will be created based on <code>byIP</code>  
     * argument, either as a protocol + hostname pair, or protocol + IP  
     * address pair.  
     */  
    public static FetchItem create(Text url, CrawlDatum datum, boolean byIP) {  
      String queueID;  
      URL u = null;  
      try {  
        u = new URL(url.toString());    // 得到其URL  
      } catch (Exception e) {  
        LOG.warn("Cannot parse url: " + url, e);  
        return null;  
      }  
   // 得到协议号  
      String proto = u.getProtocol().toLowerCase();  
      String host;  
      if (byIP) {  
       // 如果是基于IP的，那得到其IP地址  
        try {  
          InetAddress addr = InetAddress.getByName(u.getHost());  
          host = addr.getHostAddress();  
        } catch (UnknownHostException e) {  
          // unable to resolve it, so don't fall back to host name  
          LOG.warn("Unable to resolve: " + u.getHost() + ", skipping.");  
          return null;  
        }  
      } else {  
       // 否则得到Hostname  
        host = u.getHost();  
        if (host == null) {  
          LOG.warn("Unknown host for url: " + url + ", skipping.");  
          return null;  
        }  
        hosthost = host.toLowerCase(); // 统一变小写  
      }  
   // 得成相应的队列ID号，放入FetchItemQueue中  
      queueID = proto + "://" + host;  
      return new FetchItem(url, u, datum, queueID);  
    }  

4.2 下面我们来看一下FetchQueue的组成结构

这个类主要是用于收集相同QueueID的FetchItem对象，对正在抓取的FetchItem进行跟踪，使用的是一个inProgress集合，还有计算两次请求的间隔时间，我们来看一下其结构：

     view plain 
   
 FetchQueue =>  
     {  
         // 用于收集相同QueueID的FetchItem, 这里使用的是线程安全的对象  
         List<FetchItem> queue = Collections.synchronizedList(new LinkedList<FetchItem>());  
         // 用于收集正在抓取的FetchItem  
         Set<FetchItem>  inProgress = Collections.synchronizedSet(new HashSet<FetchItem>());  
         // 用于存储下一个FetchItem的抓取时候，如果没有到达这个时间，就返回给FetchThread为null   
         AtomicLong nextFetchTime = new AtomicLong();  
         // 存储抓取的出错次数   
         AtomicInteger exceptionCounter = new AtomicInteger();  
         // 存储FetchItem抓取间隔，这个配置只有当同时抓取最大线程数为1时才有用  
         long crawlDelay;  
         // 存储最小的抓取间隔，这个配置当同时抓取的最大线程数大于1时有用   
         long minCrawlDelay;  
         // 同时抓取的最大线程数   
         int maxThreads;  
         Configuration conf;  
     }  

我们主要还看一下其getFetchItem方法：

     view plain 
   
 public FetchItem getFetchItem() {  
      // 当正在抓取的FetchItem数大于同时抓取的线程数时，返回null,这是一个politness策略  
      // 就是对于同一个网站，不能同时有大于maxThreads个线程在抓取，不然人家网站会认为你是在攻击它  
      if (inProgress.size() >= maxThreads) return null;  
      long now = System.currentTimeMillis();  
   // 计算两个抓取的间隔时间，如果没有到达这个时间，就返回null，这个是保证不会有多个线程同时在抓取一个网站  
      if (nextFetchTime.get() > now) return null;  
      FetchItem it = null;  
   // 判断队列是否为空  
      if (queue.size() == 0) return null;  
      try {  
       // 从准备队列中移除一个FetchItem,把其放到inProcess集合中  
        it = queue.remove(0);  
        inProgress.add(it);  
      } catch (Exception e) {  
        LOG.error("Cannot remove FetchItem from queue or cannot add it to inProgress queue", e);  
      }  
      return it;  
    }  

这里还有一个方法是finishFetchItem,就是当这个FetchItem被抓了完成后，会调用这个方法，这个方法会把这个FetchTime从inProgress集合中删除，然后再更新一下nextFetchTime,nextFetchTime = endTime + (maxThread > 1) ? minCrawlDelay : crawlDelay)

4.3 下面再来看一下FetchItemQueues

这个类主要是用来管理FetchItemQueue,下面介绍一下其主要的几个方法：

synchronized addFetchItem(FetchItem it): 是用来把FetchItem根据其QueueID号放到对应的FetchItemQueue中
synchronized getFetchItem() : 它是遍历FetchItemQueue，从中得到一个FetchItem，如果没有就返回null
synchronized checkExceptionThreshold : 用于查看特定FetchItemQueue的抓取失败次数，当这个次数大于maxExceptionsPerQueue时，就清空这个FetchItemQueue中的其它FetchItem.

5. 总结

这里我们看了一下Fetcher的抓取模型和其中使用的一些主要的类结构，还有FetcherOutputFormat的多文件轮子，下来我会对FetcherThread进行分析。

leetcode - 2425. Bitwise XOR of All Pairings KpLn_HJL OJ题目记录 leetcode 算法职场和发展
DescriptionYouaregiventwo0-indexedarrays,nums1andnums2,consistingofnon-negativeintegers.Thereexistsanotherarray,nums3,whichcontainsthebitwiseXORofallpairingsofintegersbetweennums1andnums2(everyinteger
一文读懂数据仓库构建流程（超详细）嗨皮一会吧数仓构建数据仓库
相信大家都知道数仓分层架构（ods、dwd、dim、dws等）。但是面对一个从0开始的数仓，我们难免会有一个疑问，应该如何去构建各层，以及数仓规划中要有哪些事实表和维度表，这个理论依据从何而来呢，相信大家看完本篇文章，可以在搭建数仓的时候有一个理论依据。1、数仓构建整体流程数仓构建核心图：我们可以发现其实数据开发占比整个数仓构建流程只是很小的部分，只要我们将前期的数据调研，各种数仓模型设计好，剩下
MySQL中LIMIT x,y；语句的意思与用法。海宁不掉头发笔记all LIMIT 分页查询数据库查询语法性能优化
举例：LIMIT表示分页查询，LIMIT0,5;表示从索引为0的位置，就是第一个往后查5条数据。再比如：LIMIT4,8;表示从索引为4的位置也就是第五条开始往后查8条数据。好的想法是十分钱一打，真正无价的是能够实现这些想法的人。
vue使用阿里云视频点播像山里的风 vue.js javascript 阿里云
vue使用阿里云视频点播——videoId+playauth的方式一.上传视频官方文档https://help.aliyun.com/document_detail/52204.htm?spm=a2c4g.11186623.0.0.4885a393kRPguB#task-19956481.在index.html页面引入JavaScript脚本。具体代码，已有视频时回显并且可以查看视频、删除视频；没
cannot open shared object file: No such file or directory解决方法 Turn X7 工作问题总结 linux 服务器运维
一般我们在Linux下执行某些外部程序的时候可能会提示找不到共享库的错误,比如:errorwhileloadingsharedlibraries:libavformat.so.58:cannotopensharedobjectfile:Nosuchfileordirectory原因一般有两个：一个是操作系统里确实没有包含该共享库(lib*.so.*文件)或者共享库版本不对，遇到这种情况那就去网上下
【5】WLC上的CIMC 剪刀石头布Cheers Cisco Wireless Learning 运维网络无线思科 WLC CMIC UCS-C
1.概述CIMC全称是CiscoIntegratedManagementController，是C系列服务器的管理服务，而思科的WLC5520、8540等无线控制器，硬件是基于思科UCS-C系列的（其中WLC5520基于C220，WLC8540基于C240），所以这些控制器上是有CMIC的。虽然平时在WLC上不是那么容易用到或者有相关的操作，但是还是需要知晓一下相关的内容。CIMC是内置于设备主板
【赵渝强老师】MongoDB的Journal日志数据库nosqlmongodb
数据是MongoDB的核心，MongoDB通过使用Journal日志保证数据的安全。Journal日志用于记录上一个检查点之后发生的数据更新，并将更新的信息顺序写入Journal日志文件中。通过使用Journal日志能够将数据库从系统异常终止事件中还原到一个有效的状态。通过6.5.1.3小节的介绍了解到，MongoDB使用预写日志机制实现数据的持久化。每个Journal日志文件的大小是100M，并
NLP 中文拼写检测纠正论文-01-介绍了SIGHAN 2015 包括任务描述，数据准备，绩效指标和评估结果后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
DynamicDatasource动态数据源实现及使用 m0_74825074 java
文章目录动态数据源DynamicDatasource简介源码分析ThreadLocal和AbstractRoutingDataSourceDynamicRoutingDataSourceDynamicDatasource快速开始项目结构Maven依赖application.yml配置文件sql脚本动态加载数据源动态切换数据源手动实现核心类`DataSourceContextHolder`核心类`D
SpringCloud-05-OpenFeign服务接口调用六甲横宝 SpringCloud 微服务 Java java spring eureka spring boot
OpenFeign服务接口调用1.概述1.OpenFeign是什么？Feign是一个声名式WebService客户端，使用Feign能让编写WebService客户端更加简单。它的使用方法是定义一个服务接口然后在上面添加注解。Feign也支持可拔插式的编码器和解码器。SpringCloud对Feign进行了封装，使其支持了SpringMVC标准注解和HttpMessageConverters。Fe
芝法酱学习笔记（2.5）——elastic-search 8.x初探（自用）芝法酱 elasticsearch spring boot
一、elastic-search的下载官网的下载地址在这里。官网文档地址在这里访问路径是doc/search让人惊呆了，新版的elastic-search竟然需要JDK23。ThelocaledatabaseusedbyElasticsearch,usedtomapfromvariousdateformatstotheunderlyingdatestorageformat,dependsonthe
PAT（甲级）2019年秋季考试 7-2 Merging Linked Lists (25分) dazhangyu97 PAT刷题 PAT
7-2MergingLinkedLists(25分)状态：ACedGiventwosinglylinkedlistsL1=a1→a2→⋯→an−1→anandL2=b1→b2→⋯→bm−1→bm.Ifn≥2m,youaresupposedtoreverseandmergetheshorteroneintothelongeronetoobtainalistlikea1→a2→bm→a3→a4→bm−
知识图谱语义搜索：构建智能化搜索未来 cooldream2009 AI技术知识图谱知识图谱人工智能
目录前言1.知识图谱语义搜索的基础概念1.1什么是知识图谱1.2什么是语义搜索1.3知识图谱语义搜索的结合2.知识图谱语义搜索的核心技术2.1自然语言处理技术2.2知识图谱构建与管理2.3图数据库与查询技术3.知识图谱语义搜索的应用场景3.1智能问答系统3.2个性化推荐3.3专业领域信息检索4.知识图谱语义搜索的未来展望4.1技术挑战4.2应用趋势结语前言随着信息技术的飞速发展，数据量呈现爆炸式增
C++ 新特性 | C++14 常用新特性介绍 dvlinker C/C++实战专栏 C/C++软件开发从入门到实战 C++C++14 新特性 lambda改进 constexpr改进 make_unique 变长参数模版扩展
目录1、通用lambda表达式（对lambda表达式的改进）2、constexpr常量表达式3、constexpr函数的扩展4、二进制字面量5、数组大小自动推导6、std::make_unique7、std::exchange8、std::integer_sequence9、变长参数模板的扩展C++软件异常排查从入门到精通系列教程（专栏文章列表，欢迎订阅，持续更新...）https://blog.
OSS获得阿里云服务端签名——服务端签名后直传 chengqiuming JavaWeb java
一任务完成上图的第1步和第2步。二参考https://help.aliyun.com/document_detail/31926.html?spm=a2c4g.11186623.6.1711.4d777815zWYCD0三创建第三方服务微服务1配置依赖4.0.0org.springframework.bootspring-boot-starter-parent2.2.1.RELEASEcom.at
国产化系统中遇到的视频花屏、卡顿以及延迟问题的记录与总结 dvlinker C/C++软件开发从入门到实战 C/C++实战专栏硬件与芯片音视频国产化系统麒麟系统飞腾CPU 国产显卡视频解码播放延时与卡顿
目录1、国产化系统概述1.1、国产化操作系统与国产化CPU1.2、国产化服务器操作系统1.3、当前国产化系统的主流配置2、视频解码花屏与卡顿问题2.1、视频解码花屏2.2、视频解码卡顿2.3、关于I帧和P帧的说明3、国产显卡处理速度慢导致图像卡顿问题3.1、视频延时和卡顿原因分析3.2、SDL2库跑在景嘉微国产显卡上效率很低3.3、采用抽帧播放的方式来解决这类问题3.4、关于音视频播放中的唇音不同
HBuilder X真机运行显示:当前自定义基座配置minSdkVersion为21，需Android5.0以上设备运行。小黄编程快乐屋编辑器 android uni-app
大家好，我是小黄.今天在进行真机测试的试试，HBuilderX突然间报了一个错误：当前自定义基座配置minSdkVersion为21，需Android5.0以上设备运行。但是之前的时候调试都是可以正常的，小黄使用的是华为的手机调试。小黄尝试过更新版本，把插件全部都删除了……发现这个错误还是不是解决。解决方法：删除手机和电脑的华为调试助手，然后再次去运行即可。
PAT2019秋7-2 Merging Linked Lists (25 分) 还记得樱花正开~ PAT
GiventwosinglylinkedlistsL1=a1→a2→⋯→an−1→anandL2=b1→b2→⋯→bm−1→bm.Ifn≥2m,youaresupposedtoreverseandmergetheshorteroneintothelongeronetoobtainalistlikea1→a2→bm→a3→a4→bm−1⋯.Forexample,givenonelistbeing6→
体育比分网站搭建的常规流程参考教程翱翔的猪脑花信息可视化
一、项目策划与需求分析在启动体育比分直播网站搭建项目前，首要任务是对市场进行深入的研究与分析，考察现有竞品的优势Atlaslive与CAF与不足，找准目标用户群体的需求痛点。例如，用户可能关注实时比分更新的速度与精确度，全面的赛事覆盖范围，深度的数据分析，以及便利的社交互动功能等。基于此，明确网站的定位和特色，设计出包括实时比分直播、赛事前瞻与回顾、详尽数据分析、体育新闻报道、互动社区等在内的核心
【学习总结|DAY028】后端Web实战(部门管理) 123yhy传奇学习 java mysql mybatis log4j maven web
在Web后端开发领域，构建高效、规范且功能完备的系统是核心目标。本文将围绕Tlias智能学习辅助系统的后端开发展开，详细阐述从开发准备工作到各部门管理功能实现，以及日志技术应用的全过程，为开发者提供全面的实践参考。一、开发准备（一）开发模式与规范前后端分离开发已成为主流趋势。在这种模式下，前端项目和后端项目的开发、部署相互独立。其开发流程包括需求分析、接口设计、前后端并行开发、测试以及联调等环节。
【学习总结|DAY025】JAVA-WEB基础 123yhy传奇学习 java web springboot
在Web开发领域，SpringBoot已成为重要的技术框架，其简化配置和快速开发的特性深受开发者喜爱。本文将详细介绍SpringBootWeb开发的基础知识，涵盖从入门程序搭建到HTTP协议解析，再到分层解耦实践等内容，助力读者快速上手。一、SpringBootWeb入门（一）Spring生态与SpringBoot优势Spring发展出庞大生态，提供众多子项目，各有特定功能。SpringBoot尤
C++ initializer_list 列表初始化（八股总结） fadtes C++八股 c++游戏
定义std::initializer_list是C++11引入的一个类模板，用于支持列表初始化。它允许开发者使用花括号{}提供一组值直接初始化容器或自定义类型。std::initializer_list提供了一种简洁优雅的语法来传递多个值。主要用途初始化容器使用列表初始化方式为容器赋值。#include#includeintmain(){std::vectorvec={1,2,3,4,5};for
加速AI模型部署：深入探索Banana的无服务架构 afTFODguAKBF 人工智能架构 python
加速AI模型部署：深入探索Banana的无服务架构引言在AI模型的构建与部署中，无服务架构（ServerlessArchitecture）正逐渐成为开发者的首选方案。这种架构可以简化部署流程，提高扩展性，并降低成本。在本文中，我们将探讨如何利用Banana提供的无服务GPU推理来部署AI模型，并结合LangChain实现高效的模型推理。主要内容1.Banana生态系统的优势Banana提供了一套完
人工智能OpenCV计算机视觉技术 yzx991013 OpenCV基础全集 opencv 计算机视觉人工智能
5.3cand可调节边缘检测完整代码：importcv2importnumpyasnp#载入图像，并处理可能的读取错误img_original=cv2.imread('./image/lena.jpg')ifimg_originalisNone:print("无法读取图像文件")raiseSystemExit#创建可调整大小的窗口cv2.namedWindow('Canny',cv2.WINDOW
ASPICE 4.0引领自动驾驶未来：机器学习模型的特点与实践亚远景aspice 机器学习自动驾驶人工智能
ASPICE4.0-ML机器学习模型是针对汽车行业，特别是在汽车软件开发中，针对机器学习（MachineLearning,ML）应用的特定标准和过程。ASPICE（AutomotiveSPICE）是一种基于软件控制的系统开发过程的国际标准，旨在提升软件开发过程的质量、效率和可靠性。ASPICE4.0中的ML模型部分则进一步细化了机器学习在汽车软件开发中的具体要求和流程。以下是对ASPICE4.0-
2024年软考信息安全工程师备考学习笔记汇总月梦工作室信息安全工程师
信息安全工程师分属“信息系统”专业，位处中级资格，2016年下半年，第一次开考信息安全工程师（中级）考试。目前每年考试一次。已开考六次，2016年11月12日，2017年5月20日，2018年5月26日，2019年5月25日，2020年11月7日，2021年11月6日，2022年11月5日，2023年11月4日为第八次考试。第五次至第八次考试，采用第二版教材。信安精品课|月梦工作室(moondre
2025年1月18日（树莓派点亮呼吸灯） Mason Lin Raspberry Pi Zero 2W python 树莓派 LED linux
系统信息：RaspberryPiZero2W系统版本：2024-10-22-raspios-bullseye-armhfPython版本：Python3.9.2已安装pip3支持拍摄1080p30(1092*1080),720p60(1280*720),60/90(640*480)已安装vim已安装git学习目标：pwm呼吸灯学习内容：呼吸灯importRPi.GPIOasGPIOimportti
python 清空表格_python 清空表数据库表 weixin_39989190 python 清空表格
《Greenplum5.0最佳实践》迁移数据使用Gptransfer使用Gptransfer命令迁移一个Greenplum数据库集群中的数据到另一台集群(metradata,data)gptransfer可以迁移数据库中的全部数据或者部分选择的表到另外一台Greenplum中。源数据库和目的数据库可以在同一个集群中，也可以在不同的集群中。gp...文章whatcat2017-11-194163浏览
python 自动执行 apdl_在高效的mann中从Python运行ANSYS Mechanical APDL weixin_39960145 python 自动执行 apdl
我有以下代码，它编写一个输入文件，并使用Windows命令执行ansysmechanicalAPDL。我的问题是执行时间要长得多(在软件内部15分钟，从Python调用时超过1小时)。我需要它更快，因为我改变了尽可能多的输入参数。在defRunAPDL(E,t,w,p,aa,bb,lz,alpha,delta):ansyspath=r'C:\ProgramFiles\ANSYS.Inc\v181\
利用Python运行Ansys Apdl ssssasda ansys apdl 流处理批处理 python
Ansys流处理1.学习资源2.版本要求3.pymapdl安装流程4.初始设置和本地启动mapdl5.PyMAPDL语法6.工具库7.与window的交互接口1.学习资源Ansys官网：https://www.ansys.com/zh-cnAnsysAcademic（Ansys学术）:https://www.ansys.com/zh-cn/academicAnsysLearningForum（An
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号