蚩尤后裔

WebCollector 页面附件信息 metaData 与 MatchType

本文导读

MetaData 概述

MatchType 概述

爬取豆瓣评分

需求分析

标签页

列表页

内容页

代码实现

爬取结果

本文导读

1、本文学习 webCollector 官网的 DemoMetaCrawler 示例，这个例子可以在开发包 cn.edu.hfut.dmic.webcollector.example m=目录下找到

2、《WebCollector 自动探测 URL 地址》中的例子就是通过正则表达式的方式来过滤需要的网址，从而获得需要的内容，对于一个复杂的网站(例如层级较深、页面URL类型多样，抓取搜索引擎等)，虽然用多个正则表达式也能匹配过滤出来，但是此时使用 MetaData 确实更加明智的选择。《WebCollector 自动探测 URL 地址》中正则表达式匹配当前 URL 的方式如下：

@Override
public void visit(Page page, CrawlDatums next) {
//如果是博客内容页（根据URL正则判断），则获取它的内容，否则不做处理
if (page.matchUrl("http://blog.csdn.net/.*/article/details/.*")) {
//抽取代码
}
}

MetaData 概述

1、WebCollector 的 MetaData 是提升爬虫开发效率最好的特性之一，MetaData 特别适合复杂爬取任务的开发。

2、例如当爬虫需要解析多种异构页面时，可通过 MetaData 功能为每个页面标注类别。网页的类别往往在网页被探测到时容易获取，在解析时难以获取，而 MetaData 正好提供了在探测网页时为网页标注类别的功能。

3、例如抓取电商网站，电商入口页的左栏是热销商品链接，右栏是热门店家信息，在解析首页时，就可以利用 MetaData 特性将左栏中探测到的 URL 标上” kind ”:”商品”，将右栏中探测到的URL标上”kind”:”店家”，将它们一起放入后续任务(next)中。当爬虫成功获取商品或店家页面的源码并将其交给解析程序时，开发者可以直接通过 page.meta("kind") 来获取页面的类型，而不需要通过 UR L的正则匹配等方法来处理该问题，且很多场景中，一些异构页面的 URL 利用正则难以区分。

MatchType 概述

1、MetaData 特性使得 WebCollector 在注入或探测链接时为其添加附属信息，提升开发效率，在附属信息中，页面类型信息是一个及其重要的信息。这里所说的页面类型不是 Http 协议中的 Content-Type 信息，而是用户自定义的用于区分不同解析方案的信息，例如在采集豆瓣图书时，会遇到标签页、列表页和图书详情页，只有知道页面的类型，才可以选取对应的抽取及新链接探测方案。

2、大多数 Java 爬虫都会通过网页 URL 的正则匹配来判断页面类型(如《WebCollector 自动探测 URL 地址》)，但正则匹配并不能解决所有的问题，对于一些网站，可能不同类型的页面享有相同的 URL 模式。

3、本文将会以爬取豆瓣读书为例进行详细说明，当设计豆瓣图书爬虫时（手动解析），有如下的关系：

A.注入种子页（标签页）
B.从标签页中解析获得列表页的 URL
C.从列表页中解析获得内容页的 URL

4、与其根据 URL 正则获得页面的类型，倒不如直接在上述A（注入）、B（探测）、C（再探测）时直接将页面类型标记在链接（CrawlDatum）中，在新版本 WebCollector 中，可通过如下几种形式为链接（CrawlDatum）添加 MetaData 信息：

1、CrawlDatum datum = new CrawlDatum("网页URL", "页面类型");

2、CrawlDatum datum = new CrawlDatum("网页URL").type("页面类型");

3、在 Crawler 中注入时：addSeed("网页URL", "页面类型");

4、在visit中往 next 中添加探测到的链接时：next.add("网页URL", "页面类型");

5、在解析时，可直接通过 page.matchType("页面类型") 来判断网页是否符合指定的页面类型。

6、注意：页面类型信息本质是 MetaData 中一个 key 为 ”type” 的附属信息，建议开发者在使用 MetaData 特性时不要将自定义的附属信息的 key 设置为 ”type”，以免发生冲突。（意思就是 webCollector 已经内置了一个 key 为 type，程序员可以自己直接赋值取值）

7、matchType 可以参考官网例子 DemoTypeCrawler，位于 cn.edu.hfut.dmic.webcollector.example.DemoTypeCrawler。

爬取豆瓣评分

需求分析

标签页

1、爬取豆瓣读书的图书名称以及评分，标签页地址：https://book.douban.com/tag/?view=type&icn=index-sorttags-all

如下所示是标签页右击查看源码的部分内容，重点是它的小说名超链接地址规则

......

        
          
            文学 · · · · · · 
          
          
.....列表页
如下所示为 列表页的部分源码，重点是 超链接的规则
 
    
      
        
      
    
    
      
  
  

    当我谈跑步时我谈些什么
  
      
       [日] 村上春树 / 施小炜 / 南海出版公司 / 2009-1 / 25.00

  
        
        8.1

    
        (49884人评价)
    
  

    他以文字名满全球。他的“蓝调”令万千人神迷忧伤。文字是他的符号，“跑者蓝调”何尝不是？不再是浮华迷茫，不再是旖旎感伤，不再羚羊挂角无迹可寻——写了几十... 

      
  
内容页
代码实现
提示：爬取豆瓣时，豆瓣服务器有简单的反爬取机制，当短时间内请求次数超出人为的正常值时，对方会拒绝处理请求返回403错误。
import cn.edu.hfut.dmic.webcollector.model.CrawlDatum;
import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.plugin.ram.RamCrawler;
/**
 * WebCollector 2.x 版本的 tutorial(教程) (2.20以上)
 * 2.x版本特性：
 * 1）自定义遍历策略，可完成更为复杂的遍历业务，例如分页、AJAX
 * 2）可以为每个URL设置附加信息( MetaData )，利用附加信息可以完成很多复杂业务，例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
 * 3）使用插件机制，WebCollector内置两套插件。
 * 4）内置一套基于内存的插件（RamCrawler<内存爬虫>)，不依赖文件系统或数据库，适合一次性爬取，例如实时爬取搜索引擎。
 * 5）内置一套基于 Berkeley DB（BreadthCrawler<广度爬虫>)的插件：适合处理长期和大量级的任务，并具有断点爬取功能，不会因为宕机、关闭导致数据丢失。
 * 6）集成 selenium，可以对 javascript 生成信息进行抽取
 * 7）可轻松自定义 http 请求，并内置多代理随机切换功能。 可通过定义 http 请求实现模拟登录。
 * 8）使用 slf4j 作为日志门面，可对接多种日志
 * 
 * 可在 cn.edu.hfut.dmic.webcollector.example 包中找到例子(Demo)
 *
 * @author hu
 */
public class DemoMetaCrawler extends RamCrawler {
    /** 为指定 autoParse 参数时，父类默认为 true ，即会自动解析页面中的所有超链接
     *因为没有使用 crawler.addRegex() 正则匹配，所以 为 true 也不会影响，等同于手动*/

    /**
     * 实际使用时建议按照 DemoTypeCrawler 的方式操作，该教程目的为阐述 meta 的原理
     * 

     * 可以往 CrawlDatums 中添加希望后续爬取的任务，任务可以是 URL 或者 CrawlDatum
     * 爬虫不会重复爬取任务，从 2.20 版之后，爬虫根据 CrawlDatum 的 key 去重，而不是URL
     * 因此如果希望重复爬取某个URL，只要将 CrawlDatum 的 key 设置为一个历史中不存在的值即可
     * 例如增量爬取，可以使用 爬取时间+URL作为key。
     * 

     * 新版本中，可以直接通过 page.select(css选择器)方法来抽取网页中的信息，等价于
     * page.getDoc().select(css选择器)方法，page.getDoc()获取到的是Jsoup中的
     * Document对象，细节请参考Jsoup教程
     * 
     */
    @Override
    public void visit(Page page, CrawlDatums next) {
        /** 获取页面类型
         * page 既能为当前爬取页面存放 meta 信息
         * 也能获取当前页面的 meta 信息(底层就是：crawlDatum.meta(key))
         * 注意值不存在时 返回 null
         * */
        String type = page.meta("type");
        System.out.println("页面类型：" + type);

        if (type.equals("taglist")) {
            /**如果是标签页，则抽取其中的列表页链接，放入后续任务中
             * 同时为这些新链接添加附加信息（meta）：type=booklist
             * 因为使用的是 page.links("table.tagCol td>a") 精确匹配所有列表页链接地址，所以直接添加附加信息
             *
             * */
            next.addAndReturn(page.links("table.tagCol td>a")).meta("type", "booklist");

        } else if (type.equals("booklist")) {
            /**
             * 如果是列表页，则抽取其中的内容页链接，放入后续任务中
             * 同时为这些链接添加附加信息（meta）：type=content，key 和value 都是自定义即可
             * 精确匹配超链接
             */
            next.addAndReturn(page.links("div.info>h2>a")).meta("type", "content");
        } else if (type.equals("content")) {
            /**
             * 处理内容页，抽取书名和豆瓣评分
             */
            String title = page.select("h1>span").first().text();
            String score = page.select("strong.ll.rating_num").first().text();
            System.out.println("书名:" + title + " >>>评分:" + score);
        }
    }

    /**
     * 该 Demo 爬虫需要应对豆瓣图书的三种页面：
     * 1）标签页（taglist，包含图书列表页的入口链接）
     * 2）列表页（booklist，包含图书详情页的入口链接）
     * 3）图书详情页（content）
     *
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {
        /** 为指定 autoParse 参数时，父类默认为 true ，即会自动解析页面中的所有超链接
         *因为没有使用 crawler.addRegex() 正则匹配，所以 为 true 也不会影响，等同于手动*/
        DemoMetaCrawler crawler = new DemoMetaCrawler();

        /**
         * meta 是 CrawlDatum 的附加信息，爬虫内核并不使用 meta 信息
         * 在解析页面时，往往需要知道当前页面的类型（例如是标签页、列表页、内容页）或一些附加信息（例如页号）
         * 然而根据当前页面的信息（内容和URL）并不一定能够轻易得到这些信息
         * 例如当在解析页面 https://book.douban.com/tag/ 时，需要知道该页是目录页还是内容页
         * 虽然用正则也可以解决这个问题，但是相比之下使用 meta 会更加快捷
         * 当我们将一个新链接（CrawlDatum）提交给爬虫时，链接指向页面的类型有时是确定的（例如在很多任务中，种子页面就是列表页）
         * 如果在提交CrawlDatum时，直接将链接的类型信息（type）存放到meta中，那么在解析页面时，
         * 只需取出链接（CrawlDatum）中的类型信息（type）即可知道当前页面类型
         */

        CrawlDatum seed = new CrawlDatum("https://book.douban.com/tag/").meta("type", "taglist");
        crawler.addSeed(seed);

        crawler.setThreads(30);
        crawler.start(3);
    }

}
爬取结果
2018-08-17 10:34:21 INFO cn.edu.hfut.dmic.webcollector.crawler.Crawler  - start depth 1
2018-08-17 10:34:21 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - start merge
2018-08-17 10:34:21 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - merge fetch database
2018-08-17 10:34:21 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - merge link database
2018-08-17 10:34:21 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - end merge
2018-08-17 10:34:21 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - init segmentWriter:cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
2018-08-17 10:34:21 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - create generator:cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
2018-08-17 10:34:21 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - use generatorFilter:cn.edu.hfut.dmic.webcollector.crawldb.StatusGeneratorFilter
页面类型：taglist
2018-08-17 10:34:22 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - -activeThreads=1, spinWaiting=0, fetchQueue.size=0
2018-08-17 10:34:22 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/tag/ (URL: https://book.douban.com/tag/)
2018-08-17 10:34:23 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - -activeThreads=0, spinWaiting=0, fetchQueue.size=0
2018-08-17 10:34:23 INFO cn.edu.hfut.dmic.webcollector.crawler.Crawler  - depth 1 finish: 
	total urls:	1
	total time:	2 seconds
2018-08-17 10:34:23 INFO cn.edu.hfut.dmic.webcollector.crawler.Crawler  - start depth 2
2018-08-17 10:34:23 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - start merge
2018-08-17 10:34:23 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - merge fetch database
2018-08-17 10:34:23 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - merge link database
2018-08-17 10:34:23 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - end merge
2018-08-17 10:34:23 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - init segmentWriter:cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
2018-08-17 10:34:23 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - create generator:cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
2018-08-17 10:34:23 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - use generatorFilter:cn.edu.hfut.dmic.webcollector.crawldb.StatusGeneratorFilter
页面类型：booklist
2018-08-17 10:34:24 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/tag/张小娴 (URL: https://book.douban.com/tag/张小娴)
页面类型：booklist
2018-08-17 10:34:24 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/tag/中国历史 (URL: https://book.douban.com/tag/中国历史)
页面类型：booklist
2018-08-17 10:34:24 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/tag/散文 (URL: https://book.douban.com/tag/散文)
页面类型：booklist
页面类型：booklist
2018-08-17 10:34:24 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/tag/成长 (URL: https://book.douban.com/tag/成长)
页面类型：booklist
页面类型：booklist
2018-08-17 10:34:24 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/tag/营销 (URL: https://book.douban.com/tag/营销)
2018-08-17 10:34:24 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/tag/经典 (URL: https://book.douban.com/tag/经典)
2018-08-17 10:34:24 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/tag/策划 (URL: https://book.douban.com/tag/策划)
页面类型：booklist
2018-08-17 10:34:24 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/tag/管理 (URL: https://book.douban.com/tag/管理)
页面类型：booklist
2018-08-17 10:34:24 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/tag/交互 (URL: https://book.douban.com/tag/交互)
页面类型：booklist
.......省略几百行......
2018-08-17 10:34:35 INFO cn.edu.hfut.dmic.webcollector.crawler.Crawler  - depth 2 finish: 
	total urls:	145
	total time:	12 seconds
2018-08-17 10:34:35 INFO cn.edu.hfut.dmic.webcollector.crawler.Crawler  - start depth 3
2018-08-17 10:34:35 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - start merge
2018-08-17 10:34:35 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - merge fetch database
2018-08-17 10:34:35 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - merge link database
2018-08-17 10:34:35 INFO cn.edu.hfut.dmic.webcollector.crawldb.DBManager  - end merge
2018-08-17 10:34:35 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - init segmentWriter:cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
2018-08-17 10:34:35 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - create generator:cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
2018-08-17 10:34:35 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - use generatorFilter:cn.edu.hfut.dmic.webcollector.crawldb.StatusGeneratorFilter
页面类型：content
书名:不疯魔不成活 >>>评分:9.0
2018-08-17 10:34:36 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/subject/27072051/ (URL: https://book.douban.com/subject/27072051/)
页面类型：content
书名:这就是二十四节气 >>>评分:8.6
2018-08-17 10:34:36 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/subject/26738072/ (URL: https://book.douban.com/subject/26738072/)
页面类型：content
书名:宗子维城 >>>评分:8.8
2018-08-17 10:34:36 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/subject/27054319/ (URL: https://book.douban.com/subject/27054319/)
页面类型：content
书名:新参者 >>>评分:8.4
2018-08-17 10:34:36 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/subject/6746289/ (URL: https://book.douban.com/subject/6746289/)
页面类型：content
书名:性别战争 >>>评分:8.0
2018-08-17 10:34:36 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/subject/4846032/ (URL: https://book.douban.com/subject/4846032/)
2018-08-17 10:34:36 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - -activeThreads=30, spinWaiting=0, fetchQueue.size=970
页面类型：content
书名:诗的八堂课 >>>评分:8.3
2018-08-17 10:34:36 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/subject/26893046/ (URL: https://book.douban.com/subject/26893046/)
页面类型：content
书名:从历史中醒来 >>>评分:9.1
2018-08-17 10:34:36 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/subject/26848651/ (URL: https://book.douban.com/subject/26848651/)
.......省略几千行......
页面类型：content
书名:东霓 >>>评分:8.1
2018-08-17 10:36:01 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://book.douban.com/subject/4874131/ (URL: https://book.douban.com/subject/4874131/)
2018-08-17 10:36:02 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - -activeThreads=0, spinWaiting=0, fetchQueue.size=0
2018-08-17 10:36:02 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - clear all activeThread
2018-08-17 10:36:02 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - close generator:cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
2018-08-17 10:36:02 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - close segmentWriter:cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
2018-08-17 10:36:02 INFO cn.edu.hfut.dmic.webcollector.crawler.Crawler  - depth 3 finish: 
	total urls:	2023
	total time:	87 seconds

Process finished with exit code 0
 

                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                

        你可能感兴趣的:(WebCollector)
        
            
                
                    Python爬虫实战
                        weixin_34007879
爬虫jsonjava
                        引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
                    
                    开发网络爬虫应该怎样选择爬虫框架
                        chunjiushi9898
爬虫java大数据
                        有些人问，开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector3.非JAVA单机爬虫：scrapy第一类:分布式爬虫爬虫使用分布式，主要是解决两个问题：1)海量U
                    
                    Go colly爬虫框架精简高效【杠杠的】入门到精通
                        small_to_large
Golanggolang爬虫colly
                        1前言1.1GoColly爬虫介绍爬虫框架中，各中流行的编程语言都有自己热门框架，python中的selenium、Scrapy、PySpider等，Java中的Nutch、Crawler4j、WebMagic、WebCollector等。golang中colly使用Go语言编写的功能强大的爬虫框架，api简洁、性能强大、并发性高，githubstar接近20K。1.2安装goinitcolly.
                    
                    使用java爬虫WebCollector+jsoup抓取商品分类图标
                        柠檬冰块

                        背景介绍：场景是，有京东三级分类名称，没有对应图标，需要根据京东三级分类名称，获取分类名称匹配的图片，来作为商品分类图标技术选型：WebCollector+jsoup，WebCollector进行爬取，jsoup进行html解析实现步骤：1.根据根url发起请求，2.得到响应页面数据，3.对页面数据进行解析，并提取4.对图片进行下载持久化代码实现1.相关包结构说明2.代码实例links.java类
                    
                    商品评论获取与词云图可视化分析
                        不是祸津神的夜斗
mapreducehivepython
                        商品评论获取解析与可视化词云图制作本篇文章主要介绍如何手写爬虫爬取电商平台评论数据，以及对爬取到的内容进行解析，导入mysql数据库并进行词频统计，可视化制作词云图。涉及的技术点如下：电商网站页面分析python简单爬虫java语言的webCollector爬虫框架使用python与java分别进行json文件解析，其中java解析结合mapreducepymysql操作mysql数据库实现爬取数
                    
                    java之网络爬虫介绍(非原创）
                        故事爱人c

                        文章大纲一、网络爬虫基本介绍二、java常见爬虫框架介绍三、WebCollector实战四、项目源码下载五、参考文章一、网络爬虫基本介绍1.什么是网络爬虫  网络爬虫（又被称为网页蜘蛛，网络机器人，在社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。2.常见问题介绍爬虫可以爬取ajax信息么？ 
                    
                    Java开源爬虫框架WebCollector图片抓取教程
                        CJX_Venus

                        网站中的图片和网页在本质上是相同的，图片和网页的获取本质上都是根据URL从网站中获取网页/图片的字节数组(byte[])，浏览器会根据http响应头中的content-type信息来决定以网页还是图片的形式来展示资源。爬取图的效果图如下:实现的代码如下:packageimageDownload;importjava.io.File;importjava.io.FileNotFoundExcepti
                    
                    爬虫初探（一）crawler4j的robots
                        weixin_34123613

                        2019独角兽企业重金招聘Python工程师标准>>>最近刚刚开始研究爬虫，身为小白的我不知道应该从何处下手，网上查了查，发现主要的开源java爬虫有nutchapache/nutch·GitHub，Heritrixinternetarchive/heritrix3·GitHub和Crawler4jyasserg/crawler4j·GitHub，还有WebCollectorCrawlScript
                    
                    基于Crawler4j + jsoup实现爬虫
                        苏州-微尘
Java相关
                        爬虫框架分类1.分布式爬虫Nutch2.Java单机爬虫Crawler4j、WebMagic、WebCollector3.非Java单机爬虫Scrapy开发思路根据业务需求选择合适的爬虫框架根据网站规则及业务需求抽取数据，保存到中间库数据清洗/格式化，保存到目标库基于Crawler4j+jsoup实现爬虫用Crawler4j构建多线程的web爬虫来抓取页面内容。Crawler4j的使用分为两个步骤
                    
                    WebCollector java.lang.NoClassDefFoundError: org/openqa/selenium/htmlunit/HtmlUnitDriver 问题解决方案
                        Nucky_
CrawlerWebCollectorselenium
                        最近在做一个项目参加比赛，需要截取很多数据，意外找到了一个程序叫webcollector然而在使用的时候出了一个问题java.lang.NoClassDefFoundError:org/openqa/selenium/htmlunit/HtmlUnitDriver不停得提示这个，在网上找了很久没发现解决方案不想草草了之，google了NoClassDefFoundError，发现可能是classp
                    
                    JAVA开源爬虫 WebMagic 与 WebCollector 之间比较
                        想改名的小雄鹿
NLP爬虫Java调研
                        WebMagic与WebCollector比较一、架构Webcollector图片来自官方文档WebMagic二、维护者WebMegic：董亿华，前点评工程师，现自主创业WebCollector:：合肥工业大学DMIC三、最近更新时间（截止至2018.4.8）WebMegic:2017.12WebCollector:2018.3四、活跃度（以github上issuse数目评价，截止至2018.4.
                    
                    网页正文提取+HMM命名实体识别+CRF命名实体识别
                        林林剑

                        推荐一篇博客：http://blog.csdn.net/AJAXHu/article/details/48382381开源的WebCollector爬虫确实很好用，并且提供了网页正文提取的模块。提供了图形界面的简单配置，Log也比较全面，WebCollector-Hadoop是WebCollector的分布式版本。对比自己一直使用的Scrapy-redis，感觉WebCollector更适合工业生
                    
                    webcollector爬虫demo
                        盟易
爬虫学习java爬虫webcollector
                        由于我们公司第二季度亏了7-8亿，所以项目组没有多余的资金让我们去正规渠道买数据。然后我就走向了一天爬虫的不归路。其实Java爬虫有很多开源的框架，这边我选择的是webcollector这个中小型的框架（官网：https://github.com/CrawlScript/WebCollector，教程文档：http://datahref.com/archives/category/webcolle
                    
                    多线程爬虫去重问题
                        xiaocxyczh
大数据
                        最近无聊做了一个小爬虫项目，用的是WebCollector框架，比较好上手。但爬取数据后发现有许多重复的，测试了一下是多线程的问题，一开始想到的是在插入MongoDB前判断是否有相同数据存在，但可想而知多线程出现的是问题解决不了的而且效率也很低，然后想到了用CurrentHashMap去重，搞定首先新建全局属性：publicstaticConcurrentHashMapconcurrenthash
                    
                    Java爬虫-WebCollector爬虫Demo微讲解
                        艾V古斯

                        Java爬虫-WebCollector爬虫Demo微讲解工作三年，第一次有时间并且有兴致写博客，文笔可能不太好并且个人是个青铜级别开发，有错误的地方请及时帮忙纠正一下，谢谢。首先贴个WebCollector的开源地址：链接:https://github.com/CrawlScript/WebCollector.关于WebCollector，我就不多做介绍了，百度一大堆，下面推荐一下写的比较全的：链
                    
                    SpringBoot整合WebCollector，写入数据库
                        艾V古斯

                        SpringBoot整合WebCollector，写入数据库很久不见，我又回来了！大家有没有想过，当爬虫和网页结合会是怎么样？当爬虫普及，每个人都可以自己去爬的时候会是怎么样？之前，我在百度找了一下，发现了一个八爪鱼的爬虫应用，玩了一下，发现它的思想不错，可以说是全民都会爬虫的概念，可惜的是它是收费的。?SpringBoot整合Mybatis搭建目前SpringBoot已经众所周知了，开箱即用的功
                    
                    如何从网站爬取图片？
                        CSDNRGY
java爬虫
                        工具WebCollector：https://www.oschina.net/p/webcollector概述突然想把xx网站的图片下载下来，但是一张一张的去另存为很是不爽，于是乎上网找了一个java爬虫。上面链接里面的爬虫文档写的已经非常详细了。我在这里面就简单的说下：打开上面的链接，搜索【WebCollector图片抓取教程】，打开链接后，你会发现有非常详细的教程。核心语法//添加种子URLd
                    
                    使用htmlparser爬虫技术爬取电影网页的全部下载链接
                        dengzi2536
爬虫git开发工具
                        使用htmlparser爬虫技术爬取电影网页的全部下载链接昨天，我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲，而且还包括付费的在内，如果时间允许的话，可以获取更多的音乐下来，当然，也有小伙伴留言说这样会降低国人的知识产权保护意识，诚然，我们的重点在于如何灵活运用我们已学的技术，这就需要我们不断的练习，不停的思索和深入发掘，在了解了精髓和意义之后运用到实践中才是技术的最高境
                    
                    开源爬虫框架各有什么优缺点？
                        zyj8170
爬虫教程
                        开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector3.非JAVA单机爬虫：scrapy、pyspiderhttp://www.pyspider.cn/book/
                    
                    用WebCollector 2.x爬取新浪微博（无需手动获取cookie)
                        lifaming15

                        用WebCollector2.x配合另一个项目WeiboHelper，就可以直接爬取新浪微博的数据（无需手动获取cookie）1.导入WebCollector2.x和WeiboHelper的所有jar包两个项目的地址：http://git.oschina.net/webcollector/WebCollectorhttp://git.oschina.net/webcollector/WeiboHe
                    
                    开源爬虫框架各有什么优缺点？
                        蛋蛋说

                        作者：老夏开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector3.非JAVA单机爬虫：scrapyPython爬虫的工具列表附Github代码下载链接33款可用来
                    
                    开源爬虫框架各有什么优缺点
                        嘟哒
大数据
                        开源爬虫框架各有什么优缺点？作者：老夏开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch2.Java单机爬虫：Crawler4j、WebMagic、WebCollector3.非JAVA单机爬虫：scrapy第一类:分布式爬虫爬虫使用分布式，主
                    
                    网络爬虫爬取数据 本地数据库储存 远程api分析 模型
                        Wheeehan

                        序言20161119写本次项目工程：第一部分：https://github.com/RenjiaLu9527/WebMagic_test-20161119—mysq第二部分：https://github.com/RenjiaLu9527/JFreeChart-20161119/相关博客、论坛网站链接如下WebMagic简单灵活的爬虫框架。http://webmagic.ioWebCollector
                    
                    java爬虫框架Webcontroller
                        我是小袋子

                        git地址：https://github.com/CrawlScript/WebCollector业务需要爬取一个网站所有手机信息，最开始用了crawler4j这个框架，挺简单的，但是发现不能满足我的需求；只支持单页面信息抓取，但是我是要多页面抓取；需要在一级页面抓取到所有的二级页面的链接，再加入所有二级页面的链接，进行抓取所有三级页面的信息；后来改成了webcontroller，发现可以实现我的
                    
                    java之网络爬虫介绍
                        编程鸭
互联网编程语言软件开发Java开发
                        文章大纲一、网络爬虫基本介绍二、java常见爬虫框架介绍三、WebCollector实战四、项目源码下载五、参考文章一、网络爬虫基本介绍1.什么是网络爬虫  网络爬虫（又被称为网页蜘蛛，网络机器人，在社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。2.常见问题介绍爬虫可以爬取ajax信息么？ 
                    
                    Java之网络爬虫WebCollector+selenium+phantomjs(二)
                        oSayMissyou0
心情随笔
                        上一篇做小例子的时候，在获取页面上价格的时候发现，获取不到，查了下说是webcollector需要结合selenium与phantomjs来获取js生成的动态。下面就做个例子来学习。准备材料在上一篇已经准备完毕，我是在windows系统上进行的测试，所以phantomjs运行环境下载phantomjs-windows下载即可，下载后解压到某个文件夹即可(可以把解压路径添加到环境变量里，如果没有加到
                    
                    java常用的爬虫框架
                        cui_yonghua
爬虫总结和详解
                        目前主流的Java爬虫框架主要有Nutch、Crawler4j、WebMagic、WebCollector等。1.分布式爬虫：Nutchgithub地址：https://github.com/andrewcao95/nutch-crawlerNutch是apache旗下的一个用Java实现的开源索引引擎项目，通过nutch，诞生了hadoop、tika、gora。Nutch的设计初衷主要是为了解决
                    
                    Webcollector 判定爬虫结束
                        努力加载中
爬虫
                        本人使用的版本是webcollector-2.40-beta-bin下载地址↓↓↓↓↓↓↓↓WebCollector爬虫官网：https://github.com/CrawlScript/WebCollector国内镜像：http://git.oschina.net/webcollector/WebCollector使用教程：http://blog.csdn.net/ajaxhu/article/
                    
                    推荐十个优秀的Java开源爬虫
                        zsuxiong

                        1：JAVA爬虫WebCollectorStar:1345下载地址：http://www.17ky.net/soft/9278.html爬虫简介：WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。爬虫内核：W
                    
                    使用webcollector爬虫技术获取网易云音乐全部歌曲
                        dengzi2536

                        使用webcollector爬虫技术获取网易云音乐全部歌曲最近在知乎上看到一个话题，说使用爬虫技术获取网易云音乐上的歌曲，甚至还包括付费的歌曲，哥瞬间心动了，这年头，好听的流行音乐或者经典老歌都开始收费了，只能听不能下载，着实很郁闷，现在机会来了，于是开始研究爬虫技术，翻阅各种资料，最终选择网友们一致认为比较好用的webcollector框架来实现。首先，我们来认识一下webcollector,w
                    
                                枚举的构造函数中抛出异常会怎样
                                    bylijinnan
javaenum单例
                                    首先从使用enum实现单例说起。 
 
为什么要用enum来实现单例？ 
这篇文章（ 
http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 
1.enum单例简单、容易，只需几行代码： 
 

public enum Singleton {
	INSTANCE;
                                
                                CMake 教程
                                    aigo
C++
                                    转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ 
  
CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。 
介绍：http://baike.baidu.com/view/1126160.htm 
本文件不介绍CMake的基本语法，下面是篇不错的入门教程： 
http:
                                
                                cvc-complex-type.2.3: Element 'beans' cannot have character
                                    Cb123456
springWebgis
                                      cvc-complex-type.2.3: Element 'beans' cannot have character 
    Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
                                
                                jquery实例:随页面滚动条滚动而自动加载内容
                                    120153216
jquery
                                    <script language="javascript">
$(function (){
	var i = 4;$(window).bind("scroll", function (event){
		//滚动条到网页头部的 高度，兼容ie,ff,chrome
		var top = document.documentElement.s
                                
                                将数据库中的数据转换成dbs文件
                                    何必如此
sqldbs
                                    旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 
1)数据库生成表结构信息： 
        主要生成数据库配置文件(.conf文
                                
                                在IBATIS中配置SQL语句的IN方式
                                    357029540
ibatis
                                    在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 
 
1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： 
 
 
 
<select id="getForms" param
                                
                                Spring3 MVC 笔记（一）
                                    7454103
springmvcbeanRESTJSF
                                        
     自从 MVC 这个概念提出来之后 struts1.X  struts2.X   jsf 。。。。。 
这个view 层的技术一个接一个！ 都用过！不敢说哪个绝对的强悍！ 
要看业务，和整体的设计！ 
 
     最近公司要求开发个新系统！
                                
                                Timer与Spring Quartz 定时执行程序
                                    darkranger
springbean工作quartz
                                    有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date; 
                                
                                大端小端转换，le32_to_cpu 和cpu_to_le32
                                    aijuans
C语言相关
                                    大端小端转换，le32_to_cpu 和cpu_to_le32   字节序  
http://oss.org.cn/kernel-book/ldd3/ch11s04.html 
        小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
                                
                                Nginx负载均衡配置实例详解
                                    avords

                                    [导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解  负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。 
负载均衡 
先来简单了解一下什么是负载均衡
                                
                                乱说的
                                    houxinyou
框架敏捷开发软件测试
                                    从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！   
这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白.    
不过感觉和程序开发语言差不多，   
瀑布就是顺序，敏捷就是循环.    
瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。   
  
也可以把软件开发理
                                
                                欣赏的价值——一个小故事
                                    bijian1013
有效辅导欣赏欣赏的价值
                                    　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
                                
                                包冲突问题的解决方法
                                    bingyingao
eclipsemavenexclusions包冲突
                                    包冲突是开发过程中很常见的问题： 
其表现有： 
1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 
2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 
3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就 
抛如下异常： 
 
java.lang.NoClassDefFoundError: Could not in
                                
                                【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j
                                    bit1129
Stream
                                    先来一段废话： 
实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
                                
                                sudoku solver in Haskell
                                    bookjovi
sudokuhaskell
                                    这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。 
  
现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
                                
                                java apache ftpClient
                                    bro_feng
java
                                    最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 
1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。 
 
看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
                                
                                读《研磨设计模式》-代码笔记-工厂方法模式
                                    bylijinnan
java设计模式
                                    声明： 本文只为方便我个人查阅和理解，详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/ 
 
 
 
 


package design.pattern;

/*
 * 工厂方法模式：使一个类的实例化延迟到子类
 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）：
 * 有很多不同的产品，它
                                
                                面试记录语
                                    chenyu19891124
招聘
                                    或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。 
今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
                                
                                Fire Workflow 1.0正式版终于发布了
                                    comsci
工作workflowGoogle
                                    Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 
 官方网站是 http://www.fireflow.org 
 
 经过大家努力,Fire Workflow 1.0正式版终于发布了 
 
 正式版主要变化: 
1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 
2、增加IT
                                
                                Python向脚本传参
                                    daizj
python脚本传参
                                    如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？ 
需要模块：sys 
参数个数：len(sys.argv) 
脚本名：    sys.argv[0] 
参数1：     sys.argv[1] 
参数2：     sys.argv[
                                
                                管理用户分组的命令gpasswd
                                    dongwei_6688
passwd
                                    NAME：  gpasswd - administer the /etc/group file 
SYNOPSIS： 
 gpasswd group 
 gpasswd -a user group 
 gpasswd -d user group 
 gpasswd -R group 
 gpasswd -r group 
 gpasswd [-A user,...] [-M user,...] g
                                
                                郝斌老师数据结构课程笔记
                                    dcj3sjt126com
数据结构与算法
                                    <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
                                
                                yii2 cgridview加上选择框进行操作
                                    dcj3sjt126com
GridView
                                    页面代码
<?=Html::beginForm(['controller/bulk'],'post');?>
<?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
                                
                                linux mysql
                                    fypop
linux
                                    enquiry mysql version in centos linux 
yum list installed | grep mysql 
yum -y remove mysql-libs.x86_64 
enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* 
install mysq
                                
                                Scramble String
                                    hcx2013
String
                                    Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. 
Below is one possible representation of s1 = "great":
                                
                                跟我学Shiro目录贴
                                    jinnianshilongnian
跟我学shiro
                                    历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 
  
  
----广告-----------------------------------------------------
                                
                                nginx日志切割并使用flume-ng收集日志
                                    liyonghui160com

                                      
   nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
                                
                                Oracle死锁解决方法
                                    pda158
oracle
                                    　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
                                
                                java之List排序
                                    shiguanghui
list排序
                                       在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。 　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
                                
                                servlet单例多线程
                                    utopialxw
单例多线程servlet
                                    转自http://www.cnblogs.com/yjhrem/articles/3160864.html 
和   http://blog.chinaunix.net/uid-7374279-id-3687149.html 
Servlet 单例多线程 
Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的
                                
                
            
        
    

    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    

    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

        
    

            
                  
                小说(5192235)
                外国文学(1885398)
                文学(1544905)
                随笔(1109774)
                  
                  
                中国文学(1015848)
                经典(903799)
                日本文学(800213)
                散文(672892)
                  
                  
                村上春树(431930)
                诗歌(320256)
                童话(287388)
                儿童文学(231388)
                  
                  
                古典文学(226729)
                王小波(219558)
                名著(214741)
                杂文(213414)
                  
                  
                余华(199142)
                张爱玲(188187)
                当代文学(142789)
                钱钟书(102797)
                  
                  
                外国名著(92377)

小说(5192235)	外国文学(1885398)	文学(1544905)	随笔(1109774)
中国文学(1015848)	经典(903799)	日本文学(800213)	散文(672892)
村上春树(431930)	诗歌(320256)	童话(287388)	儿童文学(231388)
古典文学(226729)	王小波(219558)	名著(214741)	杂文(213414)
余华(199142)	张爱玲(188187)	当代文学(142789)	钱钟书(102797)
外国名著(92377)