蚩尤后裔

WebCollector 简介与快速入门

WebCollerctor 简介

内核构架图

WebCollector 2.x 版本特性

WebCollector 快速入门

WebCollerctor 简介

1、WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架（内核），提供精简的的 API，只需少量代码即可实现一个功能强大的爬虫。

2、源码中集成了 Jsoup，可进行精准的网页解析，2.x 版本中集成了 selenium，可以处理 JavaScript 生成的数据。

3、WebCollector-Hadoop 是 WebCollector 的 Hadoop 版本，支持分布式爬取。

4、Github 上项目托管地址：https://github.com/CrawlScript/WebCollector

5、GitEE 上开源地址：http://git.oschina.net/webcollector/WebCollector

6、开源中国教程地址：http://www.oschina.net/p/webcollector

7、网络爬虫与数据挖掘教程地址：http://datahref.com/

内核构架图

WebCollector 2.x 版本特性

1、自定义遍历策略，可完成更为复杂的遍历业务，例如分页、AJAX

2、可以为每个 URL 设置附加信息(MetaData)，利用附加信息可以完成很多复杂业务，例如深度获取、锚文本获取、引用页面获取、POST 参数传递、增量更新等。

3、使用插件机制，用户可定制自己的 Http 请求、过滤器、执行器等插件。

4、内置一套基于内存的插件（RamCrawler)，不依赖文件系统或数据库，适合一次性爬取，例如实时爬取搜索引擎。

5、内置一套基于 Berkeley DB（BreadthCrawler)的插件：适合处理长期和大量级的任务，并具有断点爬取功能，不会因为宕机、关闭导致数据丢失。

6、集成 selenium，可以对 JavaScript 生成信息进行抽取

7、可轻松自定义 http 请求，并内置多代理随机切换功能。可通过定义 http 请求实现模拟登录。

8、使用 slf4j 作为日志门面，可对接多种日志

9、使用类似Hadoop的Configuration机制，可为每个爬虫定制配置信息。

WebCollector 快速入门

1、使用 WebCollector 步骤非常简单，可以直接从 GitHub 上下载打包好的 Jar 然后导入项目中，之后即可使用

2、当然 GitHub 上也提供了 webCollector 的 Maven 依赖，可以使用 Maven 项目进行开发

开发包获取

1、都可以从 GitHub 获取：https://github.com/CrawlScript/WebCollector

Maven 依赖

1、GitHub ：https://github.com/CrawlScript/WebCollector 上同样提供了 Maven 依赖

2、上面下载的源码中的 README.md 文件中也可以找到


    cn.edu.hfut.dmic.webcollector
    WebCollector
    2.73-alpha

DemoAutoNewsCrawler

1、GitHub 的 webCollector 主页提供了官方示例，可以直接进行复制运行

2、这里就以第一个 DemoAutoNewsCrawler （自动探测新闻爬取）为例

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.plugin.rocks.BreadthCrawler;
/**
 * Crawling news from github news
 * 自动爬取新闻网站，继承 BreadthCrawler（广度爬虫）
 * BreadthCrawler 是 WebCollector 最常用的爬取器之一
 *
 * @author hu
 */
public class DemoAutoNewsCrawler extends BreadthCrawler {
    /**
     * @param crawlPath crawlPath is the path of the directory which maintains
     *                  information of this crawler
     * @param autoParse if autoParse is true,BreadthCrawler will auto extract
     *                  links which match regex rules from pag
     */
    public DemoAutoNewsCrawler(String crawlPath, boolean autoParse) {
        super(crawlPath, autoParse);

        /**设置爬取的网站地址
         * addSeed 表示添加种子
         * 种子链接会在爬虫启动之前加入到抓取信息中并标记为未抓取状态.这个过程称为注入*/
        this.addSeed("https://blog.github.com/");

        /**
         * 循环添加了4个种子，其实就是分页，结果类似：
         * https://blog.github.com/page/2/
         * https://blog.github.com/page/3/
         * https://blog.github.com/page/4/
         * https://blog.github.com/page/5/
         */
        for (int pageIndex = 2; pageIndex <= 5; pageIndex++) {
            String seedUrl = String.format("https://blog.github.com/page/%d/", pageIndex);
            this.addSeed(seedUrl);
        }

        /** addRegex 参数为一个 url 正则表达式, 可以用于过滤不必抓取的链接，如 .js .jpg .css ... 等
         * 也可以指定抓取某些规则的链接，如下 addRegex 中会抓取 此类地址：
         * https://blog.github.com/2018-07-13-graphql-for-octokit/
         * */
        this.addRegex("https://blog.github.com/[0-9]{4}-[0-9]{2}-[0-9]{2}-[^/]+/");
        /**
         * 过滤 jpg|png|gif 等图片地址 时：
         * this.addRegex("-.*\\.(jpg|png|gif).*");
         * 过滤 链接值为 "#" 的地址时：
         * this.addRegex("-.*#.*");
         */

        /**设置线程数*/
        setThreads(50);
        getConf().setTopN(100);

        /**
         * 是否进行断电爬取，默认为 false
         * setResumable(true);
         */
    }

    /**
     * 必须重写 visit 方法，作用是:
     * 在整个抓取过程中,只要抓到符合要求的页面,webCollector 就会回调该方法,并传入一个包含了页面所有信息的 page 对象
     *
     * @param page
     * @param next
     */
    @Override
    public void visit(Page page, CrawlDatums next) {
        String url = page.url();
        /**如果此页面地址 确实是要求爬取网址，则进行取值
         */
        if (page.matchUrl("https://blog.github.com/[0-9]{4}-[0-9]{2}-[0-9]{2}[^/]+/")) {

            /**
             * 通过 选择器 获取页面 标题以及 正文内容
             * */
            String title = page.select("h1[class=lh-condensed]").first().text();
            String content = page.selectText("div.content.markdown-body");

            System.out.println("URL:\n" + url);
            System.out.println("title:\n" + title);
            System.out.println("content:\n" + content);

        }
    }

    public static void main(String[] args) throws Exception {
        /**
         * DemoAutoNewsCrawler 构造器中会进行 数据初始化，这两个参数接着会传给父类
         * super(crawlPath, autoParse);
         * crawlPath：表示设置保存爬取记录的文件夹，本例运行之后会在应用根目录下生成一个 "crawl" 目录存放爬取信息
         * */
        DemoAutoNewsCrawler crawler = new DemoAutoNewsCrawler("crawl", true);
        /**
         * 启动爬虫，爬取的深度为4层
         * 添加的第一层种子链接,为第1层
         */
        crawler.start(4);
    }

}

运行结果

1、如下所示爬取是成功的，爬取结果有点多，截取其中少部分

2018-08-14 14:03:32 INFO cn.edu.hfut.dmic.webcollector.crawler.Crawler  - start depth 1
2018-08-14 14:03:32 INFO cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager  - start merge
2018-08-14 14:03:33 INFO cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager  - merge fetch database
2018-08-14 14:03:33 INFO cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager  - merge link database
2018-08-14 14:03:34 INFO cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager  - end merge
2018-08-14 14:03:35 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - init segmentWriter:cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager
2018-08-14 14:03:35 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - create generator:cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksGenerator
2018-08-14 14:03:35 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - use generatorFilter:cn.edu.hfut.dmic.webcollector.crawldb.StatusGeneratorFilter
2018-08-14 14:03:36 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - -activeThreads=5, spinWaiting=0, fetchQueue.size=0
2018-08-14 14:03:37 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - -activeThreads=5, spinWaiting=0, fetchQueue.size=0
2018-08-14 14:03:37 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://blog.github.com/page/2/ (URL: https://blog.github.com/page/2/)
2018-08-14 14:03:37 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://blog.github.com/ (URL: https://blog.github.com/)
2018-08-14 14:03:38 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://blog.github.com/page/5/ (URL: https://blog.github.com/page/5/)
2018-08-14 14:03:38 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://blog.github.com/page/3/ (URL: https://blog.github.com/page/3/)
2018-08-14 14:03:38 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://blog.github.com/page/4/ (URL: https://blog.github.com/page/4/)
2018-08-14 14:03:38 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - -activeThreads=0, spinWaiting=0, fetchQueue.size=0
.....
2018-08-14 14:03:38 INFO cn.edu.hfut.dmic.webcollector.crawler.Crawler  - depth 1 finish: 
	total urls:	5
	total time:	5 seconds
2018-08-14 14:03:38 INFO cn.edu.hfut.dmic.webcollector.crawler.Crawler  - start depth 2
2018-08-14 14:03:38 INFO cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager  - start merge
2018-08-14 14:03:39 INFO cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager  - merge fetch database
2018-08-14 14:03:39 INFO cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager  - merge link database
.....
URL:
https://blog.github.com/2018-03-23-require-multiple-reviewers/
title:
Require multiple reviewers for pull requests
content:
As your projects grow in size and complexity, it can be challenging to make sure all of the code changes are reviewed by enough people on your team. Now, with the a multiple reviewer requirement, you can specify exactly how many people are required to review every pull request—so important projects are protected from unwanted changes. How it works To require multiple reviewers for pull requests, go to your repository’s settings and select “Branches”. Under “Protected branches”, select the branch you’d like to protect with a multiple reviewers requirement. There you can select the number of reviewers required for each pull request to that branch. After you’ve selected the number of reviewers, you’ll see that number and the status of their reviews in the sidebar and merge section of pull requests to protected branches. Learn more about required reviews for pull requests
2018-08-14 14:03:42 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://blog.github.com/2018-03-23-require-multiple-reviewers/ (URL: https://blog.github.com/2018-03-23-require-multiple-reviewers/)
URL:
https://blog.github.com/2018-05-02-issue-template-improvements/
title:
Issue template improvements
content:
As more people contribute to your project, the issue tracker can start to feel hectic. We recently helped project maintainers set up multiple issue templates as a way to manage contributions, and now we’re following up with a better contributor experience and improved setup process. When someone opens a new issue in your project, you can now prompt them to choose from multiple issue types. To add this experience to your repository, go to the “Settings” tab and click Set up templates—or add a template from your community profile. You’ll be able to use a builder to preview and edit existing templates or create a custom template. Once these changes are merged into master, the new issue templates will be live for contributors. Head over to your project settings to get started. Learn more about creating issue templates
2018-08-14 14:03:42 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - done: [200] Key: https://blog.github.com/2018-05-02-issue-template-improvements/ (URL: https://blog.github.com/2018-05-02-issue-template-improvements/)
......
2018-08-14 14:03:55 INFO cn.edu.hfut.dmic.webcollector.crawler.Crawler  - start depth 4
2018-08-14 14:03:55 INFO cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager  - start merge
2018-08-14 14:03:55 INFO cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager  - merge fetch database
2018-08-14 14:03:56 INFO cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager  - merge link database
2018-08-14 14:03:56 INFO cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager  - end merge
2018-08-14 14:03:57 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - init segmentWriter:cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager
2018-08-14 14:03:58 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - create generator:cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksGenerator
2018-08-14 14:03:58 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - use generatorFilter:cn.edu.hfut.dmic.webcollector.crawldb.StatusGeneratorFilter
2018-08-14 14:03:58 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - -activeThreads=0, spinWaiting=0, fetchQueue.size=0
2018-08-14 14:03:58 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - clear all activeThread
2018-08-14 14:03:58 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - close generator:cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksGenerator
2018-08-14 14:03:59 INFO cn.edu.hfut.dmic.webcollector.fetcher.Fetcher  - close segmentWriter:cn.edu.hfut.dmic.webcollector.plugin.rocks.RocksDBManager
2018-08-14 14:03:59 INFO cn.edu.hfut.dmic.webcollector.crawler.Crawler  - depth 4 finish: 
	total urls:	0
	total time:	3 seconds

Process finished with exit code 0

Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
开发网络爬虫应该怎样选择爬虫框架 chunjiushi9898 爬虫 java 大数据
有些人问，开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector3.非JAVA单机爬虫：scrapy第一类:分布式爬虫爬虫使用分布式，主要是解决两个问题：1)海量U
Go colly爬虫框架精简高效【杠杠的】入门到精通 small_to_large Golang golang 爬虫 colly
1前言1.1GoColly爬虫介绍爬虫框架中，各中流行的编程语言都有自己热门框架，python中的selenium、Scrapy、PySpider等，Java中的Nutch、Crawler4j、WebMagic、WebCollector等。golang中colly使用Go语言编写的功能强大的爬虫框架，api简洁、性能强大、并发性高，githubstar接近20K。1.2安装goinitcolly.
使用java爬虫WebCollector+jsoup抓取商品分类图标柠檬冰块
背景介绍：场景是，有京东三级分类名称，没有对应图标，需要根据京东三级分类名称，获取分类名称匹配的图片，来作为商品分类图标技术选型：WebCollector+jsoup，WebCollector进行爬取，jsoup进行html解析实现步骤：1.根据根url发起请求，2.得到响应页面数据，3.对页面数据进行解析，并提取4.对图片进行下载持久化代码实现1.相关包结构说明2.代码实例links.java类
商品评论获取与词云图可视化分析不是祸津神的夜斗 mapreduce hive python
商品评论获取解析与可视化词云图制作本篇文章主要介绍如何手写爬虫爬取电商平台评论数据，以及对爬取到的内容进行解析，导入mysql数据库并进行词频统计，可视化制作词云图。涉及的技术点如下：电商网站页面分析python简单爬虫java语言的webCollector爬虫框架使用python与java分别进行json文件解析，其中java解析结合mapreducepymysql操作mysql数据库实现爬取数
java之网络爬虫介绍(非原创）故事爱人c
文章大纲一、网络爬虫基本介绍二、java常见爬虫框架介绍三、WebCollector实战四、项目源码下载五、参考文章一、网络爬虫基本介绍1.什么是网络爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。2.常见问题介绍爬虫可以爬取ajax信息么？
Java开源爬虫框架WebCollector图片抓取教程 CJX_Venus
网站中的图片和网页在本质上是相同的，图片和网页的获取本质上都是根据URL从网站中获取网页/图片的字节数组(byte[])，浏览器会根据http响应头中的content-type信息来决定以网页还是图片的形式来展示资源。爬取图的效果图如下:实现的代码如下:packageimageDownload;importjava.io.File;importjava.io.FileNotFoundExcepti
爬虫初探（一）crawler4j的robots weixin_34123613
2019独角兽企业重金招聘Python工程师标准>>>最近刚刚开始研究爬虫，身为小白的我不知道应该从何处下手，网上查了查，发现主要的开源java爬虫有nutchapache/nutch·GitHub，Heritrixinternetarchive/heritrix3·GitHub和Crawler4jyasserg/crawler4j·GitHub，还有WebCollectorCrawlScript
基于Crawler4j + jsoup实现爬虫苏州-微尘 Java相关
爬虫框架分类1.分布式爬虫Nutch2.Java单机爬虫Crawler4j、WebMagic、WebCollector3.非Java单机爬虫Scrapy开发思路根据业务需求选择合适的爬虫框架根据网站规则及业务需求抽取数据，保存到中间库数据清洗/格式化，保存到目标库基于Crawler4j+jsoup实现爬虫用Crawler4j构建多线程的web爬虫来抓取页面内容。Crawler4j的使用分为两个步骤
WebCollector java.lang.NoClassDefFoundError: org/openqa/selenium/htmlunit/HtmlUnitDriver 问题解决方案 Nucky_ Crawler WebCollector selenium
最近在做一个项目参加比赛，需要截取很多数据，意外找到了一个程序叫webcollector然而在使用的时候出了一个问题java.lang.NoClassDefFoundError:org/openqa/selenium/htmlunit/HtmlUnitDriver不停得提示这个，在网上找了很久没发现解决方案不想草草了之，google了NoClassDefFoundError，发现可能是classp
JAVA开源爬虫 WebMagic 与 WebCollector 之间比较想改名的小雄鹿 NLP 爬虫 Java 调研
WebMagic与WebCollector比较一、架构Webcollector图片来自官方文档WebMagic二、维护者WebMegic：董亿华，前点评工程师，现自主创业WebCollector:：合肥工业大学DMIC三、最近更新时间（截止至2018.4.8）WebMegic:2017.12WebCollector:2018.3四、活跃度（以github上issuse数目评价，截止至2018.4.
网页正文提取+HMM命名实体识别+CRF命名实体识别林林剑
推荐一篇博客：http://blog.csdn.net/AJAXHu/article/details/48382381开源的WebCollector爬虫确实很好用，并且提供了网页正文提取的模块。提供了图形界面的简单配置，Log也比较全面，WebCollector-Hadoop是WebCollector的分布式版本。对比自己一直使用的Scrapy-redis，感觉WebCollector更适合工业生
webcollector爬虫demo 盟易爬虫学习 java 爬虫 webcollector
由于我们公司第二季度亏了7-8亿，所以项目组没有多余的资金让我们去正规渠道买数据。然后我就走向了一天爬虫的不归路。其实Java爬虫有很多开源的框架，这边我选择的是webcollector这个中小型的框架（官网：https://github.com/CrawlScript/WebCollector，教程文档：http://datahref.com/archives/category/webcolle
多线程爬虫去重问题 xiaocxyczh 大数据
最近无聊做了一个小爬虫项目，用的是WebCollector框架，比较好上手。但爬取数据后发现有许多重复的，测试了一下是多线程的问题，一开始想到的是在插入MongoDB前判断是否有相同数据存在，但可想而知多线程出现的是问题解决不了的而且效率也很低，然后想到了用CurrentHashMap去重，搞定首先新建全局属性：publicstaticConcurrentHashMapconcurrenthash
Java爬虫-WebCollector爬虫Demo微讲解艾V古斯
Java爬虫-WebCollector爬虫Demo微讲解工作三年，第一次有时间并且有兴致写博客，文笔可能不太好并且个人是个青铜级别开发，有错误的地方请及时帮忙纠正一下，谢谢。首先贴个WebCollector的开源地址：链接:https://github.com/CrawlScript/WebCollector.关于WebCollector，我就不多做介绍了，百度一大堆，下面推荐一下写的比较全的：链
SpringBoot整合WebCollector，写入数据库艾V古斯
SpringBoot整合WebCollector，写入数据库很久不见，我又回来了！大家有没有想过，当爬虫和网页结合会是怎么样？当爬虫普及，每个人都可以自己去爬的时候会是怎么样？之前，我在百度找了一下，发现了一个八爪鱼的爬虫应用，玩了一下，发现它的思想不错，可以说是全民都会爬虫的概念，可惜的是它是收费的。?SpringBoot整合Mybatis搭建目前SpringBoot已经众所周知了，开箱即用的功
如何从网站爬取图片？ CSDNRGY java爬虫
工具WebCollector：https://www.oschina.net/p/webcollector概述突然想把xx网站的图片下载下来，但是一张一张的去另存为很是不爽，于是乎上网找了一个java爬虫。上面链接里面的爬虫文档写的已经非常详细了。我在这里面就简单的说下：打开上面的链接，搜索【WebCollector图片抓取教程】，打开链接后，你会发现有非常详细的教程。核心语法//添加种子URLd
使用htmlparser爬虫技术爬取电影网页的全部下载链接 dengzi2536 爬虫 git 开发工具
使用htmlparser爬虫技术爬取电影网页的全部下载链接昨天，我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲，而且还包括付费的在内，如果时间允许的话，可以获取更多的音乐下来，当然，也有小伙伴留言说这样会降低国人的知识产权保护意识，诚然，我们的重点在于如何灵活运用我们已学的技术，这就需要我们不断的练习，不停的思索和深入发掘，在了解了精髓和意义之后运用到实践中才是技术的最高境
开源爬虫框架各有什么优缺点？ zyj8170 爬虫教程
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector3.非JAVA单机爬虫：scrapy、pyspiderhttp://www.pyspider.cn/book/
用WebCollector 2.x爬取新浪微博（无需手动获取cookie) lifaming15
用WebCollector2.x配合另一个项目WeiboHelper，就可以直接爬取新浪微博的数据（无需手动获取cookie）1.导入WebCollector2.x和WeiboHelper的所有jar包两个项目的地址：http://git.oschina.net/webcollector/WebCollectorhttp://git.oschina.net/webcollector/WeiboHe
开源爬虫框架各有什么优缺点？蛋蛋说
作者：老夏开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector3.非JAVA单机爬虫：scrapyPython爬虫的工具列表附Github代码下载链接33款可用来
开源爬虫框架各有什么优缺点嘟哒大数据
开源爬虫框架各有什么优缺点？作者：老夏开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch2.Java单机爬虫：Crawler4j、WebMagic、WebCollector3.非JAVA单机爬虫：scrapy第一类:分布式爬虫爬虫使用分布式，主
网络爬虫爬取数据本地数据库储存远程api分析模型 Wheeehan
序言20161119写本次项目工程：第一部分：https://github.com/RenjiaLu9527/WebMagic_test-20161119—mysq第二部分：https://github.com/RenjiaLu9527/JFreeChart-20161119/相关博客、论坛网站链接如下WebMagic简单灵活的爬虫框架。http://webmagic.ioWebCollector
java爬虫框架Webcontroller 我是小袋子
git地址：https://github.com/CrawlScript/WebCollector业务需要爬取一个网站所有手机信息，最开始用了crawler4j这个框架，挺简单的，但是发现不能满足我的需求；只支持单页面信息抓取，但是我是要多页面抓取；需要在一级页面抓取到所有的二级页面的链接，再加入所有二级页面的链接，进行抓取所有三级页面的信息；后来改成了webcontroller，发现可以实现我的
java之网络爬虫介绍编程鸭互联网编程语言软件开发 Java开发
文章大纲一、网络爬虫基本介绍二、java常见爬虫框架介绍三、WebCollector实战四、项目源码下载五、参考文章一、网络爬虫基本介绍1.什么是网络爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。2.常见问题介绍爬虫可以爬取ajax信息么？
Java之网络爬虫WebCollector+selenium+phantomjs(二) oSayMissyou0 心情随笔
上一篇做小例子的时候，在获取页面上价格的时候发现，获取不到，查了下说是webcollector需要结合selenium与phantomjs来获取js生成的动态。下面就做个例子来学习。准备材料在上一篇已经准备完毕，我是在windows系统上进行的测试，所以phantomjs运行环境下载phantomjs-windows下载即可，下载后解压到某个文件夹即可(可以把解压路径添加到环境变量里，如果没有加到
java常用的爬虫框架 cui_yonghua 爬虫总结和详解
目前主流的Java爬虫框架主要有Nutch、Crawler4j、WebMagic、WebCollector等。1.分布式爬虫：Nutchgithub地址：https://github.com/andrewcao95/nutch-crawlerNutch是apache旗下的一个用Java实现的开源索引引擎项目，通过nutch，诞生了hadoop、tika、gora。Nutch的设计初衷主要是为了解决
Webcollector 判定爬虫结束努力加载中爬虫
本人使用的版本是webcollector-2.40-beta-bin下载地址↓↓↓↓↓↓↓↓WebCollector爬虫官网：https://github.com/CrawlScript/WebCollector国内镜像：http://git.oschina.net/webcollector/WebCollector使用教程：http://blog.csdn.net/ajaxhu/article/
推荐十个优秀的Java开源爬虫 zsuxiong
1：JAVA爬虫WebCollectorStar:1345下载地址：http://www.17ky.net/soft/9278.html爬虫简介：WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。爬虫内核：W
使用webcollector爬虫技术获取网易云音乐全部歌曲 dengzi2536
使用webcollector爬虫技术获取网易云音乐全部歌曲最近在知乎上看到一个话题，说使用爬虫技术获取网易云音乐上的歌曲，甚至还包括付费的歌曲，哥瞬间心动了，这年头，好听的流行音乐或者经典老歌都开始收费了，只能听不能下载，着实很郁闷，现在机会来了，于是开始研究爬虫技术，翻阅各种资料，最终选择网友们一致认为比较好用的webcollector框架来实现。首先，我们来认识一下webcollector,w
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

WebCollector 简介与 快速入门

WebCollerctor 简介

内核构架图

WebCollector 2.x 版本特性

WebCollector 快速入门

你可能感兴趣的:(WebCollector)

WebCollector 简介与快速入门