webcollector 第3页

WebCollector 2.09 发布

WebCollector2.09发布,更新详情：http://nutcher.org/topics/63

AJAXHu·2015-06-24 13:00

Tiny VS 其它开源产品

WebCollector TinyXmlParse

j2eetop·2015-06-09 16:00

WebCollector多代理切换机制

本教程利用WebCollector爬取大众点评，展示WebCollector的多代理切换机制，相关内容都在代码注释中。

ajaxhu·2015-04-26 20:28

WebCollector多代理切换机制

本教程利用WebCollector爬取大众点评，展示WebCollector的多代理切换机制，相关内容都在代码注释中。

AJAXHu·2015-04-26 20:00

基于WebCollector 2.x的增量更新机制，制作新闻采集APP

WebCollector2.x的增量更新机制，适合采集门户网站的更新新闻信息。基于WebCollector2.x我们制作了AndroidAPP程序员杂志。

ajaxhu·2015-02-11 23:07

基于WebCollector 2.x的增量更新机制，制作新闻采集APP

WebCollector2.x的增量更新机制，适合采集门户网站的更新新闻信息。基于WebCollector2.x我们制作了AndroidAPP程序员杂志。

AJAXHu·2015-02-11 23:00

用WebCollector 2.x爬取新浪微博（无需手动获取cookie)

教程已转移：http://datahref.com/topics/1608WebCollector爬虫官网：https://github.com/CrawlScript/WebCollector技术讨论群

ajaxhu·2015-01-02 22:38

用WebCollector 2.x爬取新浪微博（无需手动获取cookie)

教程已转移：http://datahref.com/topics/1608WebCollector爬虫官网：https://github.com/CrawlScript/WebCollector技术讨论群

AJAXHu·2015-01-02 22:00

开发网络爬虫应该怎样选择爬虫框架？

有些人问，开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？

ajaxhu·2014-12-24 14:26

开发网络爬虫应该怎样选择爬虫框架？

有些人问，开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？

AJAXHu·2014-12-24 14:00

JAVA爬虫 WebCollector

爬虫简介：WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。

u014723529·2014-12-03 21:00

WebCollector提供免费代理

大约每5分钟，推送可用免费高匿代理，这些代理都是在推送前几分钟通过测试的代理。爬虫使用最新的代理，可以大大减少自己清洗代理的时间。代理推送地址：http://www.brieftools.info/proxy/

ajaxhu·2014-11-07 23:44

WebCollector提供免费代理

大约每5分钟，推送可用免费高匿代理，这些代理都是在推送前几分钟通过测试的代理。爬虫使用最新的代理，可以大大减少自己清洗代理的时间。代理推送地址：http://www.brieftools.info/proxy/

AJAXHu·2014-11-07 23:00

用WebCollector爬取网站的图片

用WebCollector爬取整站图片，只需要遍历整站页面，然后将URL为.jpg、gif的页面（文件）保存到本地即可。

AJAXHu·2014-11-06 00:00

用WebCollector爬取网站的图片

用WebCollector爬取整站图片，只需要遍历整站页面，然后将URL为.jpg、gif的页面（文件）保存到本地即可。

ajaxhu·2014-11-06 00:00

WebCollector Cookbook (WebCollector中文文档)

WebCollectorCookbook(WebCollector中文文档):http://www.brieftools.info/document/webcollector/

ajaxhu·2014-10-04 21:00

WebCollector Cookbook (WebCollector中文文档)

WebCollectorCookbook(WebCollector中文文档):http://www.brieftools.info/document/webcollector/

AJAXHu·2014-10-04 21:00

WebCollector爬虫的redis插件

使用WebCollector的redis插件，进行爬取。

ajaxhu·2014-10-03 23:00

WebCollector爬虫的redis插件

使用WebCollector的redis插件，进行爬取。

AJAXHu·2014-10-03 23:00

在WebCollector爬虫中，自定义http请求

对一些访问受限的网站进行爬取（例如需要登录、切换代理），往往需要进行自定义http请求。BreadthCrawler默认使用JDK自带的HttpUrlConnection进行http请求，下面示例通过自定义http请求，使用httpclient4.x进行http请求。（需要导入httpclient4.x所需jar包，或添加httpclient4.x的mavendependency).importc

ajaxhu·2014-10-03 23:00

在WebCollector爬虫中，自定义http请求

对一些访问受限的网站进行爬取（例如需要登录、切换代理），往往需要进行自定义http请求。BreadthCrawler默认使用JDK自带的HttpUrlConnection进行http请求，下面示例通过自定义http请求，使用httpclient4.x进行http请求。（需要导入httpclient4.x所需jar包，或添加httpclient4.x的mavendependency).importc

AJAXHu·2014-10-03 23:00

WebCollector爬虫的数据持久化

WebCollector爬虫并不像scrapy那样，提供一个pipeline这样的数据持久化接口。

ajaxhu·2014-10-03 23:00

WebCollector爬虫的数据持久化

WebCollector爬虫并不像scrapy那样，提供一个pipeline这样的数据持久化接口。

AJAXHu·2014-10-03 23:00

WebCollector爬虫使用内置的Jsoup进行网页抽取

WebCollector建议使用内置的Jsoup进行网页抽取。从网页抽取的稳定性角度来说，Jsoup使用的CSSSELECTOR无疑是最稳定的抽取特征。

AJAXHu·2014-10-03 22:00

WebCollector爬虫使用内置的Jsoup进行网页抽取

WebCollector建议使用内置的Jsoup进行网页抽取。从网页抽取的稳定性角度来说，Jsoup使用的CSSSELECTOR无疑是最稳定的抽取特征。

ajaxhu·2014-10-03 22:00

WebCollector爬虫的各种参数配置（代理、断点等）

BreadthCrawler是WebCollector最常用的爬取器之一，依赖文件系统进行爬取信息的存储。

ajaxhu·2014-10-03 22:00

WebCollector爬虫的各种参数配置（代理、断点等）

BreadthCrawler是WebCollector最常用的爬取器之一，依赖文件系统进行爬取信息的存储。

AJAXHu·2014-10-03 22:00

WebCollector爬虫爬取一个或多个网站

个东西是必备的：1）种子2）正则约束3）对每个页面的自定义操作（BreadthCrawler默认的visit方法是将网页保存到文件夹，建议覆盖，改成自己的自定义操作）importcn.edu.hfut.dmic.webcollector.crawler.Br

AJAXHu·2014-10-03 22:00

WebCollector爬虫爬取一个或多个网站

个东西是必备的：1）种子2）正则约束3）对每个页面的自定义操作（BreadthCrawler默认的visit方法是将网页保存到文件夹，建议覆盖，改成自己的自定义操作）importcn.edu.hfut.dmic.webcollector.crawler.Br

ajaxhu·2014-10-03 22:00

WebCollector爬虫的种子

网络爬虫之所以能够不断找到新的网页，是因为它能够从已经爬取的页面中，提取出未爬取的超链接，但是当爬虫开启的时候，是没有已知网页的。所以我们需要告诉爬虫至少1个url,让爬虫通过爬取这个url对应的网页，来找到新的网页（通过超链接抽取）。对于广度遍历来说，种子就是树的树根（森林的树根集合）。例如下图，对http://www.apache.org/进行爬取，http://www.apache.org/

ajaxhu·2014-10-03 21:00

WebCollector爬虫的种子

网络爬虫之所以能够不断找到新的网页，是因为它能够从已经爬取的页面中，提取出未爬取的超链接，但是当爬虫开启的时候，是没有已知网页的。所以我们需要告诉爬虫至少1个url,让爬虫通过爬取这个url对应的网页，来找到新的网页（通过超链接抽取）。对于广度遍历来说，种子就是树的树根（森林的树根集合）。例如下图，对http://www.apache.org/进行爬取，http://www.apache.org/

AJAXHu·2014-10-03 21:00

将WebCollector导入MAVEN项目

WebCollector可通过MAVEN直接导入项目，在pom.xml中添加dependency:cn.edu.hfut.dmic.webcollectorWebCollector1.31

ajaxhu·2014-10-03 21:00

将WebCollector导入MAVEN项目

WebCollector可通过MAVEN直接导入项目，在pom.xml中添加dependency: cn.edu.hfut.dmic.webcollector WebCollector 1.31

AJAXHu·2014-10-03 21:00

将WebCollector导入普通项目

查看教程：WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫

ajaxhu·2014-10-03 21:02

将WebCollector导入普通项目

查看教程：WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫

AJAXHu·2014-10-03 21:00

用WebCollector下载在线API文档

用WebCollector下载的在线API文档，发布在精简导航上：JAVA6的中文API：http://www.brieftools.info/document/JDK60/JSOUP中文教程：http

AJAXHu·2014-10-03 17:00

用WebCollector下载在线API文档

用WebCollector下载的在线API文档，发布在精简导航上：JAVA6的中文API：http://www.brieftools.info/document/JDK60/JSOUP中文教程：http

ajaxhu·2014-10-03 17:00

WebCollector内核解析—如何设计一个爬虫

本文利用WebCollector内核的解析，来描述如何设计一个网络爬虫。我们先来看看两个非常优秀爬虫的设计。

ajaxhu·2014-09-27 13:00

WebCollector内核解析—如何设计一个爬虫

本文利用WebCollector内核的解析，来描述如何设计一个网络爬虫。我们先来看看两个非常优秀爬虫的设计。

AJAXHu·2014-09-27 13:00

WebCollector内核解析—如何设计一个爬虫

本文利用WebCollector内核的解析，来描述如何设计一个网络爬虫。我们先来看看两个非常优秀爬虫的设计。

AJAXHu·2014-09-27 13:00

WebCollector入门教程

1.将WebCollector导入工程：进入WebCollector主页：https://github.com/CrawlScript/WebCollector下载：webcollector-版本号-bin.zip

雯雯要加油·2014-09-13 21:14

java的WebCollector爬虫框架

WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有

oloz·2014-09-05 17:00

用WebCollector爬取新浪微博数据

教程已转移：http://datahref.com/archives/28WebCollector爬取新浪微博等完整示例工程可加群250108697或345054141从群文件中下载。

ajaxhu·2014-09-01 17:57

用WebCollector爬取新浪微博数据

article=webcollector_WeiboCrawlerWebCollector爬虫官网：https://github.com/CrawlScript/WebCollector技术讨论群：250108697

AJAXHu·2014-09-01 17:00

用WebCollector爬取新浪微博数据

用WebCollector可以轻松爬取新浪微博的数据.首先需要一个能查看cookie的浏览器插件,推荐使用firefox浏览器+firebug(插件).具体步骤:1.用浏览器打开http://weibo.cn

ajaxhu·2014-09-01 17:00

用WebCollector爬取新浪微博数据

用WebCollector可以轻松爬取新浪微博的数据.首先需要一个能查看cookie的浏览器插件,推荐使用firefox浏览器+firebug(插件).具体步骤:1.用浏览器打开http://weibo.cn

AJAXHu·2014-09-01 17:00

用WebCollector制作的博客推送网站

发现ruby-china中很多在github.io上的个人博客文章质量还是不错的.但是很少文章被转载和收录.所以我对ruby-china中很多用户个人博客做了个推送网站,希望这些优秀博客可以被看到.http://www.brieftools.info/blogger/如果有博主希望被收录,回复网址即可.注意:网页每半分钟变动一次.

AJAXHu·2014-09-01 01:00

JAVA爬虫Nutch、WebCollector的正则约束

爬虫爬取时，需要约束爬取的范围。基本所有的爬虫都是通过正则表达式来完成这个约束。最简单的，正则：http://www.xinhuanet.com/.*代表"http://www.xinhuanet.com/"后加任意个任意字符（可以是0个）。通过这个正则可以约束爬虫的爬取范围,但是这个正则并不是表示爬取新华网所有的网页。新华网并不是只有www.xinhuanet.com这一个域名，还有很多子域名，

AJAXHu·2014-08-28 21:00

JAVA爬虫WebCollector教程列表

JAVA爬虫WebCollector教程列表JAVA爬虫WebCollector2.x入门教程——基本概念WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫WebCollector

ajaxhu·2014-08-28 14:57

JAVA爬虫WebCollector教程列表

JAVA爬虫WebCollector教程列表入门教程：WebCollector入门教程（中文版）用WebCollector对指定URL进行爬取和解析用WebCollector进行二次开发，定制自己的爬虫

ajaxhu·2014-08-28 14:00

推荐频道

webcollector

WebCollector 2.09 发布

Tiny VS 其它开源产品

WebCollector多代理切换机制

WebCollector多代理切换机制

基于WebCollector 2.x的增量更新机制，制作新闻采集APP

基于WebCollector 2.x的增量更新机制，制作新闻采集APP

用WebCollector 2.x爬取新浪微博（无需手动获取cookie)

用WebCollector 2.x爬取新浪微博（无需手动获取cookie)

开发网络爬虫应该怎样选择爬虫框架？

开发网络爬虫应该怎样选择爬虫框架？

JAVA爬虫 WebCollector

WebCollector提供免费代理

WebCollector提供免费代理

用WebCollector爬取网站的图片

用WebCollector爬取网站的图片

WebCollector Cookbook (WebCollector中文文档)

WebCollector Cookbook (WebCollector中文文档)

WebCollector爬虫的redis插件

WebCollector爬虫的redis插件

在WebCollector爬虫中，自定义http请求

在WebCollector爬虫中，自定义http请求

WebCollector爬虫的数据持久化

WebCollector爬虫的数据持久化

WebCollector爬虫使用内置的Jsoup进行网页抽取

WebCollector爬虫使用内置的Jsoup进行网页抽取

WebCollector爬虫的各种参数配置（代理、断点等）

WebCollector爬虫的各种参数配置（代理、断点等）

WebCollector爬虫爬取一个或多个网站

WebCollector爬虫爬取一个或多个网站

WebCollector爬虫的种子

WebCollector爬虫的种子

将WebCollector导入MAVEN项目

将WebCollector导入MAVEN项目

将WebCollector导入普通项目

将WebCollector导入普通项目

用WebCollector下载在线API文档

用WebCollector下载在线API文档

WebCollector内核解析—如何设计一个爬虫

WebCollector内核解析—如何设计一个爬虫

WebCollector内核解析—如何设计一个爬虫

WebCollector入门教程

java的WebCollector爬虫框架

用WebCollector爬取新浪微博数据

用WebCollector爬取新浪微博数据

用WebCollector爬取新浪微博数据

用WebCollector爬取新浪微博数据

用WebCollector制作的博客推送网站

JAVA爬虫Nutch、WebCollector的正则约束

JAVA爬虫WebCollector教程列表

JAVA爬虫WebCollector教程列表