E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
webcollector
WebCollector
2.09 发布
WebCollector
2.09发布,更新详情:http://nutcher.org/topics/63
AJAXHu
·
2015-06-24 13:00
网络爬虫
java爬虫
webcollector
开源爬虫
Tiny VS 其它开源产品
WebCollector
TinyXmlParse
j2eetop
·
2015-06-09 16:00
开源
WebCollector
多代理切换机制
本教程利用
WebCollector
爬取大众点评,展示
WebCollector
的多代理切换机制,相关内容都在代码注释中。
ajaxhu
·
2015-04-26 20:28
webcollector
WebCollector
多代理切换机制
本教程利用
WebCollector
爬取大众点评,展示
WebCollector
的多代理切换机制,相关内容都在代码注释中。
AJAXHu
·
2015-04-26 20:00
代理
java爬虫
webcollector
反爬虫
多代理
基于
WebCollector
2.x的增量更新机制,制作新闻采集APP
WebCollector
2.x的增量更新机制,适合采集门户网站的更新新闻信息。基于
WebCollector
2.x我们制作了AndroidAPP程序员杂志。
ajaxhu
·
2015-02-11 23:07
android产品
基于
WebCollector
2.x的增量更新机制,制作新闻采集APP
WebCollector
2.x的增量更新机制,适合采集门户网站的更新新闻信息。基于
WebCollector
2.x我们制作了AndroidAPP程序员杂志。
AJAXHu
·
2015-02-11 23:00
网络爬虫
新闻采集
新闻App
程序员杂志
新闻爬虫
用
WebCollector
2.x爬取新浪微博(无需手动获取cookie)
教程已转移:http://datahref.com/topics/1608
WebCollector
爬虫官网:https://github.com/CrawlScript/
WebCollector
技术讨论群
ajaxhu
·
2015-01-02 22:38
webcollector
用
WebCollector
2.x爬取新浪微博(无需手动获取cookie)
教程已转移:http://datahref.com/topics/1608
WebCollector
爬虫官网:https://github.com/CrawlScript/
WebCollector
技术讨论群
AJAXHu
·
2015-01-02 22:00
微博
java爬虫
webcollector
微博爬虫
新浪微博爬虫
开发网络爬虫应该怎样选择爬虫框架?
有些人问,开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、
WebCollector
还是其他的?
ajaxhu
·
2014-12-24 14:26
网络爬虫
开发网络爬虫应该怎样选择爬虫框架?
有些人问,开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、
WebCollector
还是其他的?
AJAXHu
·
2014-12-24 14:00
爬虫
Nutch
网络爬虫
java爬虫
开源爬虫
JAVA爬虫
WebCollector
爬虫简介:
WebCollector
是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。
u014723529
·
2014-12-03 21:00
线程
爬虫
数据
扩展
WebCollector
提供免费代理
大约每5分钟,推送可用免费高匿代理,这些代理都是在推送前几分钟通过测试的代理。爬虫使用最新的代理,可以大大减少自己清洗代理的时间。代理推送地址:http://www.brieftools.info/proxy/
ajaxhu
·
2014-11-07 23:44
webcollector
WebCollector
提供免费代理
大约每5分钟,推送可用免费高匿代理,这些代理都是在推送前几分钟通过测试的代理。爬虫使用最新的代理,可以大大减少自己清洗代理的时间。代理推送地址:http://www.brieftools.info/proxy/
AJAXHu
·
2014-11-07 23:00
代理
爬虫
java爬虫
免费代理
webcollector
用
WebCollector
爬取网站的图片
用
WebCollector
爬取整站图片,只需要遍历整站页面,然后将URL为.jpg、gif的页面(文件)保存到本地即可。
AJAXHu
·
2014-11-06 00:00
爬虫
图片
java爬虫
webcollector
爬取图片
用
WebCollector
爬取网站的图片
用
WebCollector
爬取整站图片,只需要遍历整站页面,然后将URL为.jpg、gif的页面(文件)保存到本地即可。
ajaxhu
·
2014-11-06 00:00
WebCollector
Cookbook (
WebCollector
中文文档)
WebCollector
Cookbook(
WebCollector
中文文档):http://www.brieftools.info/document/
webcollector
/
ajaxhu
·
2014-10-04 21:00
WebCollector
Cookbook (
WebCollector
中文文档)
WebCollector
Cookbook(
WebCollector
中文文档):http://www.brieftools.info/document/
webcollector
/
AJAXHu
·
2014-10-04 21:00
webcollector
webcollector
cookboo
webcollector手册
WebCollector
爬虫的redis插件
使用
WebCollector
的redis插件,进行爬取。
ajaxhu
·
2014-10-03 23:00
WebCollector
爬虫的redis插件
使用
WebCollector
的redis插件,进行爬取。
AJAXHu
·
2014-10-03 23:00
redis
爬虫
插件
java爬虫
webcollector
在
WebCollector
爬虫中,自定义http请求
对一些访问受限的网站进行爬取(例如需要登录、切换代理),往往需要进行自定义http请求。BreadthCrawler默认使用JDK自带的HttpUrlConnection进行http请求,下面示例通过自定义http请求,使用httpclient4.x进行http请求。(需要导入httpclient4.x所需jar包,或添加httpclient4.x的mavendependency).importc
ajaxhu
·
2014-10-03 23:00
在
WebCollector
爬虫中,自定义http请求
对一些访问受限的网站进行爬取(例如需要登录、切换代理),往往需要进行自定义http请求。BreadthCrawler默认使用JDK自带的HttpUrlConnection进行http请求,下面示例通过自定义http请求,使用httpclient4.x进行http请求。(需要导入httpclient4.x所需jar包,或添加httpclient4.x的mavendependency).importc
AJAXHu
·
2014-10-03 23:00
代理
爬虫
登录
java爬虫
webcollector
WebCollector
爬虫的数据持久化
WebCollector
爬虫并不像scrapy那样,提供一个pipeline这样的数据持久化接口。
ajaxhu
·
2014-10-03 23:00
WebCollector
爬虫的数据持久化
WebCollector
爬虫并不像scrapy那样,提供一个pipeline这样的数据持久化接口。
AJAXHu
·
2014-10-03 23:00
数据库
爬虫
持久化
java爬虫
webcollector
WebCollector
爬虫使用内置的Jsoup进行网页抽取
WebCollector
建议使用内置的Jsoup进行网页抽取。从网页抽取的稳定性角度来说,Jsoup使用的CSSSELECTOR无疑是最稳定的抽取特征。
AJAXHu
·
2014-10-03 22:00
JSoup
网页解析
抽取
webcollector
网页抽取
WebCollector
爬虫使用内置的Jsoup进行网页抽取
WebCollector
建议使用内置的Jsoup进行网页抽取。从网页抽取的稳定性角度来说,Jsoup使用的CSSSELECTOR无疑是最稳定的抽取特征。
ajaxhu
·
2014-10-03 22:00
WebCollector
爬虫的各种参数配置(代理、断点等)
BreadthCrawler是
WebCollector
最常用的爬取器之一,依赖文件系统进行爬取信息的存储。
ajaxhu
·
2014-10-03 22:00
WebCollector
爬虫的各种参数配置(代理、断点等)
BreadthCrawler是
WebCollector
最常用的爬取器之一,依赖文件系统进行爬取信息的存储。
AJAXHu
·
2014-10-03 22:00
代理
爬虫
断点
java爬虫
webcollector
WebCollector
爬虫爬取一个或多个网站
个东西是必备的:1)种子2)正则约束3)对每个页面的自定义操作(BreadthCrawler默认的visit方法是将网页保存到文件夹,建议覆盖,改成自己的自定义操作)importcn.edu.hfut.dmic.
webcollector
.crawler.Br
AJAXHu
·
2014-10-03 22:00
java
爬虫
java爬虫
爬取
webcollector
WebCollector
爬虫爬取一个或多个网站
个东西是必备的:1)种子2)正则约束3)对每个页面的自定义操作(BreadthCrawler默认的visit方法是将网页保存到文件夹,建议覆盖,改成自己的自定义操作)importcn.edu.hfut.dmic.
webcollector
.crawler.Br
ajaxhu
·
2014-10-03 22:00
WebCollector
爬虫的种子
网络爬虫之所以能够不断找到新的网页,是因为它能够从已经爬取的页面中,提取出未爬取的超链接,但是当爬虫开启的时候,是没有已知网页的。所以我们需要告诉爬虫至少1个url,让爬虫通过爬取这个url对应的网页,来找到新的网页(通过超链接抽取)。对于广度遍历来说,种子就是树的树根(森林的树根集合)。例如下图,对http://www.apache.org/进行爬取,http://www.apache.org/
ajaxhu
·
2014-10-03 21:00
WebCollector
爬虫的种子
网络爬虫之所以能够不断找到新的网页,是因为它能够从已经爬取的页面中,提取出未爬取的超链接,但是当爬虫开启的时候,是没有已知网页的。所以我们需要告诉爬虫至少1个url,让爬虫通过爬取这个url对应的网页,来找到新的网页(通过超链接抽取)。对于广度遍历来说,种子就是树的树根(森林的树根集合)。例如下图,对http://www.apache.org/进行爬取,http://www.apache.org/
AJAXHu
·
2014-10-03 21:00
java爬虫
种子
webcollector
将
WebCollector
导入MAVEN项目
WebCollector
可通过MAVEN直接导入项目,在pom.xml中添加dependency:cn.edu.hfut.dmic.
webcollector
WebCollector
1.31
ajaxhu
·
2014-10-03 21:00
将
WebCollector
导入MAVEN项目
WebCollector
可通过MAVEN直接导入项目,在pom.xml中添加dependency: cn.edu.hfut.dmic.
webcollector
WebCollector
1.31
AJAXHu
·
2014-10-03 21:00
maven
爬虫
导入
java爬虫
webcollector
将
WebCollector
导入普通项目
查看教程:
WebCollector
教程——在Eclipse项目中配置使用
WebCollector
爬虫
ajaxhu
·
2014-10-03 21:02
webcollector
将
WebCollector
导入普通项目
查看教程:
WebCollector
教程——在Eclipse项目中配置使用
WebCollector
爬虫
AJAXHu
·
2014-10-03 21:00
爬虫
项目
导入
java爬虫
webcollector
用
WebCollector
下载在线API文档
用
WebCollector
下载的在线API文档,发布在精简导航上:JAVA6的中文API:http://www.brieftools.info/document/JDK60/JSOUP中文教程:http
AJAXHu
·
2014-10-03 17:00
api
下载
文档
java爬虫
webcollector
用
WebCollector
下载在线API文档
用
WebCollector
下载的在线API文档,发布在精简导航上:JAVA6的中文API:http://www.brieftools.info/document/JDK60/JSOUP中文教程:http
ajaxhu
·
2014-10-03 17:00
WebCollector
内核解析—如何设计一个爬虫
本文利用
WebCollector
内核的解析,来描述如何设计一个网络爬虫。我们先来看看两个非常优秀爬虫的设计。
ajaxhu
·
2014-09-27 13:00
WebCollector
内核解析—如何设计一个爬虫
本文利用
WebCollector
内核的解析,来描述如何设计一个网络爬虫。我们先来看看两个非常优秀爬虫的设计。
AJAXHu
·
2014-09-27 13:00
Nutch
java爬虫
webcollector
爬虫设计
爬虫内核
WebCollector
内核解析—如何设计一个爬虫
本文利用
WebCollector
内核的解析,来描述如何设计一个网络爬虫。我们先来看看两个非常优秀爬虫的设计。
AJAXHu
·
2014-09-27 13:00
解析
内核
webcollector
WebCollector
入门教程
1.将
WebCollector
导入工程:进入
WebCollector
主页:https://github.com/CrawlScript/
WebCollector
下载:
webcollector
-版本号-bin.zip
雯雯要加油
·
2014-09-13 21:14
爬虫
java的
WebCollector
爬虫框架
WebCollector
主页: https://github.com/CrawlScript/
WebCollector
下载:
webcollector
-版本号-bin.zip将解压后文件夹中的所有
oloz
·
2014-09-05 17:00
爬虫
用
WebCollector
爬取新浪微博数据
教程已转移:http://datahref.com/archives/28
WebCollector
爬取新浪微博等完整示例工程可加群250108697或345054141从群文件中下载。
ajaxhu
·
2014-09-01 17:57
webcollector
用
WebCollector
爬取新浪微博数据
article=
webcollector
_WeiboCrawler
WebCollector
爬虫官网:https://github.com/CrawlScript/
WebCollector
技术讨论群:250108697
AJAXHu
·
2014-09-01 17:00
java
爬虫
webcollector
新浪微博爬虫
爬取新浪微博
用
WebCollector
爬取新浪微博数据
用
WebCollector
可以轻松爬取新浪微博的数据.首先需要一个能查看cookie的浏览器插件,推荐使用firefox浏览器+firebug(插件).具体步骤:1.用浏览器打开http://weibo.cn
ajaxhu
·
2014-09-01 17:00
用
WebCollector
爬取新浪微博数据
用
WebCollector
可以轻松爬取新浪微博的数据.首先需要一个能查看cookie的浏览器插件,推荐使用firefox浏览器+firebug(插件).具体步骤:1.用浏览器打开http://weibo.cn
AJAXHu
·
2014-09-01 17:00
数据
新浪微博
webcollector
用
WebCollector
制作的博客推送网站
发现ruby-china中很多在github.io上的个人博客文章质量还是不错的.但是很少文章被转载和收录.所以我对ruby-china中很多用户个人博客做了个推送网站,希望这些优秀博客可以被看到.http://www.brieftools.info/blogger/如果有博主希望被收录,回复网址即可.注意:网页每半分钟变动一次.
AJAXHu
·
2014-09-01 01:00
Ruby
机器人
webcollector
博客收录
JAVA爬虫Nutch、
WebCollector
的正则约束
爬虫爬取时,需要约束爬取的范围。基本所有的爬虫都是通过正则表达式来完成这个约束。最简单的,正则:http://www.xinhuanet.com/.*代表"http://www.xinhuanet.com/"后加任意个任意字符(可以是0个)。通过这个正则可以约束爬虫的爬取范围,但是这个正则并不是表示爬取新华网所有的网页。新华网并不是只有www.xinhuanet.com这一个域名,还有很多子域名,
AJAXHu
·
2014-08-28 21:00
java
爬虫
nutch
JAVA爬虫
WebCollector
教程列表
JAVA爬虫
WebCollector
教程列表JAVA爬虫
WebCollector
2.x入门教程——基本概念
WebCollector
教程——在Eclipse项目中配置使用
WebCollector
爬虫
WebCollector
ajaxhu
·
2014-08-28 14:57
webcollector
JAVA爬虫
WebCollector
教程列表
JAVA爬虫
WebCollector
教程列表入门教程:
WebCollector
入门教程(中文版)用
WebCollector
对指定URL进行爬取和解析用
WebCollector
进行二次开发,定制自己的爬虫
ajaxhu
·
2014-08-28 14:00
上一页
1
2
3
4
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他