E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
webMagic
Webmagic
一个网络爬虫工具包
webmagic
是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。
webmagic
的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。
aoyouzi
·
2014-09-05 04:00
网络
工具
webmagic
抽取百度收录链接(二)—爬取链接获取真实链接
[weblinkurl="https://github.com/code4craft/
webmagic
"]
webmagic
[/weblink]
webmagic
webmagic
是一个开源的Java垂直爬虫框架
你要爪子
·
2014-07-19 16:00
java
httpclient
百度蜘蛛
webmagic
爬虫程序
packagecom.letv.cloud.spider;importjava.util.HashSet;importjava.util.List;importus.codecraft.
webmagic
.Page
爱之深啊
·
2014-07-03 17:18
网站模板
webmagic
爬虫程序
packagecom.letv.cloud.spider;importjava.util.HashSet;importjava.util.List;importus.codecraft.
webmagic
.Page
爱之深啊
·
2014-07-03 17:18
网站模板
基于
WebMagic
爬虫定制的持久化模块(TXT)
import java.io.PrintWriter; import java.util.Map; import org.apache.log4j.Logger; import us.codecraft.
webmagic
.ResultItems
donglin_li
·
2014-05-10 22:00
java
txt
持久化
webmagic
如何用爬虫
webmagic
采集海量美图(demo附源代码)(二)
完整代码见: http://www.oschina.net/code/snippet_1397325_35514如何用爬虫
webmagic
采集海量美图(demo附源代码)(一)链接:http://my.oschina.net
javaex999
·
2014-05-05 00:00
如何用爬虫
webmagic
采集海量美图(demo附源代码)(一)
完整代码见: http://www.oschina.net/code/snippet_1397325_35514
webmagic
是黄亿华 做的一个开源爬虫项目.网址:http://
webmagic
.io
javaex999
·
2014-05-05 00:00
使用
webmagic
实现爬虫程序示例分享
复制代码代码如下:packagecom.letv.cloud.spider;importjava.util.HashSet;importjava.util.List;importus.codecraft.
webmagic
.Page
·
2014-04-17 09:01
WebMagic
监控方案设计
这是0.5.0新增的功能,目前仍在开发和测试中,欢迎提出意见。目前的计划是:提供JMXAPI,可以使用JConsole等工具连接,然后在外部提供一个Web项目,可以在Web页面上进行监控。欢迎去github#issue98反馈意见。监控的启动方式实例化一个SpiderMonitor即可。publicstaticvoidmain(String[]args)throwsJMException, Nul
黄亿华
·
2014-04-17 08:00
jmx
webmagic
WebMagic
的设计思想
1.1
WebMagic
的设计思想本文是
WebMagic
文档的一部分。系列文章写完后,会整合到
WebMagic
新版文档中。1.一个框架,一个领域一个好的框架必然凝聚了领域知识。
黄亿华
·
2014-04-09 18:00
框架
领域
webmagic
WebMagic
使用说明-基本的爬虫
本文是
WebMagic
文档的一部分。系列文章写完后,会整合到
WebMagic
新版文档中。
黄亿华
·
2014-04-04 15:00
xpath
webmagic
pageprocessor
WebMagic
使用说明-安装篇
WebMagic
使用说明-安装篇本文是
WebMagic
文档的一部分。系列文章写完后,会整合到
WebMagic
新版文档中。
黄亿华
·
2014-04-03 10:00
maven
webmagic
webmagic
练习之 保存使用上一级信息
前几天看了黄亿华先生的文章《玩转
webmagic
代码之Scheduler》感觉很有用,因为我们在抓取信息时往往需要保存上一级页面的信息。
大白痴
·
2014-03-28 14:00
scheduler
webmagic
Request类
学习
webmagic
时搜集的一点小资料
Xpath在XPath中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。例子路径表达式结果bookstore选取boo
大白痴
·
2014-03-28 00:00
正则表达式
xpath
大白痴学习
webmagic
刚刚开始学,很多东西可能理解错了,还请各位指教一些基本类:Request:包含要爬行的url和一些附加信息,是Page的一个成员变量 主要成员变量String urlMap extras存储附加信息long priority 优先级值越大越优先主要方法Request(Stringurl){this.url=url;}构造函数Request setPriority(long priority) 设
大白痴
·
2014-03-28 00:00
使用Spring Profile和Mybatis进行多个数据源(H2和Mysql)的切换
最近在做
WebMagic
的后台,遇到一个问题:后台用到了数据库,本来理想情况下是用Mysql,但是为了做到开箱即用,也整合了一个嵌入式数据库H2。
黄亿华
·
2014-03-20 09:00
spring
mybatis
H2
WebMagic
-Avalon之分布式实现方案
WebMagic
之前具有基本的分布式功能,可以将一个Spider部署到多台机器上,并通过Redis来管理URL,达到多机合作抓取的目标。
黄亿华
·
2014-03-12 18:00
avalon
webmagic
基于
webmagic
的java网页爬虫,抓取网页指定节点,然后使用dom4j分析xml数据
1、
webmagic
是一个非常好用的网页爬虫,功能丰富,强悍,可以按照jquery类似的css选择器,选择节点,也可以按照xpath抓取指定节点。抓取数据后,可以分析数据。
skmbw
·
2014-03-06 10:00
html
xml
爬虫
regex
xpath
悠然乱弹:
WebMagic
VS TinySpider
上次@黄勇提到与@黄亿华
WebMagic
比较的问题。我在后面简单回复了一下下,现系统整理一下,不一定正确。
悠悠然然
·
2014-03-04 10:00
网页抓取
webmagic
tiny
tinyspider
webmagic
使用手册
webmagic
是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。
webmagic
的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。
yzyzero
·
2014-03-03 09:00
使用手册
webmagic
WebMagic
Avalon设计草图
创建爬虫这里可以配置爬虫的基本信息。爬虫的抽取逻辑PageProcessor采用模板化的思想,编写一个Java文件之后,提供一些属性注入点,程序会自动根据注入点,产生表单。管理爬虫这里可以查看爬虫运行状态,并对爬虫进行管理。worker是正在运行的机器。爬虫状态包括总共url,下载页面数,失败数等。失败数可以点击查看详细结果及异常。
黄亿华
·
2014-02-25 11:00
webmaigc
webmagic
新版文档(更新中)
WebMagic
inAction
WebMagic
是一个简单灵活、便于二次开发的爬虫框架。除了可以便捷的实现一个爬虫,
WebMagic
还提供多线程功能,以及基本的分布式功能。
黄亿华
·
2014-01-15 14:00
文档
webmagic
webmagic
使用手册
新版文档地址http://
webmagic
.io/docs/,此手册已不再更新。
黄亿华
·
2013-12-01 20:00
手册
webmagic
如何发起一个开源项目
WebMagic
虽然还很小,但是写的过程中总会有些感悟,提出来跟大家分享。开源要有需求“创始人”、“作者”这样的光环吸引了不少人,就跟很多人吼着要去“创业”一样,于是大家加入了“重复发明轮子”大潮。
黄亿华
·
2013-11-30 09:00
开源
webmagic
记
webmagic
一个多线程问题排查和修复的过程
在
webmagic
的多线程抓取中有一个比较麻烦的问题:当Scheduler拿不到url的时候,不能立即退出,需要等到没抓完的线程都运行完毕,没有新url产生时,才能退出。
黄亿华
·
2013-11-27 23:00
多线程
wait/notify
webmagic
NAT Check
检查你的NAT(NetworkAddressTranslator)和p2p协议的兼容性NATCheckbyBryanFord,
webmagic
byDaveAndersenHostedbytheMIDCOM-P2PprojectonSourceForgeP2P
fanbird2008
·
2013-11-23 10:00
在
webmagic
中加入了自定义语言
一直想在
webmagic
中加入一门自定义语言(领域特定语言,简称DSL),但是实在无力从语法解析层开始写起。尝试过在XPath上做文章,后来又觉得太难过了。
黄亿华
·
2013-11-10 22:00
jruby
webmagic
webmagic
0.4.0的特性
0.4.0已发布,新闻:http://www.oschina.net/news/45720/
webmagic
-0-4-0
webmagic
0.4.0将于本周内发布,新增特性:大幅优化下载效率升级HttpClient
黄亿华
·
2013-11-04 07:00
webmagic
想要在
webmagic
中自定义一门爬虫语言
早在开始开发
webmagic
之前,就一直在思考,如何让爬虫的描述变得简单?单条表达式描述一个抽取规则的诱惑是相当大的,这样子注解、配置、动态生成,都非常容易展开了。
黄亿华
·
2013-09-04 15:00
webmagic
xsoup
webmagic
0.3.0 发布,高性能Java爬虫框架
webmagic
的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。之前两个版本的主题分别是"灵活","方便",而此次更新的主题是"性能"。
·
2013-09-04 11:00
软件更新新闻
webmagic
0.3.0 发布,高性能Java爬虫框架
webmagic
的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。之前两个版本的主题分别是"灵活","方便",而此次更新的主题是"性能"。
·
2013-09-04 03:00
软件更新新闻
Jsoup代码解读之七-实现一个CSS Selector
selector也是我写的爬虫框架
webmagic
开发的一个重点。附上一张streetfighter的图,希望以后
webmagic
也能挑战Jsoup!
黄亿华
·
2013-08-30 21:00
html
css
JSoup
selector
webmagic
Jsoup代码解读之六-parser(下)
读Jsoup源码并非无聊,目的其实是为了将
webmagic
做的更好一点,毕竟parser也是爬虫的重要组成部分之一。读了代码后,收获也不少,对HTML的知识也更进一步了。
黄亿华
·
2013-08-30 15:00
html
JSoup
compiler
parser
Jsoup代码解读之一-概述
今天看到一个用python写的抽取正文的东东,美滋滋的用Java实现了一番,放到了
webmagic
里,然后发现Jsoup里已经有了…觉得自己各种不靠谱啊!算了,静下心来学学好东西吧!
黄亿华
·
2013-08-25 21:00
JSoup
玩转
webmagic
代码之Scheduler
webmagic
上线之后,因为灵活性很强,得到了一些爬虫老手的欢迎,但是对于新手来说可能稍微摸不着头脑,我的需求是这样子,什么模块化,什么灵活性,但是看了半天,我也不知道怎么解决我的问题啊?
黄亿华
·
2013-08-21 23:00
scheduler
webmagic
折腾Javadoc笔记
webmagic
在代码里用到了大量的中文注释,其实最大的目的是想生成中文的Javadoc。但是中文注释实在太不高级了,在各种编码下还会变成乱码。
黄亿华
·
2013-08-17 14:00
javadoc
webmagic
l10n
关于爬虫实现分页的一些思考
但是在
webmagic
中,所有的页面解析都是独立的,解析器没有办法去调用一个下载方法
黄亿华
·
2013-08-04 21:00
webmagic
给
webmagic
加上了注解支持
今天有个网友在博客回帖,能不能用注解来写一个爬虫?想了想,因为Javaer总习惯结果有个对象Model(我在自己用的时候也是这样),ResultItems的key-value形式难免会有点麻烦,何不将抽取和Model合为一体呢?好了!现在爬osc博客只有这点代码了!而且这个对象本身是可以继续使用的! @TargetUrl("http://my.oschina.net/flashsword/blog
黄亿华
·
2013-08-01 22:00
annotation
webmagic
使用Selenium来抓取动态加载的页面
在我写的爬虫框架
webmagic
里也使用了HttpClient来完成这样的任务。但是有些页面是通过js以及ajax动态加载的,例如:花瓣网。
黄亿华
·
2013-07-26 16:00
Ajax
crawler
selenium
webmagic
分享一个自己写的爬虫框架
之前写过一年的垂直爬虫(抓博客什么的),对于各种重复代码很厌倦,后来参考了据说是最优秀的爬虫框架scrapy,写了一个Java版的框架
webmagic
。
flashsword20
·
2013-07-26 08:00
企业应用
使用
webmagic
构建一个分布式的爬虫
之前说过,使用
webmagic
的架构,很容易就可以通过扩展Scheduler构建一个分布式的爬虫。
黄亿华
·
2013-07-25 08:00
redis
分布式
webmagic
webmagic
的设计机制及原理-如何开发一个Java爬虫
此文章是
webmagic
0.1.0版的设计手册,后续版本的入门及用户手册请看这里:https://github.com/code4craft/
webmagic
/blob/master/user-manual.md
黄亿华
·
2013-07-20 14:00
scrapy
crawler
webmagic
SpiderMan
crawler4j
使用
webmagic
抓取页面并保存为wordpress文件
后来看了下据说是最优秀的爬虫scrapy的结构,山寨了一个Java版的爬虫框架
webmagic
。这个框架也分为Spider、Schedular、Downloader、Pipeline几个模块。
黄亿华
·
2013-06-09 18:00
scrapy
crawler
webmagic
NAT Check
withUDPandTCPsupportCheckYourNetworkAddressTranslatorforCompatibilitywithPeer-to-PeerProtocolsNATCheckbyBryanFord,
webmagic
byDaveAndersenHostedbytheMIDCOM-P2PprojectonSourceForgeThispage
iiprogram
·
2006-03-22 11:00
session
NetWork
each
behavior
translation
combinations
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他