webmagic 0.4.0的特性

0.4.0已发布,新闻:http://www.oschina.net/news/45720/webmagic-0-4-0

webmagic 0.4.0将于本周内发布,新增特性:

大幅优化下载效率

  • 升级HttpClient到4.3.1,重写了HttpClientDownloader的代码 #32。
  • 在http请求中主动开启gzip,降低传输开销 #31。
  • 修复0.3.2及之前版本连接池不生效的问题 #30,使用新的连接池机制,实现连接复用功能。

经测试,下载速度可达到90%左右的提升。

新增同步下载模式,对于简单任务更方便


    OOSpider ooSpider = OOSpider.create(Site.me().setSleepTime(100), BaiduBaike.class);
    BaiduBaike baike = ooSpider.<BaiduBaike>get("http://baike.baidu.com/search/word?word=httpclient&pic=1&sug=1&enc=utf8");
    System.out.println(baike);

Spider部分:

  • 重构了多线程的代码,修复几个线程安全问题。
  • 可以主动设置当所有任务完成时,Spider是否终止。
  • 可以设置初始的Request,而不仅仅是Url #29。
  • 增加http代理支持 #22。
  • 支持自定义所有http头#27

同时webmagic的邮件组开通了,欢迎加入:

https://groups.google.com/forum/#!forum/webmagic-java

你可能感兴趣的:(webmagic)