WebMagic学习(三)之Pipeline保存结果

爬虫获取的数据,如何进行展示或者保存?
WebMagic用于保存结果的组件叫做Pipeline。WebMagic有许多内置的Pipeline。

  • ConsolePipeline
    控制台输出结果
WebMagic学习(三)之Pipeline保存结果_第1张图片
ConsolePipeline输出
  • JsonFilePipeline
    将结果用Json的格式保存下来,每个URL保存一个json文件。
 public JsonFilePipeline() {
        this.setPath("/data/webmagic");
    }
 public JsonFilePipeline(String path) {
        this.setPath(path);
    }

JsonFilePipeline的构造方法,提供了存储路径的输入,默认路径为 /data/webmagic。
实现代码及效果截图如下:

public static void main(String[] args) {
        Spider.create(new GankRepoPageProcessor())
                .addUrl("http://gank.io")//从该url开始
                .addPipeline(new JsonFilePipeline("/Users/cmcs303/Desktop/crawler/"))
                .thread(5)
                .run();
    }
WebMagic学习(三)之Pipeline保存结果_第2张图片
效果截图

你可能感兴趣的:(WebMagic学习(三)之Pipeline保存结果)