WebMagic入门--爬取b站视频标题与时间戳Demo

WebMagic入门–爬取b站视频标题与时间戳Demo

最近对爬虫有点感兴趣,了解了一下java相关的爬虫框架,选用webmagic作为入门。
写了个比官方案例还简单的Demo,甚至可以用简陋来形容。

package test.t01;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

public class PageProcess实现方法 implements PageProcessor{
    //设置拼接的url变量
    private static int count =123422;
    //设置网站相关配置
    private Site site = Site.me().setRetryTimes(5).setSleepTime(0).setUserAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36");//重试次数和抓取间隔
    public void process(Page page) {
        //视频标题
        System.out.println(page.getHtml().xpath("//h1/span/text()").get());
        //时间戳
        System.out.println(page.getHtml().xpath("//div/time/text()"));
    }
    public Site getSite() {
        return site;
    }
    public static void main(String[] args) {
            while (count<130000) {
                Spider.create(new PageProcess实现方法()).addUrl("https://www.bilibili.com/video/av" + count + "/").thread(1).run();
                count++;
            }
    }
}

你可能感兴趣的:(JavaStudy,爬虫)