爬虫系列:京东数据

基础介绍

使用Webmagic爬虫框架,爬取京东商品数据。
需要准备基础知识:
    1 Java EE基础知识
    2 Webmagic框架了解使用
    3 Html、css、js等基础Html知识
    4 部署到服务器上,也可以搞个大数据(O(∩_∩)O哈哈~)

第一步:创建项目,导入jar包

    创建项目:
            New ---> Dynamic Web Project 
    导入jar包:
            Build Path --> Configu Build Path,添加相应webmagic的jar包

第二步:抓取商品名,作者

public class JdBaseMagic implements PageProcessor{
    private Site site = Site.me().setRetryTimes(1).setSleepTime(1000);
    public static String url = "http://item.jd.com/11504254.html";
    @Override
    public Site getSite() {
        return site;
    }

    @Override
    public void process(Page page) {
        System.out.println("page:"+page.toString());
        String name = page.getHtml().xpath("//*[@id='name']/h1").toString();

        String author = page.getHtml().xpath("//*[@id='p-author']/a").toString();

        System.out.println("name:"+name+" +" author:"+author);

    }
}

获取商品价格(特殊处理,根据商品id调取接口获取)


爬虫系列:京东数据_第1张图片

你可能感兴趣的:(大数据,爬虫,京东数据,Webmagic)