基于SpringBoot的Java爬虫-京东商品页

基于SpringBoot的Java爬虫项目-京东商品页

  • 一. 爬取(部分)效果图
  • 二.遇到的各种BUG
  • 三. 项目目录结构
  • 四. 具体代码详解
    • 4.1 配置文件添加依赖
    • 4.2 application.properties文件
    • 4.3 dao目录下ItemDao类
    • 4.4 jd.pojo目录下Item类
    • 4.5 service目录下的ItemServiceImpl和ItemService
    • 4.6 工具类:HttpUtils
    • 4.7 ItemTask类

本文是在学习java爬虫时,跟着视频做的一个小项目,本文会着重介绍其中会遇到的问题及重要代码实现。

一. 爬取(部分)效果图

具体信息:基于SpringBoot的Java爬虫-京东商品页_第1张图片
爬取图片:基于SpringBoot的Java爬虫-京东商品页_第2张图片

二.遇到的各种BUG

基于SpringBoot的Java爬虫-京东商品页_第3张图片
导入到数据库中的中文文字符乱码:

解决方法:在数据库名字后面加上:

?useUnicode=true&serverTimezone=Asia/Shanghai&characterEncoding=utf-8&nullCatalogMeansCurrent=true

基于SpringBoot的Java爬虫-京东商品页_第4张图片

在做debug测试时出现:
在这里插入图片描述
解决方法:
观察项目的jdk版本和congratulation中的jdk版本是否一致
基于SpringBoot的Java爬虫-京东商品页_第5张图片
基于SpringBoot的Java爬虫-京东商品页_第6张图片
在导入依赖时,Sping的包版本要一致,不然会出现很多问题
基于SpringBoot的Java爬虫-京东商品页_第7张图片
数据库版本不宜太高:
版本6以下可以用用5.1.8版本

基于SpringBoot的Java爬虫-京东商品页_第8张图片
高版本的话还要在application.properties中修改成com.mysql.cj.jdbc.Driver
基于SpringBoot的Java爬虫-京东商品页_第9张图片

在请求京东页面时,最起码要加个请求头,不然也太看不起爬虫了…

httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36");
最新的User-Agent去京东上看看

三. 项目目录结构

基于SpringBoot的Java爬虫-京东商品页_第10张图片

四. 具体代码详解

4.1 配置文件添加依赖

在pom.xml中

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.itcast</groupId>
    <artifactId>itcast-crawler-jd</artifactId>
    <version>1.0-SNAPSHOT</version>
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>8</source>
                    <target>8</target>
                </configuration>
            </plugin>
        </plugins>
    </build>
    <dependencies>
    <!--SpringMVC-->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
        <version>2.2.2.RELEASE</version>
    </dependency>

    <!--SpringData Jpa-->
    <!-- https://mvnrepository.com/artifact/org.springframework.boot/spring-boot-starter-data-jpa -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-data-jpa</artifactId>
        <version>2.2.2.RELEASE</version>
    </dependency>

    <!--MySQL连接包-->
    <dependency>
        <groupId>mysql</groupId>
        <artifactId>mysql-connector-java</artifactId>
        <version>5.1.8</version>
    </dependency>

    <!-- HttpClient -->
    <dependency>
        <groupId>org.apache.httpcomponents</groupId>
        <artifactId>httpclient</artifactId>
        <version>4.5.2</version>
    </dependency>

    <!--Jsoup-->
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.10.3</version>
    </dependency>

    <!--工具包-->
    <dependency>
        <groupId>org.apache.commons</groupId>
        <artifactId>commons-lang3</artifactId>
        <version>3.4</version>
    </dependency>
</dependencies>

</project>

4.2 application.properties文件

#DB Configuration:
spring.datasource.driverClassName=com.mysql.jdbc.Driver
spring.datasource.url=jdbc:mysql://127.0.0.1:3306/day17?useUnicode=true&serverTimezone=Asia/Shanghai&characterEncoding=utf-8&nullCatalogMeansCurrent=true
spring.datasource.username=数据库用户名称
spring.datasource.password=数据库密码

#JPA Configuration:
spring.jpa.database=MySQL
spring.jpa.show-sql=true
spring.jpa.open-in-view=false

4.3 dao目录下ItemDao类

这个文件就是对数据库进行操作的信息,具体的可以查看JpaRepository类源码。
JpaRepository 中的Item就是需要存储数据所放的参数,在这里非常的方便,只需要放入一个对象就可以存入数据库。

package cn.itcast.jd.dao;

import cn.itcast.jd.pojo.Item;
import org.springframework.data.jpa.repository.JpaRepository;

public interface ItemDao extends JpaRepository<Item,Long> {
}

4.4 jd.pojo目录下Item类

这个类其实就是用于存放在数据库中

package cn.itcast.jd.pojo;

import javax.persistence.*;
import java.util.Date;

@Entity
@Table(name = "jd_item")
public class Item {
    //主键
    @Id
    @GeneratedValue(strategy = GenerationType.IDENTITY)
    private Long id;
    //标准产品单位(商品集合)
    private Long spu;
    //库存量单位(最小品类单元)
    private Long sku;
    //商品标题
    private String title;
    //商品价格
    private Double price;
    //商品图片
    private String pic;
    //商品详情地址
    private String url;
    //创建时间
    private Date created;
    //更新时间
    private Date updated;

    public Long getId() {
        return id;
    }

    public void setId(Long id) {
        this.id = id;
    }

    public Long getSpu() {
        return spu;
    }

    public void setSpu(Long spu) {
        this.spu = spu;
    }

    public Long getSku() {
        return sku;
    }

    public void setSku(Long sku) {
        this.sku = sku;
    }

    public String getTitle() {
        return title;
    }

    public void setTitle(String title) {
        this.title = title;
    }

    public Double getPrice() {
        return price;
    }

    public void setPrice(Double price) {
        this.price = price;
    }

    public String getPic() {
        return pic;
    }

    public void setPic(String pic) {
        this.pic = pic;
    }

    public String getUrl() {
        return url;
    }

    public void setUrl(String url) {
        this.url = url;
    }

    public Date getCreated() {
        return created;
    }

    public void setCreated(Date created) {
        this.created = created;
    }

    public Date getUpdated() {
        return updated;
    }

    public void setUpdated(Date updated) {
        this.updated = updated;
    }
}

4.5 service目录下的ItemServiceImpl和ItemService

ItemService接口:这里定义了接口用于对数据库进行操作。

package cn.itcast.jd.service;

import cn.itcast.jd.pojo.Item;

import java.util.List;

public interface ItemService {

    /**
     * 保存商品
     * @param item
     */
    public void save(Item item);

    /**
     * 根据条件查询商品
     * @param item
     * @return
     */
    public List<Item> findAll(Item item);
}

ItemServiceImpl类:接口的实现类,这个类其实就是利用了ItemDao这个类的方法。

package cn.itcast.jd.service.impl;

import cn.itcast.jd.dao.ItemDao;
import cn.itcast.jd.pojo.Item;
import cn.itcast.jd.service.ItemService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.data.domain.Example;
import org.springframework.stereotype.Service;
import org.springframework.transaction.annotation.Transactional;

import java.util.List;

@Service
public class ItemServiceImpl implements ItemService {

    @Autowired
    private ItemDao itemDao;

    @Override
    @Transactional
    public void save(Item item) {
        this.itemDao.save(item);
    }

    @Override
    public List<Item> findAll(Item item) {
        //声明查询条件
        Example<Item> example = Example.of(item);

        //根据查询条件进行查询数据
        List<Item> list = this.itemDao.findAll(example);

        return list;
    }
}

4.6 工具类:HttpUtils

这个类包含了解析HTML和下载图片的方法

package cn.itcast.jd.util;

import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;
import org.apache.http.util.EntityUtils;
import org.springframework.stereotype.Component;

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStream;
import java.util.UUID;

@Component
public class HttpUtils {

    private PoolingHttpClientConnectionManager cm;

    public HttpUtils() {
        this.cm = new PoolingHttpClientConnectionManager();

        //设置最大连接数
        this.cm.setMaxTotal(100);

        //设置每个主机的最大连接数
        this.cm.setDefaultMaxPerRoute(10);
    }

    /**
     * 根据请求地址下载页面数据
     *
     * @param url
     * @return 页面数据
     */
    public String doGetHtml(String url) {
        //获取HttpClient对象
        CloseableHttpClient httpClient = HttpClients.custom().setConnectionManager(this.cm).build();

        //创建httpGet请求对象,设置url地址
        HttpGet httpGet = new HttpGet(url);
        httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36");
        //设置请求信息
        httpGet.setConfig(this.getConfig());

        CloseableHttpResponse response = null;


        try {
            //使用HttpClient发起请求,获取响应
            response = httpClient.execute(httpGet);

            //解析响应,返回结果
            if (response.getStatusLine().getStatusCode() == 200) {
                //判断响应体Entity是否不为空,如果不为空就可以使用EntityUtils
                if (response.getEntity() != null) {
                    String content = EntityUtils.toString(response.getEntity(), "utf8");
                    return content;
                }
            }

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            //关闭response
            if (response != null) {
                try {
                    response.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        //返回空串
        return "";
    }


    /**
     * 下载图片
     *
     * @param url
     * @return 图片名称
     */
    public String doGetImage(String url) {
        //获取HttpClient对象
        CloseableHttpClient httpClient = HttpClients.custom().setConnectionManager(this.cm).build();

        //创建httpGet请求对象,设置url地址
        HttpGet httpGet = new HttpGet(url);
        httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36");
        //设置请求信息
        httpGet.setConfig(this.getConfig());

        CloseableHttpResponse response = null;


        try {
            //使用HttpClient发起请求,获取响应
            response = httpClient.execute(httpGet);

            //解析响应,返回结果
            if (response.getStatusLine().getStatusCode() == 200) {
                //判断响应体Entity是否不为空
                if (response.getEntity() != null) {
                    //下载图片
                    //获取图片的后缀
                    String extName = url.substring(url.lastIndexOf("."));

                    //创建图片名,重命名图片
                    String picName = UUID.randomUUID().toString() + extName;

                    //下载图片
                    //声明OutPutStream
                    OutputStream outputStream = new FileOutputStream(new File("C:\\Users\\张振东\\Pictures\\爬虫\\" + picName));
                    response.getEntity().writeTo(outputStream);

                    //返回图片名称
                    return picName;
                }
            }

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            //关闭response
            if (response != null) {
                try {
                    response.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        //如果下载失败,返回空串
        return "";
    }

    //设置请求信息
    private RequestConfig getConfig() {
        RequestConfig config = RequestConfig.custom()
                .setConnectTimeout(1000)    //创建连接的最长时间
                .setConnectionRequestTimeout(500)  // 获取连接的最长时间
                .setSocketTimeout(10000)    //数据传输的最长时间
                .build();

        return config;
    }
}

4.7 ItemTask类

实现爬取功能的主要类:

package cn.itcast.jd.task;

import cn.itcast.jd.pojo.Item;
import cn.itcast.jd.service.ItemService;
import cn.itcast.jd.util.HttpUtils;
import com.fasterxml.jackson.databind.ObjectMapper;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;

import java.util.Date;
import java.util.List;

@Component
public class ItemTask {

   @Autowired
   private HttpUtils httpUtils;
   @Autowired
   private ItemService itemService;

   private static final ObjectMapper MAPPER = new ObjectMapper();


   //当下载任务完成后,间隔多长时间进行下一次的任务。
   @Scheduled(fixedDelay = 100 * 1000)
   public void itemTask() throws Exception {
      //声明需要解析的初始地址
      String url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq" +
            "=%E6%89%8B%E6%9C%BA&cid2=653&cid3=655&s=113&click=0&page=";

      //按照页面对手机的搜索结果进行遍历解析
      for (int i = 1; i < 10; i = i + 2) {
         String html = httpUtils.doGetHtml(url + i);

         //解析页面,获取商品数据并存储
         this.parse(html);
      }


      System.out.println("手机数据抓取完成!");


   }

   //解析页面,获取商品数据并存储
   private void parse(String html) throws Exception {

      //解析html获取Document
      Document doc = Jsoup.parse(html);

      //获取spu信息
      Elements spuEles = doc.select("div#J_goodsList > ul > li");

      for (Element spuEle : spuEles) {
         //获取spu
         long spu = Long.parseLong(spuEle.attr("data-spu"));

         //获取sku信息
         Elements skuEles = spuEle.select("li.ps-item");

         for (Element skuEle : skuEles) {
            //获取sku
            long sku = Long.parseLong(skuEle.select("[data-sku]").attr("data-sku"));

            //根据sku查询商品数据
            Item item = new Item();
            item.setSku(sku);
            List<Item> list = this.itemService.findAll(item);

            if (list.size() > 0) {
               //如果商品存在,就进行下一个循环,该商品不保存,因为已存在
               continue;
            }

            //设置商品的spu
            item.setSpu(spu);

            //获取商品的详情的url
            String itemUrl = "https://item.jd.com/" + sku + ".html";
            item.setUrl(itemUrl);


            //获取商品的图片
            String picUrl = "https:" + skuEle.select("img[data-sku]").first().attr("data-lazy-img");
            picUrl = picUrl.replace("/n9/", "/n1/");
            if (picUrl.equals("https:")){
                break;
                }
            String picName = this.httpUtils.doGetImage(picUrl);

            item.setPic(picName);

            //获取商品的价格
            String priceJson = this.httpUtils.doGetHtml("https://p.3.cn/prices/mgets?skuIds=J_" + sku);
            double price = MAPPER.readTree(priceJson).get(0).get("p").asDouble();
            item.setPrice(price);


            //获取商品的标题
            String itemInfo = this.httpUtils.doGetHtml(item.getUrl());
            String title = Jsoup.parse(itemInfo).select("div.sku-name").text();
            item.setTitle(title);


            item.setCreated(new Date());
            item.setUpdated(item.getCreated());

            //保存商品数据到数据库中
            this.itemService.save(item);

         }
      }
   }

}

END!!! 长路漫漫,JAVA为伴!!!
基于SpringBoot的Java爬虫-京东商品页_第11张图片

你可能感兴趣的:(JAVAEE)