JAVA实现爬虫

1.项目搭建
JAVA实现爬虫_第1张图片
JAVA实现爬虫_第2张图片

JAVA实现爬虫_第3张图片

2.导入相关依赖

		<dependency><!--jsoup只能解析网页    tika能解析视频网站  -->
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>

3.找到B站的官网链接

https://search.bilibili.com/all?keyword=%E5%81%87%E7%9A%84%E6%A0%A1%E8%8A%B1

4.编写代码


/**
* @description: 爬取网页
* @author TAO
* @date 2020/7/23 22:55
*/
public class HtmlParseUtil {
    public static void main(String[] args) throws IOException {
        //爬取的网页地址https://www.bilibili.com/

        String url="https://search.bilibili.com/all?keyword=%E5%81%87%E7%9A%84%E6%A0%A1%E8%8A%B1";

        
        Document document = Jsoup.parse(new URL(url), 30000);
        Elements video_list = document.getElementsByClass("video-list");
        Elements video_item = video_list.get(0).getElementsByClass("video-item");

        for (Element el:video_item){
            String videoUrl=el.getElementsByTag("a").eq(0).attr("href");
            String title=el.getElementsByTag("a").eq(0).attr("title");
            String time=el.getElementsByClass("time").eq(0).text();
            System.out.println("-------------------");
            System.out.println(videoUrl.substring(2));
            System.out.println(title);
            System.out.println(time);
        }
        System.out.println(video_item.get(0));

    }
}

这里对照标签来取值
//解析网页Jsoup返回Document就是浏览器的Document对象
//所有在js中能使用的方法,这里都能使用

建议使用谷歌浏览器,比较简洁
JAVA实现爬虫_第4张图片

5.运行结果
JAVA实现爬虫_第5张图片
6.数据对比
JAVA实现爬虫_第6张图片
简单的JAVA实现爬虫就搞定了!!!

你可能感兴趣的:(JAVA,爬虫)