Jsoup简单理解笔记

Jsoup

数据问题?数据库获取,消息队列中获取,都可以成为数据源,爬虫!

爬取数据:(获取请求返回的页面信息。筛选出我们想要的数据就可以了!)

Java中使用Jsoup包

Jsoup解析网页 tika包爬取别的。


<dependency>
    <groupId>org.jsoupgroupId>
    <artifactId>jsoupartifactId>
    <version>1.14.3version>
dependency>

前提:需要联网 不能获取到ajax的数据!

解析网页
Document document = Jsoup.parse(new URL(url),30000);
Jsoup返回Document就是浏览器Document对象

所有在js中使用的方法在这里都可以使用。

document.getElementById("id");
element.getElementByTag("li");
element.getElementByClass("className");
element.getElementByTag("img").eq(o).attr("src");

图片特别的多的页面可能会懒加载(延迟加载!)

element.getElementByTag("img").eq(o).attr("source-data-lazy-img");

你可能感兴趣的:(java)