java 爬虫插件 jsoup 在springboot 下的使用

引言:jsoup 在 java 基础上实现爬取静态网站信息是非常方便的,只要明白原理就可以为所欲为了,废话不多说,上代码!

1.先在pom.xml 中引入依赖包 

        
            org.jsoup
            jsoup
            1.10.3
        

2.把你要爬的网址放到这里来,生成一个 document

Document doc = Jsoup.connect(url).get();

3. 现在就可以在生成的 doc 上选择你需要内容所在的节点了,下面简单举几个例子,想了解详细使用方法请到http://www.open-open.com/jsoup/selector-syntax.htm

// 根据 class 查找节点
doc.getElementsByClass("class")

// 根据 id 查找节点
doc.getElementById("id")

// 根据标签类型,入查找  标签
doc.select("a");

// 获取 a 标签中的链接
doc.select("a").attr("href");

懂得这些基本就可以爬取一个简单的网站了 skr! 

 

你可能感兴趣的:(springboot)