jsoup解析html

欢迎关注小睿的微信公众号:郭小睿同学,每天更新小知识、笔记、案例、学习资源~

我的公众号

前言

很多时候,我们需要从各种网页上面抓取数据,而jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

jsoup官方文档

https://jsoup.org/cookbook/

中文文档

http://www.open-open.com/jsoup/

jar包下载地址http://jsoup.org/download

简单粗暴上代码:我们使用小刀娱乐网的网页,然后右键查看网页源码,或者按F12,接下来可以看到一大堆标签。

import org.jsoup.nodes.Document;
import org.jsoup.Jsoup;
import java.io.IOException;
import org.jsoup.select.Elements;
import org.jsoup.nodes.Element;
public class Main
{
    public static void main(String[] wen)
    {
        try
        {   //解析小刀娱乐网的HTML字符串
            Document document = Jsoup.connect("http://www.xiaodao.la/i_wz.asp?id=783242&fl_id=37227195&PageIndex=1").get();
            //打印HTML字符串
            System.out.println(document);
            //解析指定段落中的内容   注意: 此代码中的语法:
Elements element =document.getElementsByClass("post-header"); //声明一个变量 备注: 因为要解析的HTML中,有多个:
int i = 0; //element.size是用来计算有多少个
for (i = 0;i < element.size();i++) { //从
中,循环查找a标签中的第一个元素,取得字符串的文本。 System.out.println(element.get(i).select("a").first().text()); } } catch (IOException e) {} } }

来一发精彩的效果

jsoup解析html_第1张图片
效果图

小结

用jsoup解析html还是比较简单的,虽然这只是它的一小部分功能,用处还是蛮大的,对于不同的网页最大的差别就在分析出如何根据选择器查找元素。但是如果原网页修改了相关代码,可能就会影响数据抓取了,你就需要及时修改你的解析代码了。
文中表达有误的地方还请指正,最后希望对你有所帮助吧!

有需要可以下载 源码

ps#

希望有更多的热爱编程的朋友与我交流优秀的技术,共同学习。
微信:wen-mo-mo
QQ:87920151


jsoup解析html_第2张图片
微信联系二维码

你可能感兴趣的:(jsoup解析html)