java获取标签指定内容

问题

需要处理HTML片断 (一个不完整的HTML文档),从中提取a标签中href的内容

方法

引入Jsoup,maven依赖导入地址链接(博主使用版本为1.11.3)

代码实例

有段字符串包含许多标签,href有两个,我们取出第一个:

String html = "

测试1

测试2

"; Document doc = Jsoup.parseBodyFragment(html); Element e_a =doc.getElementsByTag("a").get(0);//得到第一个a标签内容 String href = e_a.attr("href");

:Jsoup.parseBodyFragment和Jsoup.parse的区别:
parseBodyFragment 方法创建一个空壳的文档,并插入解析过的HTML到body元素中。假如使用 Jsoup.parse方法,也可以得到相同的结果。但是使用Jsoup.parseBodyFragment明确将用户输入作为 body片段处理,确保用户所输入的任何糟糕的HTML都将被解析成body元素。

你可能感兴趣的:(java笔记)