jsoup

它在哪里?

  1. github
  2. 官网

它是什么?

一个html解析者

  • 它是一个 java 库:负责处理html相关的东西。
  • 它提供了便捷的api去抽取和处理数据。类似 dom,cssjquery 中的方法:简单直观。
  • 实现了html5 的要求标准,像浏览器一样将html转化成dom。

如一个浏览器一样, 它可以做出如下的行为:

  1. 从 url,file,string 中获取和解析成html。
  2. 通过DOM遍历或者CSS选择器来找出数据。
  3. 操作html的元素,属性和文本。
  4. 通过用户提交的白名单,来预防XSS攻击。
  5. 可输出干净的html。
  6. html有许多变种(规则不规范,程序员代码写的比较狂野),jsoup解析这样的html会将其解析成合理的dom树

文档结构

地址

jsoup_第1张图片
doc

你可能感兴趣的:(jsoup)