jsop------html 解析器的使用

jsoup 简Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和 扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。

简介:

jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

jsoup 的主要功能如下:

1. 从一个 URL,文件或字符串中解析 HTML;

2. 使用 DOM 或 CSS 选择器来查找、取出数据;

3. 可操作 HTML 元素、属性、文本;

jsoup 是基于 MIT 协议发布的,可放心使用于商业项目。

jsoup 的主要类层次结构如图 1 所示:

参考:http://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/


介绍

  1. 解析和遍历文件

输入

  1. 从字符串中解析文档
  2. 解析身体片段
  3. 将一个文件从一个URL
  4. 将一个文件从一个文件

提取数据

  1. 使用DOM方法来浏览文档
  2. 使用选择器的语法来查找元素
  3. 从元素提取物的属性,文本和HTML
  4. 使用URL
  5. 示例程序:列表链接

修改数据

  1. 设置属性值
  2. 设置一个元素的HTML
  3. 设置元素的文本内容

Clear HTML

  1. 清除不可信的HTML(防止XSS)

你可能感兴趣的:(java,html,jquery,IBM,url,文档,dw)