java开源HTML解析器收集

  • HTML文档解析器 HTMLParser

    HTML Parser 是一个对HTML进行分析的快速实时的解析器,最新的发行版本是1.6,另外2.0的开发版本已经两年没有进展了。 示例代码: Parser parser = new Parser ("http://whatever"); NodeList list = parser.parse (null); Node node = list.elementAt...更多HTMLParser信息
  • HTML解析器 jsoup

    本站使用 jsoup 来解析 HTML。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操 作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析H...更多jsoup信息

    最近更新: jsoup 1.7.2 发布,支持 CSS 类伪码选择器 发布于 3个月前

  • HTML文档解析器 NekoHTML

    NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常犯的错误。 NekoHTML能增补缺失的父元素、...更多NekoHTML信息
  • Html文档解析器 JTidy

    JTidy 是 HTML Tidy 用Java语言实现的版本,提供了一个HTML的语法检查器和很好的打印功能。JTidy可以用来清除格式不好和不对的 HTML。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。...更多JTidy信息
  • Html文档解析器 HtmlCleaner

    HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良 好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来...更多HtmlCleaner信息
  • 通用网页正文抽取 cx-extractor

    基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关 对于Web信息检索来说,网页正文抽取是后续处理的关键。 虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准...更多cx-extractor信息
  • HTML 解析和生成器 Cobra

    Cobra 是一个纯 Java 的HTML 解析和生成器,支持 HTML 4 、JavaScript、CSS 2 示例代码: import org.lobobrowser.html.parser.*; import org.lobobrowser.html.test.*; import org.lobobrowser.html.gui.*; import org.lobobrowser.html.*; import org.w...更多Cobra信息
  • HTML 解析器 Jericho

    Jericho HTML解析器是一个Java库,以分析和操纵部分的HTML文件,其中包括服务器端的标签,而过滤掉任何无法识别的或无效的HTML 。它也提供高层次的HTML表单操作函数。 示例代码: import net.htmlparser.jericho.*; import java.util.*; import java.io.*;...更多Jericho信息

    最近更新: Jericho 3.3 发布,HTML 解析器 发布于 6个月前

  • xhtmlrenderer

    解析HTML和CSS,并且能输出成image,PDF等格式. Flying Saucer is an XML/CSS renderer, which means it takes XML files as input, applies formatting and styling using CSS, and generates a rendered representation of that XML as output. The out...更多xhtmlrenderer信息
  • HTML解析器 CyberNeko

    CyberNeko 是一个HTML解析器,它可以将HTML文件解析成w3c的Document对象。也就是 NekoHTML更多CyberNeko信息
  • HTML 解析类库 MozillaParser

    MozillaParser 是一个 Java 的HTML 解析类库,基于 mozilla 的html 解析器,提供了Java类到 Mozilla类的一个桥接,输入一个HTML文本,输出一个 Java 的 Document 对象。更多MozillaParser信息
  • HTML解析器 HotSax

    HotSAX是一个快速,小型的footprint,用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。更多HotSax信息
  • Java的HTML解析器 Jerry

    Jerry 是 Jodd 工具包中的一个HTML解析工具。它有点像是用Java实现的jQuery。Jerry是一个高效简洁的Java库,用来简化HTML的解析,遍历和操 作。 Jerry的API在设计的时候完全向jQuery靠拢,几乎和jQuery一样,所以有时候你可以直接copy jQuery的代码来用。当...更多Jerry信息
  • 网页缩略图生成类库 Scrender

    Scrender是一个用来生成网页缩略图的Java类库,基于SWT开发。它实质上是调用本地浏览器引擎对要进行截图的网站进行渲染,然后保存该网页的缩略图。 示例代码请看这里。更多Scrender信息
  • Java的HTML解析包 jScraper

    jScraper 提供了简单的接口用来解析HTML文本,它将HTML文本转成Java的对象。 查看 jScraper 的 JavaDoc 文档: http://sharkysoft.com/software/java/html/docs/javadocs/...更多jScraper信息
  • XSS HTMLFilter

    XSS HTMLFilter这是一个采用Java实现的开源类库。用于分析用户提交的输入,消除潜在的跨站点脚本攻击(XSS),恶意的HTML,或简单的 HTML格式错误。 示例代码: // retrieve input from user... String input = ... String clean = new HTMLInputFilter().fil...更多XSS HTMLFilter信息
  • HTML4J

    HTML4J 是一个 Java 解析 HTML 的类库。示例代码: Reader re = ... // Create the document HTMLDoc doc = new HTMLDoc(); // Load its content doc.load(re); // Get the HTML HTMLFragment html = doc.getHTML(); // ...更多HTML4J信息
  • HTML解析器 TagSoup

    TagSoup 是一个Java开发符合SAX的HTML解析器更多TagSoup信息
  • HTML解析器 JoyHTML

    JoyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。更多JoyHTML信息
  • HTML解析器 VietSpider

    VietSpider HTMLParser 是一个纯 Java 的 HTML DOM 解析器,支持 HTML 4.0.1 。具有语法检查、自动关闭元素,可以处理一些匹配错误的元素,执行效率高。更多VietSpider信息
    • HTML生成库 renderSnake

    • RenderSnake 是一个轻量级的Java类库用来通过Java方法生产html页面,包含4个核心类库: HtmlCanvas , a class that has methods for all HTML 4.01 and HTML5 tags for opening and closing it HtmlAttributes, a class that has methods for all existin...更多renderSnake信息
    • 网页抽取工具 Krabber

      Krabber是kVitrail的网页抽取工具。 Krabber的设计目标是提供一个可以为Java应用调用的、可以执行网页上的JavaScript代码、并返回JavaScript代码执行后的网页的HTML代码的网页抽取工具。更多Krabber信息
    • Java的HTML解析库 gohtml

      gohtml 是一个很小的 Java 类库,用来解析 HTML 文档,目前尚未公开发布版本。更多gohtml信息

       

       

      http://www.7mdm.com/1176.html

你可能感兴趣的:(java)