使用HTMLParser 解析html字符串,去除html标签,提取纯文本

最近在写一个文章编辑和搜索的web程序,编辑的文章带有html标签,并以BLOB类型保存在数据库。在显示搜索结果时,以字符串类型输出,但我只想把文章的概要显示出来而不是整篇文章,就想着要是能把字符串中的html标签去掉,只提取其中的纯文本就好了。在网上搜了一下,发现有很多使用js、jQuery的replace()方法过滤html标签,感觉比较复杂也比较繁琐。继续寻找,发现了HTML Parser这个解析库,使用起来也很方便。

import java.util.List;
import org.htmlparser.Parser;
import org.htmlparser.visitors.TextExtractingVisitor;

public class test {

	public static void main(String[] args) throws Exception {
	String str = "
Looking for the latest version? Download src0_82.jar (25.7 kB)
"; Parser parser = new Parser(str); TextExtractingVisitor visitor = new TextExtractingVisitor(); parser.visitAllNodesWith(visitor); System.out.println(visitor.getExtractedText()); } }


你可能感兴趣的:(使用HTMLParser 解析html字符串,去除html标签,提取纯文本)