Java过滤HTML标签,即提取HTML中的纯文本,不使用正则表达式【jsoup方式,超级简单】,附富文本方式

服务器端提取方案(Jsoup方式)

如果你想从带HTML标签的字符串中提取纯文本的话,可以使用jsoup工具包,非常简单

应用场景,比如你的网站有个富文本编辑器,富文本编辑器中带有很多html标签,比如p标签,img标签等等,这些在富文本编辑器中时非常常见的,而富文本提交的信心带标签,我们有的时候不是要把添加的内容完全展示,而是展示缩略信息就好(也就是纯文本信息),这样简略也不影响布局,就想我们CSDN的文字缩略信息,就是从富文本内容中提取了纯文本信息(我猜的)

Java过滤HTML标签,即提取HTML中的纯文本,不使用正则表达式【jsoup方式,超级简单】,附富文本方式_第1张图片

 

实现:使用jsoup,这个是干嘛的百度去

导入jar包


            org.jsoup
            jsoup
            1.11.3
        

不使用maven的自己下载去jar下载地址

代码

String html = "这是文本信息"
                + "

文本信息二

"; Document doc = Jsoup.parse(html); System.out.println(doc.text());//doc.text()就是过滤掉标签后的纯文本

这样就实现了过滤标签/提取纯文本

客户端方案(富文本方式)

在网页中发布文章的时候提取纯文本,一般是使用富文本编辑器编写文章,大多富文本都提供有提取富文本中纯文本的api

百度UEditor 

ue.getContentTxt();

wangEditor

editor.txt.text();

其他的编辑器请仔细阅读文档

你可能感兴趣的:(Java,Java爬虫)