Java后台怎么处理带HTML标签(富文本)数据的两种方法

前言:本人在实现业务逻辑的时候,需要在后台把带HTML标签(富文本)数据的文章截取成文章的摘要,涉及到怎么处理带HTML标签数据 ,在网上一共找到了两种解决方法:

1、调用HtmlParser插件

HtmlParser 简介

htmlparser是一个纯的java写的html解析的库,主要用于改造或提取html。用来分析抓取到的网页信息是个不错的选择,遗憾的是参考文档太少。
项目主页:http://htmlparser.sourceforge.net/
API文档: http://htmlparser.sourceforge.net/javadoc/index.html
参考博客:http://blog.csdn.net/fancy3013/article/details/50965112

2、引用一个方法直接去掉HTML标签

这也是我在项目所用的,是别人写好的一个方法。

public String parseHtml(String html,int length) {
        
    	if(html == null || html == "") {
    		return html = "空";
		}else {
			if(html.length()为正则表达式,其中的.表示任意字符,*?表示出现0次或0次以上,此方法可以去掉双头标签(双头针对于残缺的标签)
	             * "<.*?"表示<尖括号后的所有字符,此方法可以去掉残缺的标签,及后面的内容
	             * " ",若有多种此种字符,可用同一方法去除
	             */
	            html = html.replaceAll("<.*?>", " ").replaceAll("", "");
	            html = html.replaceAll("<.*?", "");
	            return (html.substring(0, length) + "...");        	
	        }
		}
    }

参考博客:https://www.cnblogs.com/cnsevennight/p/4468055.html

你可能感兴趣的:(Java后台怎么处理带HTML标签(富文本)数据的两种方法)