java正则,替换掉所有的HTML标签 . ( Jakarta ORO实现)

 

 
import org.apache.oro.text.perl.*;

request.setCharacterEncoding("UTF-8");
response.setCharacterEncoding("UTF-8");

String htmlString ="""

<html xmlns="w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">

  <head>
  <style></style>
	good
  </body>
</html>
""";








System.out.println "good";





String result;


StringBuffer buffer = new StringBuffer();





Perl5Util preg = new Perl5Util();


preg.substitute(buffer,"s/<[^<>]*?>/abc/gmi",htmlString);





println  buffer.toString();





 

s/<[^<>]*?>/abc/gmi

 

这个地方是最需要注意的.

它实际上是两个pattern写在一起的.  

效果是找到所有的HTML标签,并用abc替换掉.

最后的g 表示go on, 这样才会替换所有,不加g则只替换第一个;

 

 

选用ORO原因很简单, 已经java自带的那个不好用!

perl5正则几乎可以看成是一种标准, 其它的语言都有兼容的实现! (比如 PHP ,C++ ,java )

 

 

ORO 主页:

http://jakarta.apache.org/oro


java正则,替换掉所有的HTML标签 . ( Jakarta ORO实现)_第1张图片

 

 

 

 

关于perl 5正则表达式,有一个非常好的文档:

http://wenku.baidu.com/view/8430db38376baf1ffc4fadf9.html

 

 

你可能感兴趣的:(java,apache,html,正则表达式,perl)