java去除html标签格式,提取文本信息

package com.teamdev.jxbrowser.chromium.demo.entinfo;

import java.util.regex.Matcher;  
import java.util.regex.Pattern; 

public class HtmlToText {
      public static void main(String[] args) {  
             // TODO Auto-generated method stub     
             String content=" 
指出:“信息化是公安机关的一场警务革命,对于这场革命,谁认识早,谁抓得好,谁就赢得主动,占领制高点”。省常委委、省委政法委书籍、省公安厅厅长孟苏铁通知多次强调:“加强信息化建设,是新形势下提升社会管理效能的必由之路,是实现公安工作跨越式发展的有力支撑”;“公安信息化是发展方向,更是前进动力;是工作载体,更是创新平台”;“要紧紧抓住公安信息化建设这个支撑点,在深化应用中全面增强公安机关的核心战斗力”。

       “工欲善其事,必先利其器。”在当前日益动态的社会治安形势下,我市公安机关要彻底扭转“打不胜打、防不胜防”的被动局面,实现警力不增、效能大增的目标,就必须积极主动适应信息化的发展趋势,加快信息化手段、战法的总结、提炼、推广和应用,坚持向信息化要警力、向科技手段要战斗力,通过信息化行成的强大后台,将广大侦查民警变成以一

";                   System.out.println(getText(content));                             }       public static String getText(String content){           String txtcontent = content.replaceAll("]+>", ""); //剔出的标签             txtcontent = txtcontent.replaceAll("\\s*|\t|\r|\n", "");//去除字符串中的空格,回车,换行符,制表符            return txtcontent;       }        }

 

 

 

转:https://zfei.iteye.com/blog/1540377

你可能感兴趣的:(java)