使用Jsoup 过滤HTML

 我们在解析HTML 或者爬取网页信息时,一般使用htmlparser,可惜这个有好多硬伤,或者使用htmlcleaner来解析,爬取网页,除了这些其实我们还有其他好的选择,过滤html标签时我们常常需要写大量的正则表达式,这对于一个基本程序员来说是个头痛的问题。下面来看看Jsoup的基本使用:

 

public static void  htmlTrimToTxt(){
            String html = "<p>  asdasdasda</p><p>\n\r\tdd</p>你好,我是来自<a href='http://www.iteye.com/' target='_blank'>社区</a>的灌水大王。";
             String unsafe = "\r\n<h1>哈哈</h1><b>sdds< /b><code>34433434</code><img src='http://i.jpg'></img><p><a href='http://example.com/' onclick='stealCookies()'>Link</a></p>";
             Whitelist whiteList=new Whitelist();
             String safe = Jsoup.clean(unsafe, Whitelist.basicWithImages()); //定义白名单,留下一些标签
                  System.out.println(safe);
              System.out.println(Jsoup.parse(html).text()); //全部过滤

   1.        }

你可能感兴趣的:(html,正则表达式,TDD)