Jsoup过滤html标签并不删除换行符

使用了两种抽取文本的方法:

 
  1. Document doc = Jsoup.parse(html);

  2. String text = doc.text();

或者

String text = Jsoup.clean(html,Whitelist.none());

解决办法:

使用jsoup.clean的另一种方法重载:

public static String clean(String bodyHtml, String baseUri, Whitelist whitelist, Document.OutputSettings outputSettings)

bodyHtml —不安全的html片段

baseUri —将html中相对路径转换为绝对路径的URL

whitelist —白名单允许的html标签和属性

outputsettings —文档输出设置,控制精细打印

具体使用时:

String text =Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));

你可能感兴趣的:(Jsoup过滤html标签并不删除换行符)