爬虫心得(七)

返回值为html文本处理问题

这里主要是解决返回值为html的文本,该如何处理的问题。

在java中解析html就需要使用jsuop

jsoup教程:https://www.cnblogs.com/zhangyinhua/p/8037599.html

举个例子:

 org.jsoup.nodes.Document doc = Jsoup.parse(cret);
            Elements cont = doc.select("div[class=article]");
            cret = cont.toString();
          

这里就是返回值为html文本,需要提取class=article标签的内容。

所以需要这样处理,这样处理之后,就不会把标题落在落地文件里了。

你可能感兴趣的:(java,json,xml,实习)