做一个类似爬虫的小品,要从网页上爬下数据来,处理后,保存。
试用了HTMLParser、NekoHtml、JTidy发现效果都不好,尤其是网页书写不规范的时候。
最后,选定了HTMLCleaner。几乎可以搞定所有网页。
用起来也很简单,网上大部分中文介绍都会有类似这样的代码示例:
TagNode root = cleaner.clean(text or url);
然后用这样的代码保存:
CleanerProperties properties = cleaner.getProperties(); PrettyXmlSerializer prettyXmlSerializer = new PrettyXmlSerializer(properties); prettyXmlSerializer.write(root, Writer, encoding);
不过,在测试的时候,爬126.com的首页。爬下来的页面,在浏览器里打开的时候,背景图打不开。
查看保存的文件发现,页面上的js,有些被在奇怪的地方换行了:
$id('styleConf').innerHTML = $id('styleconf' + n).innerHTML + ' ';
比如上面这样……
显然这种换行方法,会导致浏览器引起js错误(把String分成多行而没有续行符)。
分析后,觉得应该是HTMLClenter为了代码的美观,试图让每个Tag另起一行(遇到"<" 或者"<"、“>”对就换行,没仔细研究)
于是上官网看了下介绍:
http://htmlcleaner.sourceforge.net/parameters.php
并没有发现哪个设置是让Tag不换行的……
接着又仔细一想,应该不是Parser时候的问题——如果是的话,说明HTMLCleaner错把JS里面的内容解析为Tag了。不过显然没有(倒是HTMLParser有这样的迹象)
进一步输出查看,也印证了这样的假设——输出script标签的时候发现,类似刚才那种地方并没有换行。
也就是说,这种修改是在保存的时候发生的。
这才注意到,那个大多数介绍页面上,用来保存页面的类,叫做PrettyXmlSerialize ……- -!
查了API后,发现这么一段话:
凶手就是它没错了,就是它做了半吊子的事情:不是按照HTMLCleaner分析出来的Tag来决定哪应该换行,而自己擅自分析页面,乱换行……
找到原因就好办,又看了看API,发现另外两个类:SimpleXmlSerializer和SimpleHtmlSerializer
都是“without indenting lines”的……实际测试之后,发现效果差不多。
于是,问题解决。
想说:
如果怀着半吊子的心态的话……果然,多一事不如少一事……
如果恰巧有人用HTMLCleaner,又恰巧需要保存页面的话……
如果页面内容比较简单也就算了。如果想对复杂的话……
最好还是选择相对简单的保存方法——简单的,也许更好……