修改nutch\cached.jsp,
将content = new String(bean.getContent(details))
修改为content = new String(bean.getContent(details),"utf-8")
在画红框的地方加上UTF-8即可
以下内容参考:http://blog.csdn.net/xiaomage_cn/archive/2010/07/13/5731112.aspx进行总结
如果改为UTF-8后如果为gb2312、gbk等页面将会出现乱码
然后还有一些文章是对Metadata修改parseDate的contentmeta来实现获取正确的编码方式,这个思路是非常正确的,但是还是有一点问题,仍然会存在一些gb2312的页面出现乱码,下面对网页快照乱码进行最终的一个简单的解决办法:
修改cache.jsp如下:
上面画红框的是修改后的内容
蓝框是原始内容
1.ParseData ParseData = bean.getParseData(details); 2. 3. String content = null; 4. String contentType = ParseData.getMeta(Metadata.CONTENT_TYPE); 5. if (contentType.startsWith("text/html")) { 6. // FIXME : it's better to emit the original 'byte' sequence 7. // with 'charset' set to the value of 'CharEncoding', 8. // but I don't know how to emit 'byte sequence' in JSP. 9. // out.getOutputStream().write(bean.getContent(details)) may work, 10. // but I'm not sure. 11. String encoding = ParseData.getMeta("CharEncodingForConversion"); 12. if (encoding != null) { 13. try { 14. content = new String(bean.getContent(details), encoding); 15. } 16. catch (UnsupportedEncodingException e) { 17. // fallback to windows-1252 18. content = new String(bean.getContent(details), "windows-1252"); 19. } 20. } 21. else 22. content = new String(bean.getContent(details),"GBK"); 23. }