nutch网页快照乱码解决方法

 

修改nutch\cached.jsp,

content = new String(bean.getContent(details))

修改为content = new String(bean.getContent(details),"utf-8")

nutch网页快照乱码解决方法_第1张图片

 

在画红框的地方加上UTF-8即可

以下内容参考:http://blog.csdn.net/xiaomage_cn/archive/2010/07/13/5731112.aspx进行总结

 

如果改为UTF-8后如果为gb2312gbk等页面将会出现乱码

然后还有一些文章是对Metadata修改parseDatecontentmeta来实现获取正确的编码方式,这个思路是非常正确的,但是还是有一点问题,仍然会存在一些gb2312的页面出现乱码,下面对网页快照乱码进行最终的一个简单的解决办法:

修改cache.jsp如下:

nutch网页快照乱码解决方法_第2张图片

 

 

上面画红框的是修改后的内容

蓝框是原始内容

 

 

 


ParseData ParseData = bean.getParseData(details);

  String content = null;
  String contentType = ParseData.getMeta(Metadata.CONTENT_TYPE);
  if (contentType.startsWith("text/html")) {
    // FIXME : it's better to emit the original 'byte' sequence 
    // with 'charset' set to the value of 'CharEncoding',
    // but I don't know how to emit 'byte sequence' in JSP.
    // out.getOutputStream().write(bean.getContent(details)) may work, 
    // but I'm not sure.
    String encoding = ParseData.getMeta("CharEncodingForConversion"); 
    if (encoding != null) {
      try {
        content = new String(bean.getContent(details), encoding);
      }
      catch (UnsupportedEncodingException e) {
        // fallback to windows-1252
        content = new String(bean.getContent(details), "windows-1252");
      }
    }
    else 
      content = new String(bean.getContent(details),"GBK");
  }
 

你可能感兴趣的:(Nutch)