Apache Nutch网页快照乱码的问题

  ApacheNutch显示网页快照时,如果有汉字,可能会出现乱码。比如,原网页是用gb2312编码的,显示时就不能正常显示。
解决方法是:当不能正常取到Encoding时,就从Content-Type中获取。
具体为:修改cached.jsp文件

    else
        content = new String(bean.getContent(details));
修改为:
    else {
     int index = contentType.indexOf("charset=");
     encoding = "utf-8";
     if(index>=0){
        encoding = contentType.substring(index+8);
     }
     content = new String(bean.getContent(details),encoding);
    }

你可能感兴趣的:(Apache Nutch网页快照乱码的问题)