Scrapy中文乱码

    Scrapy默认读取的内容ascii编码,而对中文不言而喻会出错,中文三大编码,后面的标准是前面标准的扩展。

GB2312 < GBK < GB18030

    Scrapy项目获取文本编码的方法有:
    1. 安装chardet第三方包,chardet.dectet()。
    2. import chardetect,好像其是封装chardet包。
    3. Scrapy返回内容 response.encoding属性。
    其中response.encoding返回可能不很准,如把gbk标成gb18030。而chardet或chardetect也不保证100%正确,且传给chardet.dectet()不是文件名,是字符串,若是大文件,则判断成本很高。
    暂时不知真正高效的方法。

你可能感兴趣的:(Scrapy中文乱码)