解决pyspider使用response.doc 节点等于None的问题

今天遇到一个页面,明明 有内容,可是用response.doc节点,就是解析不出内容,显示的是None。

经过排查,是因为这个页面里有一些特殊字符(乱码),pyspider内置的pyquery没能正确转码页面。

解决办法:

手动转码一次,然后忽略错误编码字符:

response.content = (response.content).decode('gbk', errors='ignore') #目标站是GBK 编码

你可能感兴趣的:(解决pyspider使用response.doc 节点等于None的问题)