python3中将`&#x`(《新)的字符串转化为utf-8

对于网页中的《新编全注 ,正常情况下python3中能直接转化为utf-8,所以即使网页中显示的是这种escape sequence,获取到之后能够显示正常,但是偶尔也不好使,不好使的情况下可以使用如下方法解决:

安装HTMLParser

pip install HTMLParser

修改HTMLParser的源码

修改import markupbaseimport _markupbase as markupbase (在源码的第11行)

修改return unichr(c)return chr(c) python3中没有unichr,用chr即可(在源码的456行)

使用方法

from HTMLParser import HTMLParser
HTMLParser().unescape("《新编全注")

你可能感兴趣的:(爬虫)