python爬虫解析网页编码问题

最近做了一个需求,爬取n多新闻新闻url的正文。这些url是从百度新闻搜索关键字爬取下来的

碰到gbk,gb2132,utf-8网页编码解析时都能跑通。以下是部分代码,记录一下

 

def run(self):
    filename = u'D:\xx\{}.html'.format(file_title)
    print filename, type(filename)
    try:
        page = requests.get(url).content
        de = chardet.detect(page)['encoding']
        if de is None:
            pass
        else:
            page = page.decode('%s' % de, 'ignore')
            self.pages = self.getHtml(self.url, filename, page)
    except:
        pass

 

你可能感兴趣的:(爬虫)