爬虫必知300点

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

python想要使用汉字,需要在脚本最前面添加#coding:utf-8或者#coding=utf-8,汉字使用的编码为utf-8,否则会出现错误)

不要用控制台显示你的爬取东西,控制台的文本功能非常弱,根本不能正确显示爬取的大量文本。

你可能感兴趣的:(爬虫必知300点)