1, 在模仿浏览器爬取的过程中,如果太过频繁会被某些网站封IP, 比较简单的方法就是加上延时。。比较水。。
import time time.sleep(0.5)#秒为单位
2,字符串规则化:
去回车符: s=s.replace('\r\n',' ')
去首空格: s=s.lstrip()
去尾空格 s=s.rstrip()
3,字符串乱码问题
这个问题对于我这个新手+菜鸟来说,真是恶心透了,各种乱码,各种错误。。经过各种查资料,大概下面的几种方法:
(1) 在python 代码的最前面加上下面一句代码:
# -*- coding: utf-8 -*-
(2) 加上下面两句:
reload(sys) sys.setdefaultencoding('utf8')
还有一些其他的方法,比如encode和decode 的转化。。
注:
decode是将普通字符串按照参数中的编码格式进行解析,然后生成对应的unicode对象
那么encode正好就是相反的功能,是将一个unicode对象转换为参数中编码格式的普通字符