爬虫页面程序

1 模拟游览器

 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

2 获取页面资源

req = urllib2.Request(url,headers=headers)
res = urllib2.urlopen(req)

3 解决乱码问题

res.read().decode('utf-8')

4 正则筛选内容

 replace("'",'"').replace(' ','')#替换筛选
 re.findall('<lihref="\d+">', res) #常用替换
 re.findall('<.+?>', res[0]) #常用

你可能感兴趣的:(爬虫页面程序)