Python爬虫学习笔记Day2

有些网站需要做了限定   浏览器才能 打开    所以这次我们要伪装一个浏览器 取抓去 数据

还是以豆瓣为例

代码如下:

'''
伪装浏览器
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36
'''

import urllib.request

url = 'https://www.douban.com/'

header = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'}

req = urllib.request.Request(url=url,headers=header)

re = urllib.request.urlopen(req)

data = re.read()

#设置编码方式
data = data.decode('utf-8')

#打印抓取结果
print(data)

#打印爬取网页的各类信息
print(type(re))
print(re.geturl())
print(re.info())
print(re.getcode())
我的是mac电脑  如果是 win的系统 请自行 百度 或 用抓包工具  查找User-Agent   如有不妥请大神指点。。。

抓取结果:


"zh-cmn-Hans" class="ua-mac ua-webkit">

"UTF-8">
"description" content="提供图书、电影、音乐唱片的推荐、评论和价格比较,以及城市独特的文化生活。">
"keywords" content="豆瓣,广播,登陆豆瓣">
"qc:admins" content="2554215131764752166375" />
"wb:webmaster" content="375d4a17a4fa24c2" />
"mobile-agent" content="format=html5; url=https://m.douban.com">
豆瓣

"stylesheet" href="https://img3.doubanio.com/f/shire/25e3b87e05e5de459e1473fad35d25cafd392ad6/css/core/_init_.css">
"stylesheet" href="https://img3.doubanio.com/f/sns/024dd07167e74fe8d2ac2faaf2725333e6f7561b/css/sns/anonymous_home.css">