半桶水技术

Python爬虫学习笔记Day2

有些网站需要做了限定浏览器才能打开所以这次我们要伪装一个浏览器取抓去数据

还是以豆瓣为例

代码如下：

'''
伪装浏览器
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36
'''

import urllib.request

url = 'https://www.douban.com/'

header = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'}

req = urllib.request.Request(url=url,headers=header)

re = urllib.request.urlopen(req)

data = re.read()

#设置编码方式
data = data.decode('utf-8')

#打印抓取结果
print(data)

#打印爬取网页的各类信息
print(type(re))
print(re.geturl())
print(re.info())
print(re.getcode())

我的是mac电脑如果是 win的系统请自行百度或用抓包工具查找User-Agent 如有不妥请大神指点。。。

抓取结果：


"zh-cmn-Hans" class="ua-mac ua-webkit">

"UTF-8">
"description" content="提供图书、电影、音乐唱片的推荐、评论和价格比较，以及城市独特的文化生活。">
"keywords" content="豆瓣,广播,登陆豆瓣">
"qc:admins" content="2554215131764752166375" />
"wb:webmaster" content="375d4a17a4fa24c2" />
"mobile-agent" content="format=html5; url=https://m.douban.com">
豆瓣

"stylesheet" href="https://img3.doubanio.com/f/shire/25e3b87e05e5de459e1473fad35d25cafd392ad6/css/core/_init_.css">
"stylesheet" href="https://img3.doubanio.com/f/sns/024dd07167e74fe8d2ac2faaf2725333e6f7561b/css/sns/anonymous_home.css">