python爬取豆瓣读书数据 正则表达式

豆瓣读书数据抓取:

目标网址:https://book.douban.com/

目标数据:(1)书名(2)书的链接地址(3)作者(4)发行时间(5)出版社

直接上代码啦
下面展示一些 内联代码片

import requests
import re
#伪装浏览器头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:58.0) Gecko/20100101 Firefox/58.0'}
#发送请求
content = requests.get('https://book.douban.com/', headers=headers)
con = content.text


#根据正则表达式选择目标信息
pattern = re.compile('.*?more-meta.*?author">(.*?).*?year">('
                     '.*?).*?publisher">(.*?).*?', re.S)
results = re.findall(pattern, con)
#遍历输出
for result in results:
    print('书名:'+result[1]+'\n图书链接:'+result[0]+'\n作者:'+result[2].strip()+'\n发行时间:'+result[3]+'\n出版社:'+result[4])

格式不是很好看啦,有时间会完善的嘿嘿
python爬取豆瓣读书数据 正则表达式_第1张图片

你可能感兴趣的:(python爬虫,python,正则表达式)