爬虫,爬取豆瓣书城首页的书籍信息,requests下载页面,三种解析方式(正则,bs4,xpath)
importrequestsr=requests.get('https://book.douban.com/')content=r.text需要解析的主要HTMl###绿毛水怪###王小波####绿毛水怪####王小波##/##2018-5-1##/##北京十月文艺出版社#正则importrepattern=re.compile('(.*?).*?.*?author">.*?(.*?).*?yea