Python学习爬虫(7)——爬取豆瓣书名(入门实战)以及 SSLError错误解决

作者:IT小样
实例:爬取豆瓣书名
URL: https://book.douban.com/tag/漫画
目的:爬取当前页面的所有的书名。
首先放上该网页所需爬取信息的网页源码图:
Python学习爬虫(7)——爬取豆瓣书名(入门实战)以及 SSLError错误解决_第1张图片
从网页源码可以得知,找到父节点后,遍历’ li '子节点,可以在子节点中获取书名;首先放上最简单的实现代码:

import requests
from bs4 import BeautifulSoup

url = "https://book.douban.com/tag/%E6%BC%AB%E7%94%BB"
response = requests.get(url,verify=False)
soup = BeautifulSoup(response.text,"lxml") 
book_div = soup.find(attrs={"class":"subject-list"}) 

book_a = book_div.find_all('li',attrs={"class":"subject-item"})

for book in book_a: 
    print (book.find('h2').get_text().replace('  ','').replace('\n',''))

这段代码实现的很简单,找到信息后,直接打印出来,没有对数据进行保存,在实现过程中,也没有对函数进行封装。之后会出更深阶的实战示例。

注意事项:在发起requests请求之中,如果出现SSLError,SSL:CERTIFICATION_VERIFY_FAILED错我,详细报错见下图:
报错
解决方法为:在requests请求中,加上参数:verify=False,加上改参数后,会跳过对SSL证书的验证。

上一篇:Python学习爬虫(6)–BeautifulSoup搜索文档树:find_all(),find()

你可能感兴趣的:(Python爬虫)