前言
爬取《青春有你2》小MM是第二天训练训练营的任务。之前也没有写过爬虫,滚摸爬了一个下午,非常感谢群里小伙伴的解疑。另外体验了一番 调用百度产品接口- 人像动漫化,感觉十分有趣。整体来说这天百度训练营的学习内容还是趣味挺足。在下面一一分享给大家
这天的学习作业是爬取《青春有你》女神照片。:数据获取:https://baike.baidu.com/item/青春有你第二季
import json
import re
import requests
import datetime
from bs4 import BeautifulSoup
import os
#获取当天日期并进行格式化,用于后面文件命名
today=datetime.date.today().strftime('%Y%m%d')
用到两个基本模块
request模块:
requests.get(url)可以发送一个http get请求,返回服务器响应内容。
BeautifulSoup库:
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0
BeautifulSoup(markup, "html.parser")或者BeautifulSoup(markup, "lxml"),推荐使用lxml作为解析器,因为效率更高。
def crawl_wiki_data():
"""爬取百度百科中《青春有你2》中所有参赛选手信息,返回页面数据"""
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
} #模拟浏览器
url='https://baike.baidu.com/item/青春有你第二季'#爬取的网站
try:
response=requests.get(url=url,headers=headers)
print(response.status_code)#节点状态#
#将一段文档传入beatifulSoup的构造方法,得到一个文件对象,可以传入一段字符串
soup=BeautifulSoup(response.text,'lxml')#lxml 解析器
#返回的是class为table-view log-set-param的