百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取

百度深度学习7日打卡第六期:Python小白逆袭大神

https://aistudio.baidu.com/aistudio/course/introduce/1224

 

Day2-《青春有你2》选手信息爬取

百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取_第1张图片

百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取_第2张图片

 

这个作业主要考察BeautifulSoup以及Chrome开发者模式的使用。

 

使用Chrome打开网站:https://baike.baidu.com/item/青春有你第二季

百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取_第3张图片

F12,进入开发者模式,找到“参赛学员”的表格,可以在源码中找到上图中标红的代码:

BeautifulSoup 就是根据 'table' 和class的内容在网页中找到这个表格的,代码如下:

百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取_第4张图片

 

找到table后,再从中查找 'tr' ,每一行是一个tr,

每一列是一个td,可用td[0],td[1]依次获取每一列的内容。

百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取_第5张图片

百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取_第6张图片

 

在获取照片时,先根据 'summary-pic' 找到相册封面的相对网址:

百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取_第7张图片

拼接后,得到绝对网址,进入后,再通过 'pic-item' 获取相册中每张照片的地址。

这里的'pic-item selected'只有在人为访问的时候才会出现,表示当前展示给你的图片,而用requests获取的网页中不会有这个关键词,所以确保能够将所有图片都能爬取到。

百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取_第8张图片

百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取_第9张图片

 

更多爬虫教程,欢迎关注公众号:

百度深度学习7日打卡第六期:Python小白逆袭大神 Day2-《青春有你2》选手信息爬取_第10张图片

 

你可能感兴趣的:(python)