Python爬虫有手就行系列(二)----最好大学网

上一篇我们讲到了获取静态网页资源的HTML源代码

那么怎么拿到我们想要的内容呢

今日被“霍霍”的网站:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html

最好大学网
Python爬虫有手就行系列(二)----最好大学网_第1张图片

本期用到的工具库:①BeautifulSoup4 安装方法:打开命令提示符(CMD):pip install BeautifulSoup4

②requests 安装方法:打开命令提示符(CMD):pip install requests

这一步不会的小伙伴可以自行百度也可以留言私信我

前期一切准备工作做好了,开始正文

我用的是谷歌浏览器,也推荐大家使用谷歌浏览器

第一步:分析网站

按键盘F12打开加载好的网页源代码 并点击左上角小箭头、然后点击到目标处 如图标注处:
Python爬虫有手就行系列(二)----最好大学网_第2张图片

当点击到目标处后 发现源代码也跳到的相应的地方 如图:

Python爬虫有手就行系列(二)----最好大学网_第3张图片
发现我们要获得的排名数字1在一个td标签内,那么这就是我们要获取的内容,相同方法看其他三个需要获取的内容在什么标签内,并且发现,所需所有内容每一行都在一个class=alt的tr标签内(划重点,下面要用,看不到仔细看看),接下来为整体思路!!!!——>>>那么意味着,我们可以借助BeautifulSoup(不会的网上找找教程 教程很多,这里我们就讲我认为最实用的)直接拿到class=alt的所有标签,就拿到了每一行,再详细获取每一行中的每一个单元格就得到了我们想要的数据,下面上代码

第二步:获取网页源代码
Python爬虫有手就行系列(二)----最好大学网_第4张图片
这里就获取到了网页源代码 ,我就只截取了网页HTML源代码的一部分

第三步:解析爬虫获取到的网页源代码

BeautifulSoup只是一个工具 在这就不细讲了,这里推荐会用select方法就行了,select方法中 #***代表ID是什么 例如id=“qq” 那么就是soup.select("#qq") , .***代表class是什么 例如class=“qq” 那么就是soup.select(".qq") ,简单用法就讲解到这,想要深入了解的百度查询一下

根据整体思路先获得每一行
Python爬虫有手就行系列(二)----最好大学网_第5张图片
Python爬虫有手就行系列(二)----最好大学网_第6张图片
再根据获得的的行获取其中的单元格,我们通过循环获取每一行中的每个单元格
Python爬虫有手就行系列(二)----最好大学网_第7张图片
打印出来就获取到了我们想要的数据
总结:爬取网站最重要的是思路,照着思路一步步实现就好,切记:对这个网站没思路可以不要动手写爬虫 毫无意义

你可能感兴趣的:(Python爬虫,Python,python,大数据,html)