四十五、爬取QQ音乐Lemon 日语歌的评论

@Author:Runsen

我们继续学习Python爬虫。本次爬取的对象是QQ音乐Lemon 日语歌的评论

首先查看一下,我们要爬取的网页,是否反爬(各种侵害人家服务器的事情,我们不能干)

QQ音乐网址:https://y.qq.com

要查看该网页的反爬要求,可以直接在网页后加/robots.txt

QQ音乐反爬要求就是:https://y.qq.com/robots.txt

四十五、爬取QQ音乐Lemon 日语歌的评论_第1张图片

看了一下官网不给爬的内容,没有说不可以爬评论,那我们就爬了~

四十五、爬取QQ音乐Lemon 日语歌的评论_第2张图片

四十五、爬取QQ音乐Lemon 日语歌的评论_第3张图片

根据我们之前的操作,我们会先右击看一下网页源代码。

如果我们要的内容,就在源代码里面,那万事大吉,直接按照我们之前爬豆瓣的那一套来

但是我们爬QQ音乐的时候,很悲伤的发现,网页源代码里面,没有数据了!

其实这和百度图片一样,就是一个ajax请求加载的。现在就是要找出对应的json。

XHR 全称 XMLHttpRequest,它是浏览器内置的对象,使得 JavaScript 可以发送 HTTP 请求。

我们先右击打开“审查元素”,勾选Network—>勾选XHR—>查找我们要的内容

四十五、爬取QQ音乐Lemon 日语歌的评论_第4张图片

理论上,我们是一个一个找。有个小技巧,评论数据的东西,直接搜索就可以了。可以看到,这里面就包含了昵称、评论等内容

我们点会到Headers,看一下这个网址,网址的获取方式是GET

你可能感兴趣的:(零基础学Python爬虫)