「爬虫」10爬虫之抓包分析及评论爬取(以腾讯视频评论为例)

1.抓包分析

    抓包分析,即将网络传输发送与接收的数据包进行抓取的操作。做爬虫时,数据并不一定就在HTML源码中,很可能隐藏在一些网址中,所以,我们要通过抓包分析出对应数据所隐藏在的网址,然后分析规律并爬取。

2.Fiddler抓包软件

(1)原理:Fiddler作为代理服务器进行抓包。

(2)常用命令行:clear清屏

(3)安装完成后,因为Fiddler默认只能抓取http协议,但大多数网址都是https协议,所以要对Fiddler进行设置:Tools--->Options--->https

①勾选Decrypt HTTPS CONNECTs

Tools-->Options--->HTTPS

②点击Actions,添加信任证书(全部选yes即可)

信任证书

(4)配置完成后即可正常抓包。

3.实例:抓取腾讯视频(电影《哪吒》)评论

(1)先打开视频页面,再打开Fiddler,将Fiddler清屏后,刷新视频页面,进行抓包,找到可能包含评论的.js文件;

抓包结果

(2)复制.js文件的url,用浏览器打开进行查看;

.js文件查看结果

(3)任意复制一段代码在IDLE中进行编译,查看其内容;

任意一段代码编译结果

(4)点击评论下方的【更多】,继续抓包,找到同名的.js文件,复制其url,两个url进行对比,观察结构的不同;

https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6559269975837074771&_=1578312314337

【更多】

https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6563015468083864860&_=1578313115082

(5)对两个url进行分析简化;

https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6559269975837074771

【更多】

https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6563015468083864860

(6)调出视频页面源码,用url中的部分字段在源码中进行检索,找到两个.js文件之间的关系;

(7)代码编写:

爬取腾讯视频评论的代码

(8)结果查看。

爬取结果

你可能感兴趣的:(「爬虫」10爬虫之抓包分析及评论爬取(以腾讯视频评论为例))