使用python爬取喜马拉雅音频数据并保存

**

使用python爬取喜马拉雅音频数据并保存

**
1.进入喜马拉雅官网,打开要爬取的项目网页,按F12=>F5后进行清空,点击项目网页中播放按钮,出现如下图点击,查找网页的url,获取到网页链接。
使用python爬取喜马拉雅音频数据并保存_第1张图片
使用python爬取喜马拉雅音频数据并保存_第2张图片
2.获取大url才是网页真正的链接,但此网站有反扒机制,顾需要通过反扒机制请求头headers来解决反扒,请求头中包含以下两部分:user_agent和xm_sign.使用python爬取喜马拉雅音频数据并保存_第3张图片
3.但这里的xm_sign并不是固定的,扔拿不到数据,所以需要找到固定的sign才可以,这里需要从喜马拉雅网页的初始页面来查找,扔使用F12=>F5然后清空,点击页面上面的任一播放,出现下图中有sign的才是我们要找的。

4.将此sign放入请求头headers中技能得到数据,边可轻易爬取到数据,下面附出代码,里面有注释解读,方便学习。使用python爬取喜马拉雅音频数据并保存_第4张图片
使用python爬取喜马拉雅音频数据并保存_第5张图片
6.需要注意的是sign是网页中随机生成的一组数据,当你发现数据得不到的时候,说明sign已经失效,此时需要重新使用方法3中的办法获得一个新的sign,即可使用。

你可能感兴趣的:(爬虫之反爬,喜马拉雅,python,反爬)