爬取《哪吒》豆瓣短评,我获得了什么?

《哪吒》最近挺火的。于是,我就想看看关于《哪吒》的好评。

打开豆瓣,找到短评,试着开始用python爬取数据。可是,折腾一波之后,发现了这个。

豆瓣从2017.10月开始全面禁止爬取数据,仅仅开放500条数据,白天1分钟最多可以爬取40次,晚上一分钟可爬取60次数,超过此次数则会封禁IP地址。

登录状态下,按网页按钮点击“后页”,参数“start”最多为480,也就是20*25=500条;非登录状态下,最多为200条。

行吧,500条就500条吧,Let's go。

整个过程:

  • 获取豆瓣短评数据
  • 词云可视化
  • 结果展示:

    总结来了

    我把文章中的一些重要的内容,总结在了下面的一张图里,方便大家保存、查阅。

    关注公众号【小痴印记】,获取源码。

    -END-

    你可能感兴趣的:(爬取《哪吒》豆瓣短评,我获得了什么?)