虎嗅网爬虫(2020更新,page没了。。)

虎嗅网爬虫(2020更新,page没了。。)

    • 前言

前言

本文章只是记录自己的技术实践思路,绝无破坏网站运行的想法,如若被他人用于商业用途,与本人无关。

19年的虎嗅网data参数里是有page的,翻页轻松,2020忽然改了,出现了recommend_time参数。。

1.实验了很多次,刚开始想着直接js解密,看看这个recommend_time参数生成的规律。。没找到。。
2.recommend_time是个时间戳参数,而且每次动态刷新后新recommend_time小于旧recommend_time,按减8000这样迭代,成功。。。咳,取巧
3.返回的resp中也包含几个时间戳,选了last_dateline,也成功了。
(有个pagesize参数默认22,我修改成了50、100等,每次返回的数据也没有重复的。。具体怎样算一个周期就没去深究了)

你可能感兴趣的:(爬虫)