爬虫学习笔记(点击加载内容的爬取)-001

今天再爬一个网站时遇到通过jsonp的形式回传后续内容的网站 (如图):爬虫学习笔记(点击加载内容的爬取)-001_第1张图片

经过观察发现每点击一个这个按钮,浏览器就会发送两个get请求:

爬虫学习笔记(点击加载内容的爬取)-001_第2张图片

 

而第一个参数里边返回的内容正好是我们要的东西,此时再看它的url:

https://shankapi.ifeng.com/shanklist/_/getColumnInfo/_/default/6470973085922103296/1542800353000/20/1-66-/getColumnInfoCallback?callback=getColumnInfoCallback&_=15428742702411

经过分析:6470973085922103296 是文章当前列表最后一篇文章的data_id 1542800353000 位置保留可以替换位其他数字不影响结果/20//20/1-66- 为固定值,表示分页大小及区间 其他可省略:

爬虫学习笔记(点击加载内容的爬取)-001_第3张图片

最后的url可以简写为:https://shankapi.ifeng.com/shanklist/_/getColumnInfo/_/default/6470973085922103296/1/20/1-66-

 

然后就可构造得到更多内容数据的请求啦~~~

你可能感兴趣的:(爬虫学习笔记(点击加载内容的爬取)-001)