爬取新浪微博热搜

一、准备工作

在搜索中查看榜单,先爬取实时热搜榜


爬取新浪微博热搜_第1张图片

老样子,在Chrome中检查下元素,可以发现我们想要的内容

爬取新浪微博热搜_第2张图片

但在网页源代码里并没有,看来这用到了 js 了。

爬取新浪微博热搜_第3张图片

对于 js 动态网页,还是老样子俩种方法,但我们如果我们想要的是定时多次爬取热搜呢,这样子的话用 selenium 模仿浏览器显然效率很低,就用第一种吧,通过 json 数据爬取。 详情见以前的文章
监视下 XHR ,只有一个,并不是我们想要的
爬取新浪微博热搜_第4张图片

那 js 呢。都找了一遍也没发现符合的,那怎么办?得来个详细的查找

爬取新浪微博热搜_第5张图片

检查下大的标签,发现热搜标题都在 "star_name" 里,在网页源代码里搜下

爬取新浪微博热搜_第6张图片

找到了50个匹配项,热搜榜正好是50个。看下都在

你可能感兴趣的:(爬取新浪微博热搜)