百度新闻评论内容抓取

通过抓包分析发现,百家号手机app端文章评论内容接口为:https://ext.baidu.com/api/comment/v1/comment/getlist?appid=101&sid=1008524_2-1010050_1-1007549_23033-1007550_23035&cuid=01B5EAF73E8A83BB842BE04E4FB6C656|232002010471668&isInf=1&start=0&num=10&use_uk=1&use_list=1&order=9&thread_id=1117000017606456&callback=_box_jsonp977

其中,涉及到的参数为:

百度新闻评论内容抓取_第1张图片

通过分析发现,只有start、num、thread_id这几个参数是变化的,其中,

start表示从上次数据取到了哪里,相当于offset(根据前面取的数量累加)

num表示每次取的数量

 thread_id相当与commentId,这个得从对应文章抓取下来。

百度新闻评论内容抓取_第2张图片

可以获取用户昵称、头像、评论内容、评论时间、评论点赞数、评论回复数等信息。

此外,通过reply_id可以获取对应的二级评论,对应链接为:https://ext.baidu.com/api/comment/v1/comment/getlist

二级评论接口为post请求,具体参数为:

thread_id    1007000017662557
reply_id    1109654327918885913
appid    101
order    9
use_uk    1
use_list    0
is_need_at    1
start    0
num    20
sid    
cuid    01B5EAF73E8A83BB842BE04E4FB6C656|232002010471668

具体代码请看我的github: 我的GitHub地址

你可能感兴趣的:(Web,Crawler)