本次内容为爬取哔哩哔哩每周必看栏目动画,灵感来自于一位博主的评论,问能否爬取B站历史排行榜信息,便决定一试,不过B站上的排行耪都是动态更新的,因此没有头绪,自我感觉不能爬取历史排行榜信息!不过看到了一个栏目倒是有历史的信息,即图中每周必看栏目,每周五定期更新,目前已更到94期,瞬间觉着是个不错的较有挑战的例子,便打算试上一试!于是乎~便有了本篇文章,详情如下
在爬取过程中,小编开始采用之前惯用的爬取方式,发现爬取的内容不是需要的数据,每次返回的数据是各个排行榜的数据,整的挺郁闷。。。最后便采取了另外一种方式:1. 先获取页面的json数据;2. 然后对json数据进行处理;3. 最后存储到excel表中。看似没什么区别,哈哈哈,容我一一道来:
重点说一下播放链接,开始在返回的数据中没找到动画链接,想着绝对不可能,这么多信息,怎么能少得了播放链接!!!于是观察了下每个动画的链接规律:
前面都是一样的,只有后面的码不同,然后在爬取的数据中找了找,果然有,然后就拼接了下,完美!
详细完整爬取代码如下:
import requests
import pandas as pd
def getUrl(url):
#请求头
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0',
}
#解析url
html = requests.get(url, headers=header).json()
#返回json数据
return html
def getData(html):
#从json中取出需要的数据
data = html['data']['list']
# 转成DataFrame格式
datadf = pd.DataFrame(data)
# 获取标题
title=html['data']['config']['label']
#从data取出想要的字段以及对应数据
weeklydf = datadf[['title', 'pic', "bvid", 'desc', 'dynamic', 'rcmd_reason']]
# 拼接动画链接
weeklydf['bvid'] = 'https://www.bilibili.com/video/' + weeklydf['bvid']
return weeklydf,title
if __name__ == '__main__':
for i in range(1,95):
url='https://api.bilibili.com/x/web-interface/popular/series/one?number={}'.format(i)
html=getUrl(url)
weeklydf,title=getData(html)
# 索引从1开始
weeklydf.index=weeklydf.index+1
weeklydf.to_excel('E:/output/bilibili/'+title+'.xlsx')