Python对B站弹幕爬取统计+词云可视化

一、获取视频oid值

第一步,找到想要爬取的视频页面,按F12进入开发者模式
Python对B站弹幕爬取统计+词云可视化_第1张图片
第二步,在Network中搜索oid,并按F5进行页面刷新,获得视频的oid值
Python对B站弹幕爬取统计+词云可视化_第2张图片

二、输入代码

import requests as rq
import re
import wordcloud
from imageio import imread
#获取弹幕信息#
def host_url(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",
    }
    get_page=rq.get(url,headers=headers)
    html_doc = get_page.content.decode('utf-8')
    #采用正则书写可以录入纯符号弹幕,如 ????? 等#
    dm_select = re.compile("(.*?)")
    dm_info=dm_select.findall(html_doc)
    return dm_info

oid=input('请输入你要分析的视频oid:')
#输入图片全称,如 123.jpg #
fig_info=input('请输入你要选择的背景图全称:')
mk=imread(fig_info)
url_num='https://api.bilibili.com/x/v1/dm/list.so?oid={}'.format(oid)
dm_total_info=host_url(url_num)
txt=" ".join(dm_total_info)
#词云背景图的设置#
w=wordcloud.WordCloud( font_path='msyh.ttc',\
                       width=1000,height=700,\
                       mask=mk,background_color='white')
w.generate(txt)
#输出图片#
w.to_file('wordcl.jpg')

新手小白,请多多指教!

你可能感兴趣的:(弹幕,B站,Python)