netexsy

b站爬虫大作业（大二）--（利用selenium模块爬取数据、利用pyecharts模块制作可视化图表）（bilibili数据可视化）

其实这个时候差不多已经可以正常运行了，但有些人可能运行不了，可能是对应的环境变量没有添加（如果你把python安装目录已经添加到环境变量里面就应该没问题，有问题可能是没有完全添加进去，导致这个chromedriver系统识别不到）

打开我们的查看高级系统设置，点击环境变量，打开系统变量里面的path环境。添加我们的驱动路径进去。

完成之后我们可以打开PyCharm运行一段代码：

from selenium import webdriver  

if __name__ == '__main__':

    url = "https://www.bilibili.com/"
    driver = webdriver.Chrome()
    driver.get(url)

如果成功跳出chrome浏览器并显示已经到b站主页，那么安装就算完成了！

二、爬取目标

我们要爬取什么数据，并且该利用这些数据制作什么图表。这应该是我们要最先明确的，有了目标才能事半功倍。

我们小组在进行爬取信息决策时，想出了以下5条爬取目标：

1.bilibili热门榜top100视频相关数据的爬取

需要爬取内容：当前榜单top100视频的标题，up主，观看量，弹幕数，点赞数，投币数，收藏数，转发数。

分析点：比较观看量，弹幕数，点赞数，投币数，收藏数，转发数的差异。

2.bilibili热歌排行榜数据爬取

需要爬取内容：各个种类歌曲排行榜，MV排行榜。

分析点：统计各个种类歌曲的播放量，得出b站用户最爱哪种类型的歌曲。

3.bilibili美食区视频标签的数据爬取

需要爬取内容：视频标题，各个视频的相关标签。

分析点：分析标签词条出现频次，分析当前最热标签词条。

4.单一视频的评论数据爬取

需要爬取内容：选择一个内容新颖的视频，爬取其评论信息

分析点：分析各个评论传达出的情感态度，进行情感态度词条的统计，分析出该视频内容的好坏。

5.单一视频一周内各个参数数据的爬取

需要爬取内容：该视频一周内的观看量, 弹幕数, 点赞数, 投币数, 收藏数, 转发数。

分析点：分析该视频一周内各个数据的变化，推断出该视频的热度以及受欢迎度。

有了目标后，我们就可以开始干活了！

三、爬取过程

1.bilibili热门榜top100视频相关数据的爬取

由于这个top100榜单肯定是实时变化的，所以我们的这个榜单肯定不一样，但是爬取的过程是一样的，只是爬取下来的数据不一样。

这是我写这篇文章时的榜单

接下来是爬取过程：

先说一下我的爬取过程思考：

第一步：先将这个总页面中的100个视频的url（链接）都爬取下来，写入一个文件url.csv里面

第二部：循环读取url.csv文件里面的100个url（链接），进入每个视频的页面，然后将每个视频的具体信息爬取下来，写入一个文件top100.csv里面。

这样视频的相关信息就被我顺利爬取下来了（其实也可以直接在读取到每个视频url时就进入每个视频页面直接爬取信息，这就省略了第一步。但是当时我没有考虑这个，坚持一步一步来，所以这里就分享这个稍微麻烦一点的方法）

1.直接给出代码，下面这个是爬取top100所有视频链接的代码。

import csv                              # csv模块在生成、写入文件时用到  
from selenium import webdriver          # selenium模块下的webdriver是爬虫要用的

if __name__ == '__main__':              # 入口

    url = 'https://www.bilibili.com/v/popular/rank/all'    # top100总页面链接
    driver = webdriver.Chrome()                            # 启动chromediver进行调试
    driver.get(url)                                        # 传入url

    csv_file = "data/top100_url.csv"                       # 新建一个名为top100_url的csv类型的文件放在data文件夹下（data文件夹可以自己新建，代码运行后也会自动生成）


    with open(csv_file, 'a',newline='', encoding='utf-8') as f:      # 打开刚刚定义的文件，'a'是追加模式，也可以换成'w'，'w'为重写模式，encoding为编码，设置为'utf-8'
        writer = csv.writer(f)                 # 自定义一个名为writer的变量，这句就直接抄，不解释
        writer.writerow(['b站实时排行榜前一百视频url','up主昵称'])   # 写入列标题

        i = 1                                                           # i的初始值设置为1
        print()
        while(i < 101):                                                 # 循环爬取100个视频的url
            all_datas = driver.find_elements_by_xpath(f'//*[@id="app"]/div/div[2]/div[2]/ul/li[{i}]/div/div[2]/a')                 # 这里是通过xpath来定位视频的链接，all_datas返回的值为当前视频所在小模块的所有信息，当然也包括了url
            all_up_name = driver.find_elements_by_xpath(f'//*[@id="app"]/div/div[2]/div[2]/ul/li[{i}]/div/div[2]/div/a/span')       # 这里通过xpath爬取up的名字，all_up_name返回值为一个list
            href_values = [element.get_attribute("href") for element in all_datas]    # 从all_datas中提取每个视频的url（链接）
            up_name = all_up_name[0].text                                             # 从all_ip_data中提取up主名字
            writer.writerow([href_values[0], up_name])               # 将每个视频的url与对应up主名字写入文件
            print(f'第{i}个视频已经爬取完成')                         # 显示进度
            i += 1

要注意的是：在爬取的过程中，需要我们实时加载页面，因为页面如果不加载，数据就无法被系统检测到，会导致程序卡死，这个时候我们大概率只能重新来过，如果你看懂了代码，稍微修改一下就能够实现在对应的地方继续爬虫或者重复爬虫。

爬取下来的数据差不多是这样的（这里只展示了前一部分，一共应该有100行）----第一列是url，第二列是up主名字，其实只需要第一列，第二列没啥用。

欧克！现在我们第一步就算完成了

2.直接给出代码，这里是根据上面我们爬下来的url（链接）循环爬取每个视频的相关信息

# 导入模块

import csv
from selenium import webdriver
import pandas as pd


# 提取上一步爬取下来的文件中的url

all_urls = pd.read_csv('./data/top100_url.csv')                   # 利用pandas模块读取csv文件
    all_video_urls = all_urls['b站实时排行榜前一百视频url']        # 利用类标题获取url所在列的信息，all_video_urls返回值类型为（pandas.core.series.Series），这个理解为一个表格就行了
    all_video_up = all_urls['up主昵称']                           # 同上这里获取up名字


    driver = webdriver.Chrome()                                  # 启动chromedriver
    csv_file = "data/top100_details.csv"                         # 新建一个文件，存储所有视频的相关信息

    with open(csv_file, 'a', newline='', encoding='utf-8') as f:           # 打开文件，循环写入信息
        writer = csv.writer(f)
        writer.writerow(['视频标题', 'up主', '观看量', '弹幕数', '点赞数', '投币数', '收藏数', '转发数'])               # 我们要爬取的视频信息包括（1.视频标题 2.up主 3.观看量 4.弹幕数 5.点赞数 6.投币数 7.收藏数 8.转发数）  

        i = 0
        for url in all_video_urls:                                   # 循环遍历all_video_urls中的每一个url（链接）
            driver.get(url)                                          # 打开每一个链接
    ###############################################################################
            data_title = driver.find_elements_by_xpath('// *[ @ id = "viewbox_report"] / h1')
            title = data_title[0].text  ###### 视频标题
    ###############################################################################               
            up = all_video_up[i]   ###### up主
    ###############################################################################
            data_watch_dm = driver.find_elements_by_xpath('// *[ @ id = "viewbox_report"] / div / div / span')                                      # data_watch_dm包含了播放量和弹幕数的相关数据

    ######################################################################
    ####因为爬取出来的数据都是数字加上汉字“万”                          ###
    ####所以我处理了一下，将“万”全部都变成×10000，使得所有数据都为数字形式###
    #####################################################################

            watch = data_watch_dm[0].text  ###### 播放量
            # 处理汉字‘万’
            if watch[-1] in '万':
                num = float(watch[0:-1])
                num *= 10000
                watch = str(num)
   ###############################################################################
            dm = data_watch_dm[1].text  ###### 弹幕数
            # 处理汉字‘万’
            if dm[-1] in '万':
                num = float(dm[0:-1])
                num *= 10000
                dm = str(num)
   ###############################################################################
            data_dz_tb_sc_fx = driver.find_elements_by_xpath('// *[ @ id = "arc_toolbar_report"] / div[1] / div')                      # data_dz_tb_sc_fx包含了带你赞数，投币数，收藏数，分享数的相关数据

    ######################################################################
    ####因为爬取出来的数据都是数字加上汉字“万”                           ###
    ####所以我处理了一下，将“万”全部都变成×10000，使得所有数据都为数字形式###
    #####################################################################

            video_like_info = data_dz_tb_sc_fx[0].text  ###### 点赞数
            # 处理汉字‘万’
            if video_like_info[-1] in '万':
                num = float(video_like_info[0:-1])
                num *= 10000
                video_like_info = str(num)
   ###############################################################################
            video_coin_info = data_dz_tb_sc_fx[1].text  ###### 投币数
            # 处理汉字‘万’
            if video_coin_info[-1] in '万':
                num = float(video_coin_info[0:-1])
                num *= 10000
                video_coin_info = str(num)
   ###############################################################################
            video_fav_info = data_dz_tb_sc_fx[2].text  ###### 收藏数
            # 处理汉字‘万’
            if video_fav_info[-1] in '万':
                num = float(video_fav_info[0:-1])
                num *= 10000
                video_fav_info = str(num)
   ###############################################################################
            video_share_info = data_dz_tb_sc_fx[3].text  ###### 分享数
            # 处理汉字‘万’
            if video_share_info[-1] in '万':
                num = float(video_share_info[0:-1])
                num *= 10000
                video_share_info = str(num)
    ###############################################################################

            row = [title, up, watch, dm, video_like_info, video_coin_info,
                   video_fav_info, video_share_info]                         # 将数据打包为一个list（列表）
            writer.writerow(row)                                          # 写入文件
            print(f'第{i + 1}个视频已经爬取成功！')                        # 提示进度
            i += 1

到这里所有得视频信息就都被我们爬取下来了，可以检查一下爬取的数据集，下面是我爬取的部分数据。

3.下面是完整代码，可以直接复制使用，爬取的是b站热门榜top100视频的相关链接与具体数据，代码会生成两个csv文件-------第一个是top100_url.csv，存储100个视频的链接；第二个是top100_details.csv，存储100个视频的具体参数及数据。（包括 1.视频标题 2.up主 3.观看量 4.弹幕数 5.点赞数 6.投币数 7.收藏数 8.转发数）（数据是粗数据，只能精确到万位，对于大作业来说应该到这里就差不多了）

import csv
from selenium import webdriver
import pandas as pd

if __name__ == '__main__':

    url = 'https://www.bilibili.com/v/popular/rank/all'
    driver = webdriver.Chrome()
    driver.get(url)

    csv_file = "data/top100_url.csv"


    with open(csv_file, 'a',newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['b站实时排行榜前一百视频url','up主昵称'])

        i = 1
        print()
        while(i < 101):
            all_datas = driver.find_elements_by_xpath(f'//*[@id="app"]/div/div[2]/div[2]/ul/li[{i}]/div/div[2]/a')
            all_up_name = driver.find_elements_by_xpath(f'//*[@id="app"]/div/div[2]/div[2]/ul/li[{i}]/div/div[2]/div/a/span')
            href_values = [element.get_attribute("href") for element in all_datas]
            up_name = all_up_name[0].text
            writer.writerow([href_values[0], up_name])
            print(f'第{i}个视频已经爬取完成')
            i += 1

########################################################################################################################

# 提取上一步爬取下来的文件中的url
    all_urls = pd.read_csv('./data/top100_url.csv')
    all_video_urls = all_urls['b站实时排行榜前一百视频url']
    all_video_up = all_urls['up主昵称']

    driver = webdriver.Chrome()
    csv_file = "data/top100_details.csv"

    with open(csv_file, 'a', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['视频标题', 'up主', '观看量', '弹幕数', '点赞数', '投币数', '收藏数', '转发数'])

        i = 0
        for url in all_video_urls:
            driver.get(url)

            data_title = driver.find_elements_by_xpath('// *[ @ id = "viewbox_report"] / h1')
            title = data_title[0].text  ###### 视频标题

            up = all_video_up[i]   ###### up主

            data_watch_dm = driver.find_elements_by_xpath('// *[ @ id = "viewbox_report"] / div / div / span')


            watch = data_watch_dm[0].text  ###### 播放量
            if watch[-1] in '万':
                num = float(watch[0:-1])
                num *= 10000
                watch = str(num)

            dm = data_watch_dm[1].text  ###### 弹幕数
            if dm[-1] in '万':
                num = float(dm[0:-1])
                num *= 10000
                dm = str(num)

            data_dz_tb_sc_fx = driver.find_elements_by_xpath('// *[ @ id = "arc_toolbar_report"] / div[1] / div')

            video_like_info = data_dz_tb_sc_fx[0].text  ###### 点赞数
            if video_like_info[-1] in '万':
                num = float(video_like_info[0:-1])
                num *= 10000
                video_like_info = str(num)

            video_coin_info = data_dz_tb_sc_fx[1].text  ###### 投币数
            if video_coin_info[-1] in '万':
                num = float(video_coin_info[0:-1])
                num *= 10000
                video_coin_info = str(num)

            video_fav_info = data_dz_tb_sc_fx[2].text  ###### 收藏数
            if video_fav_info[-1] in '万':
                num = float(video_fav_info[0:-1])
                num *= 10000
                video_fav_info = str(num)

            video_share_info = data_dz_tb_sc_fx[3].text  ###### 分享数
            if video_share_info[-1] in '万':
                num = float(video_share_info[0:-1])
                num *= 10000
                video_share_info = str(num)

            row = [title, up, watch, dm, video_like_info, video_coin_info,
                   video_fav_info, video_share_info]
            writer.writerow(row)
            print(f'第{i + 1}个视频已经爬取成功！')
            i += 1

欧克欧克！到这里所有的数据就爬取完成了，第一个目标就算完成了，看到这里，你应该差不多了解这个爬虫的具体过程（上面的注释详细看看）

如果你不了解的话，可以找我问问，看到了问题私信的话我会回的

接下来直接放代码

bilibili热歌排行榜数据爬取

import csv
from selenium import webdriver

if __name__ == '__main__':

    url = "https://www.bilibili.com/v/musicplus/video"
    driver = webdriver.Chrome()
    driver.get(url)

    csv_file = "data_analysis/music_hank.csv"
    i = 50
    music_type_list = []
    while(i < 120):
        data_type_elements = driver.find_elements_by_xpath(f'//*[@id="main"]/div/div[2]/ul[2]/li[{int(i/5)}]')
        data_type = data_type_elements[0].text
        i += 1
        print(i)
    # print(music_type_list)
        with open(csv_file, 'a', newline='', encoding='utf-8') as f:
            writer = csv.writer(f)
            writer.writerow([data_type])

            j = 1
            while j:
                data_bf_element = driver.find_elements_by_xpath(f'//*[@id="main"]/div/div[3]/div[{j}]/div/a/div[1]/div[1]/span[1]')
                if not data_bf_element:
                    break
                else:
                    data_bf = data_bf_element[0].text
                    if data_bf[-1] in '万':
                        num = float(data_bf[0:-1])
                        num *= 10000
                        data_bf = str(num)
                    writer.writerow([data_bf])
                    print(j)
                    j += 1

注意：这个代码不要直接点运行，推荐使用“调试”，因为程序运行很快，我们来不及加载页面。

这个代码爬取的是音乐区---->最热里面的“全部曲风”的每一个曲风的前5页的所有视频的播放量

爬取下来又整理之后的数据集差不多是这样的（数据全部都是播放量）（部分）

那么，第二个爬取目标也就完成了

bilibili美食区视频标签的数据爬取

import csv
from selenium import webdriver
import pandas as pd

if __name__ == '__main__':

    url = 'https://www.bilibili.com/v/food'
    driver = webdriver.Chrome()
    driver.get(url)

    csv_file = "data/food_part_url.csv"
    with open(csv_file, 'w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['栏目', '链接'])

        i = 3
        while(i < 8):
            all_part_name = (driver.find_elements_by_xpath(f'//*[@id="i_cecream"]/div/main/div/div[{i}]/div/div[1]/div[1]/a/span'))[0].text
            all_part_url = driver.find_elements_by_xpath(f'//*[@id="i_cecream"]/div/main/div/div[{i}]/div/div[1]/div[2]/a')
            href_values = [element.get_attribute("href") for element in all_part_url]  # 栏目链接
            writer.writerow([all_part_name, href_values[0]])
            i += 1
######################################################################################################################################################
    df = pd.read_csv("data/food_part_url.csv")
    all_urls = df['链接']
    name = df['栏目']
    driver = webdriver.Chrome()
    csv_file = "data/food_part_video_url.csv"

    with open(csv_file, 'w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['栏目', '视频标题', '视频链接'])

        j = 0
        for url in all_urls:
            driver.get(url)
            i = 1
            while(i < 51):
                video_name = (driver.find_elements_by_xpath(f'//*[@id="i_cecream"]/div/main/div/div[3]/div[2]/div[{i}]/div[2]/div/div/h3'))[0].text
                video_element = driver.find_elements_by_xpath(f'//*[@id="i_cecream"]/div/main/div/div[3]/div[2]/div[{i}]/div[2]/div/div/h3/a')
                href_values = [element.get_attribute("href") for element in video_element]  # 视频链接
                video_url = href_values[0]
                writer.writerow([name[j], video_name, video_url])
                i += 1
            j += 1
#######################################################################################################################################################
    df = pd.read_csv("data/food_part_video_url.csv")
    all_urls = df['视频链接']
    # print(all_urls)
    driver = webdriver.Chrome()
    csv_file = 'data/food_video_label.csv'

    with open(csv_file, 'a', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['序号', '标签'])

        xh = 1
        for url in all_urls:
            driver.get(url)
            # //*[@id="v_tag"]/div
            label_str = (driver.find_elements_by_xpath('//*[@id="v_tag"]/div'))[0].text.split('\n')
            label_len = len(label_str)
            i = 1
            while(i < label_len):
                label = label_str[i]
                writer.writerow([xh, label])
                i += 1
                xh += 1

    pass

这个代码爬取的是美食专区各栏目下视频的标签

这个代码也不能直接运行，需要调试，不会私信我，也可以自己试试看。

爬取的数据集（部分）

单一视频的评论数据爬取

from selenium import webdriver
import csv
from selenium.webdriver.common.action_chains import ActionChains


if __name__ == '__main__':

    url = 'https://www.bilibili.com/video/BV1Dh4y1B7hL/?vd_source=aa7ea87c008d6da6708ad822cc3ba7e0'
    driver = webdriver.Chrome()
    driver.get(url)
    count_comment = driver.find_elements_by_xpath('//*[@id="comment"]/div/div/div/div[1]/div/ul/li[1]/span[2]')
    num = int(count_comment[0].text)

    csv_file = "data/comment.csv"
    with open(csv_file, 'a', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['序号', '评论者', '评论内容'])

        i = 1
        while(i < num):
            comment_data = driver.find_elements_by_xpath(f'//*[@id="comment"]/div/div/div/div[2]/div[2]/div[{i}]/div[2]/div[2]/div[3]/span/span')
            commenter_data = driver.find_elements_by_xpath(f'//*[@id="comment"]/div/div/div/div[2]/div[2]/div[{i}]/div[2]/div[2]/div[2]/div')

            comment = comment_data[0].text
            commenter = commenter_data[0].text
            # print(comment)
            # print(commenter)
            xh = str(i)
            row = [xh, commenter, comment]
            writer.writerow(row)
            print(f'成功爬取第{i}条评论')
            print(commenter)
            i += 1

这个代码是爬取某个视频的相关评论（视频自己选），将url替换一下就可以了

在爬取时需要不断加载评论，不然代码就立刻停止了，卡在未刷新的地方。

爬取的数据集（部分）

单一视频一周内各个参数数据的爬取

from selenium import webdriver
import csv
import datetime
from time import strftime

if __name__ == '__main__':

    url = "https://www.bilibili.com/video/BV1vw411r7yL/?spm_id_from=333.337.search-card.all.click&vd_source=5bfdd9c5aae2db8e974ef5d8db543de8"
    driver = webdriver.Chrome()
    driver.get(url)

    csv_file = "data_analysis/jl_change.csv"
    with open(csv_file, 'a', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['视频标题', '观看量', '弹幕数', '点赞数', '投币数', '收藏数', '转发数', ['时间']])
        all_datas_part0 = driver.find_elements_by_xpath('// *[ @ id = "viewbox_report"] / h1')
        data_title = all_datas_part0[0].text  ###### 视频标题

        all_datas_part2 = driver.find_elements_by_xpath('// *[ @ id = "viewbox_report"] / div / div / span')
        data_watch = all_datas_part2[0].text  ###### 播放量
        if data_watch[-1] in '万':
            num = float(data_watch[0:-1])
            num *= 10000
            data_watch = str(num)

        data_dm = all_datas_part2[1].text  ###### 弹幕数
        if data_dm[-1] in '万':
            num = float(data_dm[0:-1])
            num *= 10000
            data_dm = str(num)

        all_datas_part3 = driver.find_elements_by_xpath('// *[ @ id = "arc_toolbar_report"] / div[1] / div')
        data_video_like_info = all_datas_part3[0].text  ###### 点赞数
        if data_video_like_info[-1] in '万':
            num = float(data_video_like_info[0:-1])
            num *= 10000
            data_video_like_info = str(num)

        data_video_coin_info = all_datas_part3[1].text  ###### 投币数
        if data_video_coin_info[-1] in '万':
            num = float(data_video_coin_info[0:-1])
            num *= 10000
            data_video_coin_info = str(num)

        data_video_fav_info = all_datas_part3[2].text  ###### 收藏数
        if data_video_fav_info[-1] in '万':
            num = float(data_video_fav_info[0:-1])
            num *= 10000
            data_video_fav_info = str(num)

        data_video_share_info = all_datas_part3[3].text  ###### 分享数
        if data_video_share_info[-1] in '万':
            num = float(data_video_share_info[0:-1])
            num *= 10000
            data_video_share_info = str(num)

        data_time = datetime.datetime.now().strftime("%Y-%m-%d")
        # print(data_time)

        row = [data_title, data_watch, data_dm, data_video_like_info, data_video_coin_info,data_video_fav_info, data_video_share_info]
        writer.writerow(row)

这个和第一个差不多，直接爬取了一个指定的视频的所有视频，直接输入url。

但是后面这个要做数据可视化，我们在一周内的每一天都要运行一次这个代码，这样一周之后就会有七组数据。

到此为止，数据的爬取工作就基本完成了。

四、生成可视化图表

爬取完数据后，接下来最后一步就是根据数据生成可视化图表了

制作图表最常用的是pyecharts模块和matplotlib模块。这里我使用的是pyecharts模块，也没有做的很豪华，只是大概的生成图表。

回顾一下我们的目标：

1.bilibili热门榜top100视频相关数据的爬取

需要爬取内容：当前榜单top100视频的标题，up主，观看量，弹幕数，点赞数，投币数，收藏数，转发数。

分析点：比较观看量，弹幕数，点赞数，投币数，收藏数，转发数的差异。

2.bilibili热歌排行榜数据爬取

需要爬取内容：各个种类歌曲排行榜，MV排行榜。

分析点：统计各个种类歌曲的播放量，得出b站用户最爱哪种类型的歌曲。

3.bilibili美食区视频标签的数据爬取

需要爬取内容：视频标题，各个视频的相关标签。

分析点：分析标签词条出现频次，分析当前最热标签词条。

4.单一视频的评论数据爬取

需要爬取内容：选择一个内容新颖的视频，爬取其评论信息

分析点：分析各个评论传达出的情感态度，进行情感态度词条的统计，分析出该视频内容的好坏。

5.单一视频一周内各个参数数据的爬取

需要爬取内容：该视频一周内的观看量, 弹幕数, 点赞数, 投币数, 收藏数, 转发数。

分析点：分析该视频一周内各个数据的变化，推断出该视频的热度以及受欢迎度。

欧克！现在让我们开始制作图表！

1.bilibili热门榜top100视频相关数据（柱状图）

import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.globals import ThemeType
from pyecharts.render import make_snapshot
from snapshot_selenium import snapshot

if __name__ == '__main__':
    df = pd.read_csv("data/top100_details.csv")           # 打开文件，使用参数df接收所有数据
    df_title = df['视频标题']                             # 提取视频标题
    df_watch = df['观看量']                               # 提取观看量
    df_dm = df['弹幕数']                                  # 提取弹幕数
    df_dz = df['点赞数']                                  # 提取点赞数
    df_tb = df['投币数']                                  # 提取投币数
    df_sc = df['收藏数']                                  # 提取收藏数
    df_zf = df['转发数']                                  # 提取转发数

    # 为所有参数各自新建一个空list
    Title = []                                            
    Watch = []
    Dm = []
    Dz = []
    Tb = []
    Sc = []
    Zf = []

    # 将所有数据写入各自的list
    for element in df_title:
        Title.append(element)

    for element in df_watch:
        Watch.append(element)

    for element in df_dm:
        Dm.append(element)

    for element in df_dz:
        Dz.append(element)

    for element in df_tb:
        Tb.append(element)

    for element in df_sc:
        Sc.append(element)

    for element in df_zf:
        Zf.append(element)

    # 自定义bar1为一个Bar类型，并设置 图表主题/宽度/高度
    bar1 = Bar(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE, width="4500px", height="1200px"))

    bar1.add_xaxis(Title)           # x轴参数为各个视频的名称

    # 设置图表标题
    bar1.set_global_opts(
        title_opts=opts.TitleOpts(title="b站热门榜top100数据统计柱状图", pos_left="50%", pos_top="5%"),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=45)))

    # 设置y轴参数
    # bar1.add_yaxis('播放量', Watch)
    bar1.add_yaxis('弹幕数', Dm)
    bar1.add_yaxis('点赞数', Dz)
    bar1.add_yaxis('投币数', Tb)
    bar1.add_yaxis('收藏数', Sc)
    bar1.add_yaxis('转发数', Zf)

    # 生成html文件
    bar1.render('b站热门榜top100数据统计柱状图.html')

    # 制作快照，这个代码会生成png图片，但是要安装其他模块（make_snaposhot模块/snapshot_selenium模块/snapshot模块）(其实截图就行了，可选）
    make_snapshot(snapshot, "b站热门榜top100数据统计柱状图.html", "./picture/b站热门榜top100数据统计柱状图.png")

代码运行需要个7s~8s左右，主要是make_snapshot（）运行时间长。

代码会生成一个html文件和一个png图片

图片参考如下：

接下来直接放代码

bilibili热歌排行榜数据 （漏斗图）

import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Funnel
from pyecharts.render import make_snapshot
from snapshot_selenium import snapshot
from pyecharts.globals import ThemeType

if __name__ == '__main__':

    df = pd.read_csv('data_analysis/music_hank_new.csv', encoding='gbk')
    type_sums = df.sum()
    print(type_sums)
    df_type_sum = list(zip(type_sums.index.to_list(),type_sums.to_list()))
    sort_type_sum = sorted(df_type_sum, key=lambda x:x[1])
    funnel = Funnel(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
    funnel.add("", sort_type_sum,
               gap=0.9,
               label_opts=opts.LabelOpts(formatter="{b} : {d}%"),
               )
    funnel.set_global_opts(
        title_opts=opts.TitleOpts(title="热歌榜各曲风音乐播放排行榜漏斗图", pos_left="center"),
        legend_opts=opts.LegendOpts(pos_left='70%',pos_bottom='40%'),  # 将图例放到右侧
    )

    funnel.render('热歌榜各曲风音乐播放排行榜漏斗图.html')
    make_snapshot(snapshot, "热歌榜各曲风音乐播放排行榜漏斗图.html", "./picture/热歌榜各曲风音乐播放排行榜漏斗图.png")

参考如下：

bilibili美食区视频标签的数据 （云图）

import pyecharts.options as opts
from pyecharts.charts import WordCloud
import pandas as pd
from pyecharts.globals import SymbolType
from pyecharts.globals import ThemeType
from pyecharts.render import make_snapshot
from snapshot_selenium import snapshot


if __name__ == '__main__':

    df = pd.read_csv("data_analysis/food_video_label.csv")
    # print(df)
    df_label = df.groupby('标签').size().sort_values(ascending=False)
    # print(df_label)
    datas = list(zip(df_label.index.to_list(),df_label.to_list()))
    # print(datas)
    cloud = WordCloud(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
    cloud.add('', datas,shape='circle')
    cloud.set_global_opts(
        title_opts=opts.TitleOpts(title="b站美食热点标签统计分析云图", pos_left="37%", pos_top="3%")
    )
    cloud.render("b站美食热点标签统计分析云图.html")
    make_snapshot(snapshot, "b站美食热点标签统计分析云图.html", "./picture/b站美食热点标签统计分析云图.png")

参考如下：

单一视频的评论数据爬取 （饼状图）

import pandas as pd
import numpy as np
from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.globals import ThemeType
from pyecharts.render import make_snapshot
from snapshot_selenium import snapshot

if __name__ == '__main__':

    df = pd.read_csv('./data_analysis/comments_finish.csv', encoding='gbk')

    df_mood = df.groupby('感情').size().sort_values(ascending=False)
    datas = list(zip(df_mood.index.to_list(),df_mood.to_list()))
    # print(datas)
    title = "有关'AI越来越“变态”了，10大AI神器闻所未闻！'的相关评论的情感分析饼状图"
    pie = Pie(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
    pie.add("", datas)
    pie.set_global_opts(
        title_opts=opts.TitleOpts(title=title),
        legend_opts=opts.LegendOpts(pos_right="right")
    )
    pie.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}: {d}%"))
    pie.render('AI_视频情感态度分析统计饼状图.html')

    make_snapshot(snapshot, "AI_视频情感态度分析统计饼状图.html", "./picture/AI_视频情感态度分析统计饼状图.png")

参考如下：

单一视频一周内各个参数数据的爬取 （折线图）

import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Line
from pyecharts.globals import ThemeType
from pyecharts.render import make_snapshot
from snapshot_selenium import snapshot

if __name__ == '__main__':
    df = pd.read_csv("data_analysis/jl_change.csv", encoding='gbk')
    df_watch = df['观看量']
    df_dm = df['弹幕数']
    df_dz = df['点赞数']
    df_tb = df['投币数']
    df_sc = df['收藏数']
    df_zf = df['转发数']
    df_time = df['时间']
    Watch = []
    Dm = []
    Dz = []
    Tb = []
    Sc = []
    Zf = []
    Sj = []
    for element in df_watch:
        Watch.append(element)
    for element in df_dm:
        Dm.append(element)
    for element in df_dz:
        Dz.append(element)
    for element in df_tb:
        Tb.append(element)
    for element in df_sc:
        Sc.append(element)
    for element in df_zf:
        Zf.append(element)
    for element in df_time:
        Sj.append(element)

    line = Line(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
    line.add_xaxis(Sj)
    # line.add_yaxis('播放量', Watch)
    line.add_yaxis('弹幕数', Dm)
    line.add_yaxis('点赞数', Dz)
    line.add_yaxis('投币数', Tb)
    line.add_yaxis('收藏数', Sc)
    line.add_yaxis('转发数', Zf)

    line.set_global_opts(
        title_opts=opts.TitleOpts(title='星穹铁道镜流角色pv剑出无回各指数变化趋势折线图',pos_left="25%", pos_top="6%"),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=45), name="时间"),
        yaxis_opts=opts.AxisOpts(name="参数")
    )

    line.render('星穹铁道镜流角色pv剑出无回各指数变化趋势折线图.html')
    make_snapshot(snapshot, '星穹铁道镜流角色pv剑出无回各指数变化趋势折线图.html', 'picture/星穹铁道镜流角色pv剑出无回各指数变化趋势折线图.png')

参考如下：

到此位置，所有的数据都经过了可视化操作，生成了5张直观的图表，整个大作业到此也就结束了！

如果需要相关文件或者有什么问题@我

你可能感兴趣的:(爬虫,selenium,测试工具,python,echarts,课程设计)

零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
python实现查找满足条件的数字 qq_恰同学少年 python
问题：一个四位数，知道其前两位和后两位分别相等，并且这个数还是一个平方数，求出这个数。一个四位数，范围只能是1000~9999，前两位和后两位分别相等，也就是说，它的结构应该是aabb。最后，这个数是一个平方数。有的小伙伴可能不知道啥叫平方数，暂且解释下，所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9，那么我们就说9是个平方数。第一步，这是个四位数，前两位和后两位分别相等，我们将满足条
python中常用的内置模块举例（入门级整理） qq_恰同学少年 python
python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营程之编 python 开发语言青少年编程人工智能
主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
基于Java+Springboot+Vue开发的口腔牙科诊所预约系统源码+课程设计+代码说明西门吹雪1998 java毕业设计 java课程设计 java spring boot vue.js
项目简介该项目是基于Java+Springboot+Vue开发的口腔牙科诊所预约管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Java编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Java的口腔预约管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路在线演示演示地址：https://teeth.
【Python代码练习（简单应用）】 9... python 汇编前端开发语言 dreamweaver
一、Python列表添加与删除元素：append()。在列表末尾添加新的格式元素添加格式：list.append(元素)删除格式：list.remove(元素)例如：#给出代码listA=['水煮千丝','平板豆腐','白烧饭','香菇青菜','西红柿鸡蛋汤']listA._________("红烧肉")listA._________("水煮千丝")print(listA)将“红烧肉”放入列表中，
统信uos20：利用docker部署python+jupyterlab开发环境阆遤 docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
第五周作业——第十章动手试一试 hongsqi
10-1Python学习笔记学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行
统信UOS下达梦数据库启动图形界面应用工具monitor报JAVA相关错：An error has occurred. See the log file LaoYuanPython 老猿Python 国产信创之光 java 达梦数据库统信UOS操作系统 JDK 图形应用报错
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython一、前言在博文《基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库详解https://blog.csdn.net/LaoYuanPython/article/details/143258863》中介绍了基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库的详细过程，并且安装完毕之后通过
整理一下arcGis desktop版本软件，从入门到精通需要学习的知识点 AnalogElectronic arcgis 学习
整理一下arcGisdesktop版本软件，从入门到精通需要学习的知识点以下是一份关于ArcGISDesktop从入门到精通的学习知识点整理：一、软件初认识与基础操作软件初认识：了解ArcGISDesktop的界面布局，包括内容列表、ArcToolbox工具箱、结果窗口、地图窗口、目录窗口、搜索窗口、python编程窗口以及其他常用工具条等。数据添加与管理：掌握通过不同方式添加数据，如图层列表右键
动态规划双剑合璧：C++与Python征服洛谷三大经典DP问题三流搬砖艺术家动态规划 c++python
动态规划核心思想状态定义→转移方程→边界处理→时空优化本文精选洛谷动态规划题单中三大经典问题，通过C++与Python双语言对比实现，彻底掌握DP精髓！题目一：P1048采药（01背包模板）题目描述在限定时间T内采集草药，每株草药有采集时间time[i]和价值value[i]，求最大总价值。解题思路状态定义：dp[j]表示时间j能获得的最大价值转移方程：dp[j]=max(dp[j],dp[j-t
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
20个简单的python代码练习 qq_恰同学少年 python 开发语言
下面整理了20个简单的python代码练习，供大家学习交流使用，轻易上手，复制下来就能用！！！废话不多说，直奔主题1.输入一个不超过5位的正整数，输出其逆数。例如输入12345，输出应为54321。a=input('请输入一个不超过5位的正整数：')print('其逆数为：',a[::-1])注：该代码使用了列表的切片和反转操作，首先将这个数的每个位上的数字存储到一个列表中，然后通过列表的反转来得
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

b站爬虫大作业（大二）--（利用selenium模块爬取数据、利用pyecharts模块制作可视化图表）（bilibili数据可视化）

目录

一、爬取前期准备工作

二、爬取目标

三、爬取过程（重点）

四、生成可视化图表

一、爬取前期准备工作

二、爬取目标

三、爬取过程

四、生成可视化图表

如果需要相关文件或者有什么问题@我

你可能感兴趣的:(爬虫,selenium,测试工具,python,echarts,课程设计)