RM -RF /星

【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表

数据挖掘部分的基本目标是：对于指定的UP主，能够获取其投稿视频列表；对于指定的视频，能够获取其视频标签、评论（包括评论下的回复）、弹幕。

文章默认读者对网络爬虫有一定的基础知识；

文章写作时（2020-06），B站正处于AV号像BV号过度的时期，部分API可能会在今后发生重大变化，请今后的读者注意。

获取指定UP主的投稿视频列表

首先，我们知道每一个B站帐号都有一个对应的数字UID，然后，通过在浏览器中访问用户的个人主页并查看后台请求，可以发现，用户的投稿视频列表信息是从api.bilibili.com/x/space/arc/search获取的，响应为JSON格式，具体的查询参数附加在URL后的查询字符串中，基本的查询参数如下：

参数	含义
mid	用户的UID
ps	返回的结果中需要包含多少个视频的信息
tid	视频的分类
pn	需要获取第几页投稿视频
keyword	搜索关键字
order	返回结果的排序方式

其中，tid视频的分类指的是我们再B站主页上看到的分类信息：

API的响应会告诉我们不同的分类用哪个数字代表，也会告诉我们这个UP主在不同的分类下各有几个投稿视频：

需要注意的是，如果一个UP主在某一个分类下没有投稿视频，那么API的响应不会包含这个分类的信息；

order是搜索结果的排序方式，有三种排序方式：按更新时间、按播放数量、按点赞数量，这三种排序方式分别对应order=pubdate、order=click、order=stow；

pn代表你想要第几页的投稿视频，ps代表一页要放下几个投稿视频，想象一下你在浏览网页，这两个参数的作用就不难理解了；

API返回的响应为JSON格式，结构如下：

其中，tlist包含了视频分类的信息，与API的tid参数有关，如上上张图所示；vlist则包含了我们需要的投稿视频信息，vlist的长度由ps参数决定，vlist中每一个对象的结构如下：

其中，我能确定意义的属性是：

属性	意义
comment	评论数量
paly	播放数量
pic	封面图片地址
subtitle	小标题
description	视频下方简介
title	视频标题
author	UP主昵称
mid	UP主UID
created	视频上传日期的UNIX时间戳
length	视频时长
aid	av号
bvid	bv号

到这里，API：api.bilibili.com/x/space/arc/search的用法就介绍完成了，最后还需要注意两件事情：首先，为了防止爬虫被403，我们需要复制浏览器的请求header，并添加到爬虫中。其次，响应数据使用gzip压缩的，使用前需要解压缩，Python内置有gzip模块。

从视频播放页面中提取视频标签和其他信息

截至本文写作时，可以通过bilibili.com/video/BVxxxxxxx或者bilibili.com/video/AVxxxxxxx获取视频的播放页面，如果我们直接使用urlopen获取播放页面（这时候的页面是没有经过JS动态加载），得到的播放页面的结构如下：

meta标签中，有两个值得我们注意一下，第一个是拥有属性property="og:url"的meta标签，这个标签的content的属性包含了这个视频使用AV号表示的播放页面（如果在只有BV号的情况下，想获取AV号，可以使用这个方法），第二个值得注意的meta标签拥有属性itemprop="commentCount"，而这个标签的content属性记录了视频的评论数（如果需要最新的评论总数，可以使用这个方法）。

接下来，我们需要注意head中的最后两个script（第三个和第四个），第三个script中的内容如下：

可以看到，这个script标签中包含了大段的JSON数据，JSON数据中有很多URL，而这些URL中都包含了同一个ID：18xxxxx45，不难发现这个ID应该是指向视频的实际文件，但同时，这个ID也指向了视频的弹幕文件，所以在这里我们需要想办法提取出这个ID备用。

head中的第四个script标签中同样也是包含了大段JSON数据的JS代码，其中有一部分数据如下所示：

可以看到，这就是当前视频对应的标签，在我的课程设计中，我需要通过视频的标签对视频进行过滤，所以这里需要从页面中提取出标签信息。

我使用BeautifulSoup解析页面，并从meta标签和script标签中分离出我需要的信息，需要注意的是，在请求播放页面时仍需要完整的请求header以防止403，响应数据仍就经过gzip压缩，在进行分析前需要进行解压缩。

需要注意的是，这个页面结构只针对一般的视频，如果是电影、番剧、纪录片，页面结构会不一样，请注意。

获取某一视频的弹幕

获取B站弹幕的API是api.bilibili.com/x/v1/dm/list.so，用这个API获取弹幕只需要在查询字符串中添加一个参数oid，而oid就是上面一节那个需要在播放页面的script标签中提取的id。

与其他API不同，获取弹幕的API的响应使用了deflate算法进行压缩而不是gzip压缩，具体到如何使用Python解压缩deflate，->https://www.baidu.com。

解压缩后，我们发现弹幕数据是XML格式的，如下所示：

可以看到，弹幕内容记录在了d标签中，而弹幕的属性记录在了d标签的p属性中，弹幕的属性是几个用逗号分隔的数字组成的字符串，我只能认出这当中第一个数字是弹幕出现在视频中的时间，第五个数字是弹幕被发送的时刻的UNIX时间戳，其余属性的含义我就无能为力了。

使用Python解析XML有很多种方法，我才用了xml.etree中的ElementTree类进行XML解析。

在浏览器请求弹幕的请求头中，有一个字段为Refer，内容为https://www.bilibili.com./video/BVxxxxxxx，所以在请求弹幕数据时，需要一并知道这个视频的BV号。

如果你的浏览器的请求头中还包含了Last-Modified这个字段，在复制请求头时请忽略这个字段（知道Last-Modified是干什么用的就能理解为什么要去掉它了）。

获取某一视频下的评论与评论下的回复

获取视频评论的API是https://api.bilibili.com/x/v2/reply，使用的查询参数如下：

参数	含义
type	我不知道有什么用，设置成1就行了
pn	获取第几页评论
oid	对应视频的AV号
sort	按热度排序的话，设置成0，按时间排序的话，设置成2

返回数据为JSON格式，如下所示：

其中，replies包含了我们需要的数据，每一个reply的格式如下：

其中，rpid表示这个评论的id，ctime代表评论时间的UNIX时间戳，comment下的message则是评论的具体内容，replies则代表了这个评论下的回复（不是所有，只有默认显示出来的几条）。

返回的数据也是JSON格式，结构与评论数据的结构一样，只是replies下不再会有replies；

注意事项：

返回的数据都是gzip压缩的，需要解压缩后使用；
如果某一视频被关闭评论，则API返回未经压缩的提示信息，需要为此做好异常处理；
浏览器的请求头中包含Refer: https://bilibili.com/video/BVxxxxxxx，严谨起见，在请求评论时一并提供视频的BV号；

相关代码

./liteTool.py

包装一下urlopen函数，如果发生错误会进行再次尝试，最多尝试3次，请求成功后会等待0.3s，防止请求过于频繁。

from urllib.request import urlopen, Request
from http.client import HTTPResponse

import time

firefox_cookie = '请从自己的浏览器获取’


def my_urlopen(url: Request) -> HTTPResponse:
    err = Exception()
    for _ in range(3):
        try:
            resp = urlopen(url=url)  # type: HTTPResponse
        except Exception as e:
            err = e
            print(e)
        else:
            time.sleep(0.3)
            return resp
    with open(file='./errors.data', mode='a', encoding='utf-8') as f:
        f.write(url.get_full_url() + '\n')
        f.write(str(err) + '\n')
        f.write('\n')
    raise Exception('HTTP请求失败！')

./GetBilibiliUploaderInfo.py

包含一个函数get_video_list_from_uploader_id(uid: str, start_time: datetime.datetime, end_time: datetime.datetime) -> list，根据用户的UID获取一定时间段内所有的投稿视频信息。

from urllib.request import Request
from http.client import HTTPResponse

from .liteTool import firefox_cookie, my_urlopen

import json
import gzip
import datetime


def get_video_list_from_uploader_id(uid: str, start_time: datetime.datetime, end_time: datetime.datetime) -> list:

    def __get_video_list_in_json(url: str, header: dict, method: str) -> list:
        print('获取视频投稿列表：' + url)
        try:
            request = Request(url=url, headers=header, method=method)
            response = my_urlopen(url=request)  # type: HTTPResponse
            video_list_str = gzip.decompress(response.read()).decode(encoding='utf-8')
            video_list_json = json.loads(video_list_str)
            return video_list_json['data']['list']['vlist']
        except Exception as e:
            print(e)
            return []

    if start_time > end_time:
        start_time, end_time = end_time, start_time

    page_capacity = 30
    page_index = 1
    finish = False
    results = []

    while not finish:
        """
        mid:     用户的数字ID
        ps:      一页放几个视频
        tid:     视频分类信息
        pn:      要获取第几页视频
        keyword: 搜索关键字
        order:   按什么排序
        """
        video_url = 'https://api.bilibili.com/x/space/arc/search?' + \
                    f'mid={uid}&ps={page_capacity}&tid=0&pn={page_index}&keyword=&order=pubdate&jsonp=jsonp'
        video_header = {
            'Host': '请从自己的浏览器获取',
            'User-Agent': '请从自己的浏览器获取',
            'Accept': '请从自己的浏览器获取',
            'Accept-Language': '请从自己的浏览器获取',
            'Accept-Encoding': '请从自己的浏览器获取',
            'Origin': '请从自己的浏览器获取',
            'Connection': '请从自己的浏览器获取',
            'Referer': f'https://space.bilibili.com/{uid}/video?tid=0&page={page_index}&keyword=&order=pubdate',
            'Cookie': firefox_cookie,
            'TE': '请从自己的浏览器获取',
        }

        videos = __get_video_list_in_json(url=video_url, header=video_header, method='GET')

        if videos is None or len(videos) == 0:
            break

        for v in videos:  # type: dict
            time_stamp = int(v.get('created'))
            upload_time = datetime.datetime.fromtimestamp(time_stamp)

            if start_time <= upload_time <= end_time:
                results.append(v)

            if upload_time < start_time:
                finish = True
                break
        page_index += 1

    return results


if __name__ == '__main__':
    pass

./GetBilibiliVideoInfo.py

包含如下函数：

函数定义	用途
get_av_vid_comment_number_and_tags_from_bv(bv: str) -> (str, str, int, list)	根据视频的BV号，获取并解析播放页面，得到AV号、指向视频文件和弹幕文件的ID、评论数、标签
get_comments_and_replies_from_av_and_bv(av: str, bv: str, comment_total: int = -1, by_time: bool = False) -> list	根据AV号和BV号获取视频的所有评论，可选参数包括评论总数和排序方式
get_dm_from_vid_and_bv(vid: str, bv: str) -> list	根据指向弹幕文件的ID和BV号，获得弹幕列表

from bs4 import BeautifulSoup
from urllib.request import Request
from http.client import HTTPResponse
from xml.etree import ElementTree

from .liteTool import firefox_cookie, my_urlopen

import gzip
import zlib
import json


def get_av_vid_comment_number_and_tags_from_bv(bv: str) -> (str, str, int, list):
    """
    抓取一般视频的数据，电影和番剧我还没研究过。
    :param bv: B站视频的BV号
    :return: 第一个是str形式的AV号（没有AV前缀），第二个是获取弹幕要用的一个id（姑且叫它vid），
             第三个是视频评论数（包括回复），第四个是视频标签列表
    """
    url = f'https://www.bilibili.com/video/{bv}'
    headers = {
        'Host': '请从自己的浏览器获取',
        'User-Agent': '请从自己的浏览器获取',
        'Accept': '请从自己的浏览器获取',
        'Accept-Language': '请从自己的浏览器获取',
        'Accept-Encoding': '请从自己的浏览器获取',
        'Connection': '请从自己的浏览器获取',
        'Cookie': firefox_cookie,
        'Upgrade-Insecure-Requests': '请从自己的浏览器获取',
        'Cache-Control': '请从自己的浏览器获取',
        'TE': '请从自己的浏览器获取',
    }

    try:
        print(f'获取视频页面：{url}')
        request = Request(url=url, headers=headers, method='GET')
        response = my_urlopen(url=request)  # type: HTTPResponse
        response_data = gzip.decompress(response.read()).decode(encoding='utf-8')

        bs = BeautifulSoup(markup=response_data, features='html.parser')

        head = bs.find(name='head')
        scripts = head.find_all(name='script')
        script_vid = scripts[2]
        script_tag = scripts[3]

        video_info_raw = script_vid.string  # type: str
        video_info_raw = video_info_raw[video_info_raw.find('{'):]
        video_info_json = json.loads(video_info_raw)
        base_url = video_info_json.get('data').get('dash').get('video')[0].get('baseUrl')  # type: str
        vid = base_url.split('/')[6]

        tag_raw = script_tag.string  # type: str
        tag_raw = tag_raw[tag_raw.find('{'):tag_raw.find(';(function')]
        tag_json = json.loads(tag_raw)

        comment_meta = bs.find(name='meta', attrs={'itemprop': 'commentCount'})
        av_meta = bs.find(name='meta', attrs={'property': 'og:url'})

        comment_count = int(comment_meta.attrs['content'])
        av_number = av_meta.attrs['content'].split('av')[-1][:-1]

        return av_number, vid, comment_count, tag_json.get('tags')
    except Exception as e:
        print(e)
        return '', '', -1, ''


def get_comments_and_replies_from_av_and_bv(av: str, bv: str, comment_total: int = -1, by_time: bool = False) -> list:
    """
    获取评论和评论下面的回复
    :param av: AV号，没有AV前缀
    :param bv: BV号，需要有BV前缀
    :param comment_total: 需要获取的评论数
    :param by_time: 是否按时间顺序排列
    :return: 评论列表，评论的回复在每一条评论的replies属性中
    """
    results = []
    page_index = 1
    comment_count = 0

    def __get_json_data(url: str, header: dict, method: str) -> list:
        """
        获取评论和获取回复的过程雷同，写一个函数代替一下
        :param url: URL
        :param header: 请求头部
        :param method: 请求方法
        :return: 处理成JSON格式返回
        """
        print('获取评论数据：' + url)
        try:
            request = Request(url=url, headers=header, method=method)
            response = my_urlopen(url=request)  # type: HTTPResponse
            data_str = gzip.decompress(response.read()).decode(encoding='utf-8')
            data_json = json.loads(data_str)
            data_json = data_json.get('data').get('replies')
        except Exception as e:
            print(e)
            return []
        return data_json

    while True:
        comment_url = f'https://api.bilibili.com/x/v2/reply?type=1&pn={page_index}&oid={av}&sort={0 if by_time else 2}'
        comment_header = {
            'Host': '请从自己的浏览器获取',
            'User-Agent': '请从自己的浏览器获取',
            'Accept': '请从自己的浏览器获取',
            'Accept-Language': '请从自己的浏览器获取',
            'Accept-Encoding': '请从自己的浏览器获取',
            'Connection': '请从自己的浏览器获取',
            'Referer': f'https://www.bilibili.com/video/{bv}',
            'Cookie': firefox_cookie,
            'TE': '请从自己的浏览器获取',
        }
        comment_json = __get_json_data(url=comment_url, header=comment_header, method='GET')

        if comment_json is None or len(comment_json) == 0:
            break

        comment_count += len(comment_json)

        if 0 < comment_total <= comment_count:
            break

        for comment in comment_json:
            if comment.get('replies'):
                comment['replies'] = []

                reply_id = comment.get('rpid')
                reply_num = 10
                reply_page = 1

                while True:
                    reply_url = f'https://api.bilibili.com/x/v2/reply/reply?type=1&pn={reply_page}&oid={av}&ps=' + \
                                f'{reply_num}&root={reply_id}'
                    reply_json = __get_json_data(url=reply_url, header=comment_header, method='GET')

                    if reply_json is None or len(reply_json) == 0:
                        break

                    comment_count += len(reply_json)
                    comment['replies'] += reply_json

                    if 0 < comment_total <= comment_count or len(reply_json) < reply_num:
                        break

                    reply_page += 1

        if 0 < comment_total <= comment_count:
            break
        results += comment_json
        page_index += 1

    return results


def get_dm_from_vid_and_bv(vid: str, bv: str) -> list:
    """
    获取视频评论
    :param vid: 跟弹幕文件和视频文件有关的一个东西，我姑且叫它vid
    :param bv: BV号，要有BV前缀
    :return: 弹幕列表，每一个弹幕是一个二元组，弹幕内容和弹幕属性
    """
    def __deflate(s: bytes) -> str:
        """
        弹幕文件是用deflate加密的
        :param s: 加密前的bytes
        :return: 解密后的Unicode字符串
        """
        try:
            return zlib.decompress(s, -zlib.MAX_WBITS).decode(encoding='utf-8')
        except zlib.error as ze:
            print(ze)
            return zlib.decompress(s).decode(encoding='utf-8')

    url = f'https://api.bilibili.com/x/v1/dm/list.so?oid={vid}'
    header = {
        'Host': '请从自己的浏览器获取',
        'User-Agent': '请从自己的浏览器获取',
        'Accept': '请从自己的浏览器获取',
        'Accept-Language': '请从自己的浏览器获取',
        'Accept-Encoding': '请从自己的浏览器获取',
        'Origin': '请从自己的浏览器获取',
        'Connection': '请从自己的浏览器获取',
        'Referer': f'https://www.bilibili.com/video/{bv}',
        'Cookie': firefox_cookie,
        'TE': '请从自己的浏览器获取',
    }
    try:
        print('获取弹幕文件：' + url)
        request = Request(url=url, headers=header, method='GET')
        response = my_urlopen(url=request)  # type: HTTPResponse
        xml_str = __deflate(response.read())
    except Exception as e:
        print(e)
        return []

    tree = ElementTree.fromstring(xml_str)
    res = []

    for child in tree:  # type: ElementTree.Element
        if child.tag == 'd':
            res.append((child.text, child.attrib['p']))

    return res


if __name__ == '__main__':
    """
    使用示例
    """
    BV = 'BV1CT4y1g7Ya'  # 狂战士预告
    AV, VID, comment_num, tags = get_av_vid_comment_number_and_tags_from_bv(bv=BV)
    comments_and_replies = get_comments_and_replies_from_av_and_bv(av=AV, bv=BV, comment_total=comment_num)
    dm_list = get_dm_from_vid_and_bv(vid=VID, bv=BV)

    with open(file='D:/MyResources/爬虫数据/哔哩哔哩干杯/狂战士评论.json', mode='w', encoding='utf-8') as f:
        j = json.dumps(comments_and_replies, ensure_ascii=False)
        f.write(j)

    with open(file='D:/MyReSources/爬虫数据/哔哩哔哩干杯/狂战士弹幕.txt', mode='w', encoding='utf-8') as f:
        for i in dm_list:
            f.write(i[0] + ' - ' + i[1] + '\n')

    for i in dm_list:
        print(i[0])
    print()

    for i in comments_and_replies:
        print(i['content']['message'])
        if i.get('replies'):
            for j in i['replies']:
                print('    ' + j['content']['message'])
        print()

国产海光CPU平台兼容性指南-基础软件分册-20231013（附各系统下载链接）技术瘾君子1573 服务器&存储服务器兼容列表海光 CPU 云计算大数据操作系统
目录声明一、操作系统二、虚拟化和云2.1虚拟化和云2.2虚拟机上的操作系统2.2.1VMwarevSphere上的虚拟机操作系统2.2.2KVM上的虚拟机操作系统2.2.3WindowsHyper-V上的虚拟机操作系统2.2.4VirtualBox上的虚拟机操作系统三、分布式存储四、数据库五、中间件六、大数据七、平台组件7.1云平台7.2大数据平台7.3人工智能平台7.4科学与工程计算平台八、其它
企业如何打造高效智能问答系统？一文详解架构与实现！功城师大语言模型自然语言处理 LLM 人工智能智能问答 RAG Agent
随着人工智能技术的不断发展，智能问答系统成为越来越多企业提升客户服务、知识管理与内部沟通的关键工具。今天我们将深入解析一套智能问答系统的设计思路与技术架构，帮助大家更好地理解如何利用这一系统在实际场景中高效运作。一、智能问答系统的整体架构这套智能问答系统分为前台、AI服务和后台三个核心部分，每个部分承担着不同的职责，分别负责用户交互、问题处理与数据支持。通过这种模块化的设计，整个系统的工作流程得以
一文搞定postgreSQL m0_74823595 postgresql 数据库
一文搞定postgreSQLPostgreSQL全面指南一、什么是PostgreSQL？二、PostgreSQL的核心概念三、安装PostgreSQL1.在Linux上安装（例如Ubuntu）2.在macOS上安装（使用Homebrew）3.在Windows上安装四、基本操作1.启动和停止PostgreSQL服务2.连接到PostgreSQL3.创建数据库和用户4.基本SQL操作五、高级功能1.事
【shell脚本练习——判断文件是否存在、批量创建有规律用户并设置密码、判断文件大小并更改路径位置】怎么昵称都被占用啊练习 RHCE linux 运维
shell脚本练习练习要求：练习一：判断文件是否存在练习二：批量创建有规律用户并设置密码随机字符部分内容解释：练习三：判断文件大小并更改路径位置练习要求：shell脚本写出检测/tmp/size.log文件如果存在显示它的内容，不存在则创建一个文件将创建时间写入写一个shell脚本,实现批量添加20个用户,用户名为user01-20,密码为user后面跟5个随机字符编写个shell脚本将/usr/
python中的两种循环怎么昵称都被占用啊 python 练习 python
python中的两种循环for循环（计数循环）while循环（条件循环）两种循环的区别range函数跳出循环break示例continue示例循环嵌套循环练习循环，三大语言结构之一，当它满足条件时反复执行某一段代码的过程，在python中有两种循环命令，分别为for循环和while循环for循环（计数循环）python中常用的循环结构之一，可以遍历一个可迭代对象中的元素。因为for循环的循环次数是
【音视频之SDL2】一篇搞懂纹理与渲染人才程序员音视频基础大合集音视频 c c++SDL2 计算机视觉视频编解码实时音视频
文章目录前言SDL2的纹理与渲染什么是纹理？什么是渲染？比较SDL_SurfaceSDL_Texture纹理与渲染的关系使用纹理与渲染绘制一个BMP图片使用纹理与渲染的流程SDL_CreateRenderer作用函数原型参数返回值SDL_CreateTextureFromSurface作用函数原型参数返回值SDL_UpdateTexture作用函数原型参数返回值何时调用它SDL_RenderCop
【音视频SDL2入门】创建第一个窗口人才程序员音视频基础大合集音视频 c++c语言 windows 用户界面 sdl2 视频编解码
文章目录前言创建窗口的流程需要使用的函数1.初始化SDL库2.创建SDL窗口3.获取与窗口关联的表面SDL_FillRect函数介绍4.更新窗口表面5.延迟一定时间6.销毁窗口并退出SDL库示例代码总结前言SDL2（SimpleDirectMediaLayer）是一个跨平台的开发库，旨在为多媒体应用程序（如游戏和视频播放软件）提供低级别的访问接口。SDL2提供了创建窗口、处理输入、播放音频等多种功
WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connec 3TV 一起从0开始深度学习 pip
windows上安装了miniconda创建了自己的环境，进一步用pipinstall安装软件的时候报错WARNING:Retrying(Retry(total=4,connect=None,read=None,redirect=None,status=None))afterconnectionbrokenby'SSLError(SSLZeroReturnError(6,'TLS/SSLconne
通过ShiftMediaProject生成ffmpeg的DLL和Lib的简要说明 jyl_sh webkit学习 C/C++图形化编程 c++ffmpeg 视频接口 chrome webkit
这是将FFmpeg构建为msvcDLL和lib文件的一个小步骤说明文档。项目包含静态库文件的发布和调试版本（调试/发布）以及动态共享dll文件（DebugDLL/ReleaseDLL）。选择符合您要求的项目配置。注意：FFmpeg需要C99支持才能编译。只有VisualStudio2013或更新的版本才需要C99的功能不支持旧版本。需要VisualStudio2013或更新版本。如果使用旧的不受支
《python基于时间序列分析的降雨量预测系统》毕业设计项目陈辰学长 python 课程设计开发语言
大家好，我是陈辰学长，一名在Java圈辛勤劳作的码农。今日要和大家分享的是一款《python基于时间序列分析的降雨量预测系统》毕业设计项目。项目源码以及部署相关事宜，请联系陈辰学长，文末会附上联系信息哦。作者：陈辰学长个人简介：在Java领域已沉浸十余年，对Java、微信小程序、Python、Android等技术颇为精通。若大家在这些领域有任何问题，欢迎一起交流探讨！各类成品Java毕业设计丰富多
K-means聚类：解锁数据隐藏结构的钥匙陈辰学长 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
Docker Image 详细讲解陈辰学长 docker 容器运维
DockerImage详细讲解DockerImage是Docker生态系统中的核心概念之一，它作为容器运行的基础，封装了应用运行所需的环境和依赖。本文将详细讲解DockerImage的定义、构建、存储、管理以及使用，帮助读者全面理解DockerImage。一、DockerImage概述DockerImage是一个轻量级、可执行的独立软件包，包含了运行某个软件所需要的所有内容，包括代码、运行时、库、
dlib库的whl文件下载杭林菲
dlib库的whl文件下载【下载地址】dlib库的whl文件下载dlib库的whl文件下载项目地址:https://gitcode.com/open-source-toolkit/f2aaf资源文件介绍本仓库提供了一个dlib库的whl文件下载，文件名为：dlib-19.7.0-cp36-cp36m-win_amd64.rar。该文件适用于Windows64位系统，Python版本为3.6。文件描
linux 搭建https 服务器（apache） gpstrive linux应用 apache https linux
一、安装准备1.安装Openssl要使Apache支持SSL，需要首先安装Openssl支持。这里使用的是openssl-0.9.8k.tar.gz下载Openssl：http://www.openssl.org/source/tar-zxfopenssl-0.9.8k.tar.gz//解压安装包cdopenssl-0.9.8k//进入已经解压的安装包./config//配置安装。推荐使用默认配置
ACNet：深度学习中的自适应卷积网络新星郎轶诺
ACNet：深度学习中的自适应卷积网络新星项目地址:https://gitcode.com/gh_mirrors/ac/ACNet在深度学习领域，卷积神经网络（CNN）一直是图像处理和计算机视觉任务的核心技术。然而，传统的固定大小的卷积核无法灵活适应不同区域的信息密度。针对这一问题，ACNet（AdaptiveConvolutionNetwork）项目应运而生，它引入了一种新型的自适应卷积层，旨在
Linux/Mac 命令行工具 tree 开发项目结构可以不用截图了更方便更清晰更全知楠行易 Software linux macos 运维
tree是一个命令行工具，用于以树形结构显示文件系统目录的内容。它可用于列出指定目录下的所有文件和子目录，以及它们的层次关系。tree命令在许多操作系统中都可用，包括Unix、Linux和macOS。效果如下：一、安装linux#Debian/Ubuntusudoapt-getinstalltree#RedHat/CentOSsudoyuminstalltreeMacbrewinstalltree
《一个月教你玩转C++》系列第十章：C++中的while循环 c++布丁 C++c++开发语言
第十章：C++中的while循环这一章，布丁将会介绍C++中的while循环，以及两个实用的运算符：++和--。这些工具能帮助我们更有效地控制程序的流程。while循环基本格式while循环是C++中实现重复执行的一种方式。它根据一个条件来决定是否继续执行循环体内的代码。这个条件可以是任何可以评估为真或假（真就是大于0的数，假就是0）的表达式哟！while循环的基本格式是这样的：while(条件)
chatgpt赋能python：用Python安装Jupyter：让数据科学变得更加高效！ aijinglingchat ChatGpt python chatgpt jupyter 计算机
用Python安装Jupyter：让数据科学变得更加高效！对于数据科学家而言，jupyter是不可或缺的工具之一。它是一个基于web的交互式计算环境，可以帮助我们在Python中以一种轻松、方便、可交互的方式进行编程和数据分析。今天，我们将向您介绍在Python中如何安装jupyter。安装Python要安装jupyter，首先需要安装Python。如果您已经安装了Python，请跳到下一步。您可
工作中常用springboot启动后执行的方法 begei spring boot java 后端
前言：工作中难免会遇到一些，程序启动之后需要提前执行的需求。例如：初始化缓存：在启动时加载必要的缓存数据。定时任务创建或启动：程序启动后创建或启动定时任务。程序启动完成通知：程序启动完成后通过邮件、短信等方式通知运维人员。外部系统同步：启动后与外部系统同步数据。下面介绍几种常见方式：1.使用@PostConstruct注解：使用@PostConstruct注解可以在Spring容器初始化bean之
关于wandb: Network error的问题 Young_Tramp 一些小问题 linux
关于wandb:Networkerror的问题我的情况：vscode远程服务器，服务器才重启过，wandb之前一直正常，重启后就出现错误：wandb:Networkerror(ConnectionError),enteringretryloop.wandb:W&BAPIkeyisconfigured.Usewandblogin--relogintoforcereloginwandb:Network
与机器学习的邂逅--自适应神经网络结构的深度解析想成为高手499 机器学习与人工智能机器学习神经网络人工智能
引言随着人工智能的发展，神经网络已成为许多应用领域的重要工具。自适应神经网络（AdaptiveNeuralNetworks，ANN）因其出色的学习能力和灵活性，逐渐成为研究的热点。本文将详细探讨自适应神经网络的基本概念、工作原理、关键技术、C++实现示例及其应用案例，最后展望未来的发展趋势。自适应神经网络的基本概念什么是自适应神经网络？自适应神经网络是一种能够根据输入数据的变化和环境的动态特性自动
Kylin入门教程 -龙川- 介绍学习笔记 kylin
引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
MySQL知识大总结（进阶）神秘的t mysql 数据库
一，数据库的约束1，约束类型1notnull非空约束，标记这个字段不可以为空2unique唯一约束，标记这个字段的值是该列唯一的值，在这一列的其他行，不可以与该字段相等3default默认约束，在该字段没有赋值时，使用默认值填充该列4primarykey主键约束，相当于notnull+unique5foreignkey外键约束，与其他表的主键简历联系，在添加或修改数据是，会根据主外键关系检查数据是
国产编辑器EverEdit - 合并行彩虹小黑馬妙用编辑器编辑器 EverEdit EmEditor notepad++
1合并行1.1应用场景在编写代码或其他场景下，有时需要把多行的内容缩减成一行，或者纯粹减少行数进行合并，比如：下面的字典的定义，每个元素占了一行，有点浪费，现在需要把它们缩减行数。typeDict={"姓名":"name","出生日期":"passport_dob","职位":"job","手机号":"phone_number","身份证":"ssn","国家":"country","地址":
[dlib][python]dlib所有whl文件下载地址汇总 Xiao张不会深度学习 python 开发语言深度学习
dlib库的wheel文件3.7-3.12GitHub-z-mahmud22/Dlib_Windows_Python3.x:Dlibcompiledbinary(.whl)forPython3.7-3.12andWindowsx64这里存储了适用于python3.7-3.12的wheel文件下载wheel文件之后，比如：dlib-19.22.99-cp310-cp310-win_amd64.whl
Spring Boot中的响应与分层解耦架构陈辰学长 spring boot 架构后端
SpringBoot中的响应与分层解耦架构在SpringBoot框架中，响应与分层解耦架构是两个核心概念，它们共同促进了应用程序的高效性、可维护性和可扩展性。下面将详细探讨这两个方面，包括SpringBoot的响应机制、分层解耦的三层架构以及它们在实际开发中的应用。一、SpringBoot的响应机制SpringBoot的响应机制主要依赖于其内置的Servlet容器（如Tomcat）和SpringM
ASP.NET Core N-Tier 架构 Web API 项目教程蓬为宜
ASP.NETCoreN-Tier架构WebAPI项目教程aspnetcore.ntier.NETCoreN-TierarchitectureWebApisampleproject.项目地址:https://gitcode.com/gh_mirrors/as/aspnetcore.ntier项目介绍ASP.NETCoreN-Tier架构WebAPI项目是一个示例项目，展示了如何使用ASP.NETC
MCP（Model Context Protocol）模型上下文协议进阶篇4 - 发展计划 AIQL MCP(Model Context Protocol)MCP ai language model 开源协议人工智能
ModelContextProtocol（MCP）正在快速发展。这一章概述了2025年上半年关键优先事项和未来方向的当前思考，尽管这些内容可能会随着项目的进展而发生显著变化。目前MCP的主要内容，除实战篇外（包括理论篇、番外篇和进阶篇）均已进入收尾阶段。在官方未发布重大更新前，预计短期不会新增其他篇章。远程MCP支持（RemoteMCPSupport）我们的首要任务是启用远程MCP连接，允许客户端
自适应神经网络架构：原理解析与代码示例 chian-ocean 机器学习神经网络人工智能深度学习
个人主页：chian-ocean文章专栏自适应神经网络结构：深入探讨与代码实现1.引言随着深度学习的不断发展，传统神经网络模型在处理复杂任务时的局限性逐渐显现。固定的网络结构和参数对于动态变化的环境和多样化的数据往往难以适应，导致了过拟合或欠拟合的问题。自适应神经网络（AdaptiveNeuralNetworks,ANN）为此提供了一种新的解决方案，它可以根据数据特征和训练情况自动调整网络结构，从
Python剪辑视频小妙招（moivepy库）对不起，我辜负了你 python
起因最近一直在b站上投稿喜羊羊与灰太狼的视频，但是苦于需要手动裁剪视频的片头和片尾，裁剪的多了就发现喜羊羊与灰太狼的视频片头几乎都是1分25秒结束，也就是持续85秒，片尾也差不多是持续1分02秒差不多也就是62秒，于是开始思考有没有什么方法可以替代人类进行自动化批量裁剪？思路发展迭代与确定一开始是想使用Premier里面的预设来做的，结果发现Premier里面高版本的导出变成了各种网站的标准，相比
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表

【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表

获取指定UP主的投稿视频列表

从视频播放页面中提取视频标签和其他信息

获取某一视频的弹幕

获取某一视频下的评论与评论下的回复

相关代码

./liteTool.py

./GetBilibiliUploaderInfo.py

./GetBilibiliVideoInfo.py

你可能感兴趣的:(一入Python深似海,数据挖掘,python,bilibili,网络爬虫)