Dream丶Killer

震惊！一菜鸟竟用pyecharts分析B站弹幕作出这么靓的图~

文章目录

数据预处理
弹幕长度分布条形图
弹幕颜色分布饼图
弹幕量与视频内时间关系折线图
弹幕发送次数饼图
单用户弹幕数量Top10直方图
弹幕热词分析词云图

写在前面

年前写了篇B站弹幕爬取的文章，说之后有时间分析一下弹幕中的热点，正好最近有时间，就来填坑吧。。
本文主要对B站《咒术回战》动漫第一集弹幕的数据进行分析及可视化，主要使用 python 的 pandas 对数据进行预处理， jieba 分词，pyecharts 可视化。数据集为简单整理后的，数据量 60000 条。
ok，话不多说，直接开整。

数据预处理

首先，查看数据集的一些信息，为了之后能够对数据集有个清晰地认识。

import pandas as pd

df = pd.read_csv('bilibili_clean.csv')
df.info()

输出前五行。

df.head()

通过上图可以看到， other_data 列中包含很多数据，并不是所有的数据都对后面的分析有帮助，我们将该列拆分，只保留我们需要的列。以第一行的数据为例。

‘351.52700,1,25,16777215,1601686748,0,b083a745,39082825228484615’

所需数据及含义：

351.52700 ：弹幕的时间位置，基于视频长度，单位秒；
16777215 ：弹幕颜色， 16777215 对应 0xFFFFFF ；
b083a745 ：弹幕发送者的用户 id ；

# 将other_data列进行划分，并将需要的列添加到DataFrame中
split_df = df['other_data'].str.split(',', expand=True)

column_dict = [('video_time', 0), ('color', 3), ('user_id', 6)]
for col_name, index in column_dict:
    df[col_name] = split_df[index]
# 删除other_data列
df.drop('other_data', axis=1, inplace=True)
df.head()

这样就得到了及结构比较清晰的数据集，我们在绘制图形前，还会对数据进行的一些处理来使的图形绘制的更加方便。

弹幕长度分布条形图

添加一列 comment_length 来记录 comment 的长度，统计 comment 各长度出现的次数。使用 pyecharts 库绘制直方图。

# 添加一列comment_length来记录comment的长度
df['comment_length'] = df['comment'].map(lambda x: len(x))

length_series = df['comment_length'].value_counts()
length_series.sort_index(ascending=True, inplace=True)
# 评论长度列表（升序）
length_list = length_series.index.astype(int).tolist()
# 各长度对应出现次数列表
count_list = length_series.values.astype(int).tolist()

# 绘制直方图
from pyecharts import options as opts
from pyecharts.charts import Bar

chart = Bar()
chart.add_xaxis(length_list).add_yaxis("第一集", count_list, color='#DF0101').set_global_opts(
        title_opts=opts.TitleOpts(title="弹幕长度分布"),
        datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
    ).render("弹幕长度分布.html")
chart.render_notebook()

观察图中信息，可以看出，随着长度的增加，弹幕的数量逐渐减少，大部分弹幕长度在10以内，这也比较符合我们的习惯，笔者发弹幕一般也是就几个字。。

弹幕颜色分布饼图

首先将十进制的颜色代码转为十六进制。之后绘制彩色代码的时候就可以按照颜色代码给扇形区域绘制对应的颜色。

import time

# 将color列的数据类型由“str”转为“int”, 数据格式由“十进制”转为“十六进制”
df['color'] = df['color'].astype(int).map(lambda x: str(hex(x)))

统计 白色弹幕 和 彩色弹幕 的数量，绘制饼图。

# 弹幕颜色可视化
from pyecharts.charts import Pie

color_series = df['color'].value_counts()
color_list = [color for color in color_series.index]
count_list = color_series.values.astype(int).tolist()

white_other = ['白色', '彩色']
white_other_count = [count_list[0], sum(count_list[1:])]

chart = (
    Pie()
    .add(
        "",
        [list(z) for z in zip(white_other, white_other_count)],
        radius=["40%", "75%"],
    )
    .set_colors(['#0101DF', '#FE2E2E',])
    .set_global_opts(
        title_opts=opts.TitleOpts(title="普通、彩色弹幕分布饼图"),
        legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
#     .render("pie_radius.html")
)
chart.render_notebook()

可以看到，大部分弹幕的颜色是默认白色，虽然B站三级用户就可以发送彩色弹幕，但貌似使用的人不是很多。接下来详细看一下彩色弹幕中究竟使用的都是什么颜色？
由于颜色种类较多，这里只统计出现次数大于10次的颜色。

# 忽略出现次数小于10的颜色
for count in count_list:
    if count <= 10:
        index = count_list.index(count)
        break
new_count_list = count_list[1: index]
new_color_list = color_list[1: index]
# 将0xffffff颜色格式转为#ffffff
new_color_list = ['#' + color[2:] for color in new_color_list]


chart = (
    Pie()
    .add(
        "",
        [list(z) for z in zip(new_color_list, new_count_list)],
        radius=["40%", "75%"],
    )
    .set_colors(new_color_list)
    .set_global_opts(
        title_opts=opts.TitleOpts(title="彩色弹幕颜色分布饼图"),
        legend_opts=opts.LegendOpts(orient="vertical", pos_top="8%", pos_left="0%"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
#     .render("pie_radius.html")
)
chart.render_notebook()

哇，一眼望去五颜六色的，但仔细一看，红黄占了一大半，但这也不能够表明有这么多人喜欢红黄，通过观察手机版和网页版官方提供的色号，网页版中的色号包含 #FFFF00 和 #FE0302，手机版的暂时无法分辨，但应该是另外两个占比较多的颜色 #FEF102 和 E70012，这些色号使用的一方面原因是用户自身的喜爱，另一方面：官方提供色号的位置可能比较靠前（狗头保命）。

手机版

网页版

弹幕量与视频内时间关系折线图

首先将 video_time 列数据类型转换为 float，然后将视频时间（共1435秒，23:55）按照10秒为间隔进行划分，0-10，10-20，20-30，30-40... ，对应标签 10，20，30，40... 。下一步，将 “秒” 类型的数据格式转为 “分：秒” ，最后统计各时间弹幕的数量。

import numpy as np

# 将video_time列的数据类型转化为float
df['video_time'] = df['video_time'].astype('float')
# 新建一个临时的DataFrame
temp_df = pd.DataFrame({})
temp_df['video_time'] = df['video_time']
# 将video_time列按照10秒一区间进行划分。
temp_df = temp_df.apply(lambda x : pd.cut(x, list(range(0, 1435, 10)) + [np.inf], labels=list(range(0, 1435, 10))))

count_series = temp_df['video_time'].value_counts()
count_series.sort_index(ascending=True, inplace=True)

# 将time数据格式由“秒”转为“分：秒”
count_series.index = count_series.index.map(lambda x: time.strftime('%M:%S', time.gmtime(x)))
time_list = count_series.index.tolist()
count_list = count_series.values.astype('int').tolist()

根据得到的时间列表（ time_list ），弹幕数量列表（ count_list ）绘制折线图。

# 绘制折线图
from pyecharts.charts import Line

chart = (
    Line()
    .add_xaxis(time_list)
    .add_yaxis("第一集", count_list, is_smooth=True)
    .set_series_opts(
        areastyle_opts=opts.AreaStyleOpts(opacity=0.5),
        label_opts=opts.LabelOpts(is_show=False),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="弹幕量与视频时间关系"),
        datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
        xaxis_opts=opts.AxisOpts(
            axistick_opts=opts.AxisTickOpts(is_align_with_label=True),
            is_scale=False,
            boundary_gap=False,
        ),
    )
#     .render("line_areastyle_boundary_gap.html")
)
chart.render_notebook()

根据视频内各个时间段发送的弹幕量，可以大致得出视频的高能时刻，就和“精彩时刻”差不多。图中峰值主要出现在开始，中间，结尾，也比较符合一般人发弹幕的时间点。

弹幕发送次数饼图

统计单用户发送弹幕次数，将弹幕发送次数分为四类，1次，2次，3次，>3次，并绘制弹幕发送次数饼图。

# 获取用户id(index)与发送弹幕次数(values)组成的series
series_user = df['user_id'].value_counts()
# 获取发送弹幕次数(index)与用户数量(values)组成的series
series_comment = series_user.value_counts()
# 对index按照升序排序
series_comment.sort_index(ascending=True, inplace=True)
# 发送弹幕次数列表
comment_count_list = series_comment.index
# 用户数量列表
user_count_list = series_comment.values.tolist()
# 将弹幕次数分为4类, 1次，2次，3次，大于3次
comment_count_list = [str(count) + '次' for count in comment_count_list[:3]] + ['>3次']
user_count_list = user_count_list[:3] + [sum(user_count_list[3:])]

chart = (
    Pie()
    .add(
        "",
        [list(z) for z in zip(comment_count_list, user_count_list)],
        center=["35%", "50%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="弹幕发送次数分布饼图"),
        legend_opts=opts.LegendOpts(pos_left="80%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
#     .render("pie_position.html")
)
chart.render_notebook()

根据图中可以看到，发送一条弹幕的人占了大部分，2条的有5222个用户，3条1681个用户，大于3条的有1873个用户，接下来具体看看弹幕数量 Top10 。

单用户弹幕数量Top10直方图

top10 = series_comment[-10:].index.tolist()
top10.reverse()

chart = (
    Bar()
    .add_xaxis(list(range(1, 11)))
    .add_yaxis('第一集', top10, color='#F781D8')
    .set_global_opts(
        title_opts=opts.TitleOpts(title="用户发送弹幕数Top10"),
        datazoom_opts=opts.DataZoomOpts(type_="inside"),
    )
#     .render("bar_datazoom_inside.html")
)
chart.render_notebook()

震惊！！排名第一的用户，在23分钟发了76条弹幕。。平均20秒左右一条，不得不说，真的厉害，这还能够好好看视频么。不过可能是看完一遍，之后再卡时间点发弹幕的。

弹幕热词分析词云图

首先加载本地停用词库，这里根据弹幕中的词汇手动添加了一些的停用词，为了词云图的效果更好一点。

def load_stopwords(read_path):
    '''
    读取文件每行内容并保存到列表中
    :param read_path: 待读取文件的路径
    :return: 保存文件每行信息的列表
    '''
    result = []
    with open(read_path, "r", encoding='utf-8') as f:
        for line in f.readlines():
            line = line.strip('\n')  # 去掉列表中每一个元素的换行符
            result.append(line)
    return result

# 加载中文停用词
stopwords = load_stopwords('wordcloud_stopwords.txt')

现在对弹幕中的数据进行清洗，主要去除弹幕中的空格，重复单一字符（‘111’，‘aaa’），以及时间（某某打卡）等，之后删除空字符串。

# 去除弹幕中的空格
df['comment'] = df['comment'].str.replace(r' ', '')
# 用空字符串('')替换('111','aaa','....')等
df['comment'] = df['comment'].str.replace(r'^(.)\1*$', '')
# 用空字符串('')替换('2020/11/20 20:00:00')等
df['comment'] = df['comment'].str.replace(r'\d+/\d+/\d+ \d+:\d+:\d+', '')

# 将空字符串转为'np.nan',即NAN,用于下一步删除这些弹幕
df['comment'].replace(to_replace=r'^\s*$', value=np.nan, regex=True, inplace=True)
# 删除comment中的空值，并重置索引
df = df.dropna(subset=['comment'])
df.reset_index(drop=True, inplace=True)

清洗后，就可以使用 jieba 分词对弹幕进行分词，但分词前最好先使用 load_userdict() 导入本地的自定义词典，针对特有的领域词可以进行保留，不对其进行分词，之后剔除分词后的停用词。

import jieba

# 添加自定义词典
jieba.load_userdict("自定义词典.txt")
token_list = []
# 对弹幕内容进行分词，并将分词结果保存在列表中
for comment in df['comment']:
    tokens = jieba.lcut(comment, cut_all=False)
    token_list += [token for token in tokens if token not in stopwords]
len(token_list)

119752

统计得到的词汇列表，取出现次数最多的前100个词，绘制词云图。

from pyecharts.charts import WordCloud
from collections import Counter

token_count_list = Counter(token_list).most_common(100)
new_token_list = []
for token, count in token_count_list:
    new_token_list.append((token, str(count)))

chart = (
    WordCloud()
    .add(series_name="热词", data_pair=new_token_list, word_size_range=[12, 88])
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="弹幕热点词云图", title_textstyle_opts=opts.TextStyleOpts(font_size=23)
        ),
        tooltip_opts=opts.TooltipOpts(is_show=True),
    )
#     .render("basic_wordcloud.html")
)
chart.render_notebook()

刚开始绘制词云图时效果可能不太好，需要手动添加了一些词。现在看起来就还挺不错的。

这就是本文所有的内容了，如果感觉还不错的话。❤ 点个赞再走吧！！！❤

后续会继续分享数据分析、可视化、机器学习等内容，如果感兴趣的话可以点个关注不迷路哦~。

如果需要完整代码（.ipynb）练练手的话，可以在评论区留下邮箱，看见必发。

量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
Mac下载python并安装小小酥*
下载pythonPython官网：https://www.python.org/进入官网后点击download，选择MacOSX版本2.安装MAC系统一般都自带有Python2.x版本的环境，你也可以在链接https://www.python.org/downloads/mac-osx/上下载最新版安装。3.设置环境变量程序和可执行文件可以在许多目录，而这些路径很可能不在操作系统提供可执行文件的搜
Python使用minIO上传下载身似山河挺脊梁 python
前提VSCode+Python3.9minIO有Python的例子1.python生成临时文件2.写入一些数据3.上传到minIO4.获取分享出连接5.发出通知#创建一个客户端minioClient=Minio(endpoint='xx',access_key='xx',secret_key='xx',secure=False)#生成文件名current_datetime=datetime.dat
深入理解Python上下文管理器 ……-…… python 开发语言
1.什么是上下文管理器？2.with语句的魔法3.创建上下文管理器的两种方式3.1基于类的实现3.2使用contextlib模块4.异常处理1.什么是上下文管理器？上下文管理器（ContextManager）是Python中用于精确分配和释放资源的机制。它通过__enter__()和__exit__()两个魔术方法实现了上下文管理协议，确保即使在代码执行出错的情况下，资源也能被正确清理。#经典文件
【Appium】Appium征服安卓自动化：GitHub 10.5k+星开源神器，Python代码实战全解析！山河不见老 python 测试 appium android 自动化
Appium一、为什么开发者都在用Appium？二、环境搭建：5分钟极速配置2.1核心工具链2.2安卓设备连接三、脚本实战：从零编写自动化操作3.1示例1：自动登录微信并发送消息3.2示例2：动态滑动屏幕与数据抓取四、避坑指南4.1元素定位优化4.2稳定性增强4.3云真机集成五、生态扩展：超越安卓的自动化版图一、为什么开发者都在用Appium？万星认证：GitHub超10.5k+星标，活跃社区持续
基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
npm error gyp info 计算机辅助工程 npm 前端 node.js
在使用npm安装Node.js包时，可能会遇到各种错误，其中gyp错误是比较常见的一种。gyp是Node.js的一个工具，用于编译C++代码。这些错误通常发生在需要编译原生模块的npm包时。下面是一些常见的原因和解决方法：常见原因及解决方法Python未安装或版本不兼容：Node.js使用Python来运行gyp。确保你的系统上安装了Python，并且版本与node-gyp兼容。通常推荐使用Pyt
股票量化交易开发 Yfinance 数字化转型2025 python 开发语言
以下是一段基于Python的股票量化分析代码，包含数据获取、技术指标计算、策略回测和可视化功能：pythonimportyfinanceasyfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfrombacktestingimportBacktest,Strategyfrombacktesti
大屏自适应终极方案：基于比例缩放的完美适配实践（Vue3版） FFF-X html5 javascript
需求背景在数据可视化大屏开发中，我们常面临这样的挑战：如何让1920*1080的设计稿在不同分辨率设备上完美呈现？传统的响应式布局难以应对复杂的大屏元素排布，本文介绍一种基于CSS3变换的终极适配方案实现思路本方案的核心是动态比例缩放，通过以下关键步骤实现：基准比例锁定：基于设计稿宽高比（16:9）建立基准比例视口实时检测：通过resize事件监听窗口变化智能比例判断：当视口更宽时：保持高度基准，
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
2D 可视赋能智慧水务绿色集约化发展智慧园区物联网 big data 人工智能
随着国家对环境保护治理程度的日益重视，各地政府积极响应国家政策，在共同聚焦生态文明建设下，急速催生了水务行业数字化转型。如今“供排污”一体化管理系统成为行业发展的重要趋势，提高水务精细作业、集中管控、数据透明成为刚需。Hightopo应用自主研发的HT产品，搭建了以厦门区域为载体的2D智慧水务可视化解决方案。界面摒弃了以往传统的地图模式，采用更加简洁的六边形色块拼接出湖泊水库等地形，河流分支则运用
sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
python环境部署工具 uv Honnnnnn uv
以原先使用的pipenv工具为例子，通过pipfile.lock生成requirements文件，再将requirements转成pyproject.toml文件，最后生成uv.lock基于当前虚拟环境导出requirements.txt--pipfreeze>requirements.txt（如果原先不是env而是基础的通过requirements.txt文件，省去转化requirements的
【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）天天科研工作室光伏功率预测算法 matlab 随机森林机器学习
【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）文章目录【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）文章介绍基本步骤代码分享运行结果参考资料文章介绍随机森林可以应用于光伏功率预测，这是一项重要的任务，旨在估计光伏发电系统的输出功率。光伏功率预测在可再生能源管理、电网调度和能源计划等领域具有广泛的应用。随机森林回
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
ESP32-C6助力设备互联互通，Wi-Fi6无线通信方案，物联网交互联动深圳启明云端科技 WiFi6 ESP32-C6 乐鑫物联网无线方案
在物联网飞速发展的今天，连接技术的革新成为推动行业进步的关键力量。Wi-Fi6技术的出现，犹如一颗璀璨的新星，为物联网设备带来了前所未有的高效与低耗体验。乐鑫推出的ESP32-C6作为首款支持Wi-Fi6的SoC，集成了2.4GHzWi-Fi6、Bluetooth5(LE)和802.15.4协议，这一组合使其具备了行业领先的射频性能。其支持的上行、下行正交频分多址（OFDMA）接入和下行多用户多输
leetcode-hot100-python-专题三：滑动窗口 ༺ Dorothy ༻ leetcode hot100 leetcode python 算法
1、无重复字符的最长子串中等给定一个字符串s，请你找出其中不含有重复字符的最长子串的长度。示例1:输入:s=“abcabcbb”输出:3解释:因为无重复字符的最长子串是“abc”，所以其长度为3示例2:输入:s=“bbbbb”输出:1解释:因为无重复字符的最长子串是“b”，所以其长度为1。示例3:输入:s=“pwwkew”输出:3解释:因为无重复字符的最长子串是“wke”，所以其长度为3。请注意，
Python UV - 安装、升级、卸载云客Coder python uv 开发语言
文章目录安装检查升级设置自动补全卸载UV命令官方文档详见：https://docs.astral.sh/uv/getting-started/installation/安装pipinstalluv检查安装后可运行下面命令，查看是否安装成功uv--version%uv--versionuv0.6.3(a0b9f22a22025-02-24)升级uvselfupdate将重新运行安装程序并可能修改您的
spark explain如何使用 fzip Spark spark 执行计划
在Spark中，explain是分析SQL或DataFrame执行计划的核心工具，通过不同模式可展示查询优化和执行的详细信息，默认情况下，这个语句只提供关于物理计划的信息。以下是具体使用方法及不同模式的作用：1.explain的基本语法在Spark3.0及以上版本，explain支持多种模式参数，通过mode指定输出格式：#DataFrame调用方式df.explain(mode="simple"
使用Python构建去中心化预测市场：从概念到实现 Echo_Wish Python！实战！python 去中心化开发语言
使用Python构建去中心化预测市场：从概念到实现大家好，我是Echo_Wish。今天，我们将深入探讨一个前沿的区块链应用——去中心化预测市场，并学习如何使用Python来构建一个简易的预测市场平台。预测市场是基于市场参与者对未来事件的预测来产生结果的地方，通常被用来预测政治事件、金融市场走向、体育比赛结果等。传统的预测市场如Augur、Polymarket等，基于去中心化平台，利用区块链技术确保
Python自动登陆、登出南京理工大学NJUST校园网程序 JimesMz python 开发语言
本文程序针对南京理工大学NJUST和NJUST-FREE校园网开发，其他学校无法使用。文章目录开发目的使用说明参考资料开发目的今天突然想要用代码实现一下自动登陆校园网，上网搜寻了一下。知乎有一些教程，CSDN也有一些完整的代码，但是我跟随教程或者直接运行现有代码都没有能够成功登陆，且NJUST校园网付费，我想要一个“登出”功能，借助Kimi自己写了一下。本人技术不精，以实现功能为主。使用说明请确保
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
Python调用fofa API接口并写入csv文件中 YOHO !GIRL 网络测绘 python 网络安全
前言一.功能目的二.功能调研三.编写代码1.引入库2.读取数据3.写入csv文件中总结前言上一篇我们讲述了目前较为主流的几款网络探测系统，简单介绍了页面的使用方法。链接如下，点击跳转：网络空间测绘引擎集合：Zoomeye、fofa、360、shodan、censys、鹰图然而当我们需要针对单个引擎进行二次开发时，页面就不能满足我们的需求了，这就需要参考API文档进行简单的数据处理，接下来，给大家介
如何在苹果内购开发中获取App Store Connect API密钥-共享密钥理解内购安全-优雅草卓伊凡卓伊凡 APP上架服务器运维
如何在苹果内购开发中获取AppStoreConnectAPI密钥-共享密钥理解内购安全-优雅草卓伊凡在苹果内购开发中，你可能会涉及到获取不同类型的“密钥”，以满足安全验证和开发的需求。以下介绍常见的获取方式：1.AppStoreConnectAPI密钥（用于服务器端验证内购）用途：如果你计划在服务器端验证用户的内购交易，以确保交易的真实性和防止欺诈，就需要使用AppStoreConnectAPI密
SenseVoice 部署记录安静六角开源软件
最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。步骤1.创建虚拟环境：condacreate-nmainenvpython=3.102.然后安装依赖condaactivatemainenvpipinstall-rC:\Users\xx\Documents\P
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><