nkwshuyi

如何用 Python 和 BERT 做多标签（multi-label）文本分类？

10余行代码，借助 BERT 轻松完成多标签（multi-label）文本分类任务。

疑问

之前我写了《如何用 Python 和 BERT 做中文文本二元分类？》一文，为你讲解过如何用 BERT 语言模型和迁移学习进行文本分类。

不少读者留言询问：

王老师，难道 BERT 只能支持二元分类吗？

当然不是。

BERT 是去年以来非常流行的语言模型（包括 ELMO, Ulmfit, BERT, Ernie, GPT-2等）的一种，长期霸榜，非常强悍。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第2张图片

研究者已经证明，它可以很好地处理多种自然语言处理任务。甚至在部分任务上，超越了人类水平。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第3张图片

它处理自然语言任务，靠的是迁移学习的威力。

复习一下，我在《如何用 Python 和深度迁移学习做文本分类？》一文里，给你讲过迁移学习的范例 ULMfit （Universal language model fine-tuning for text classification）。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第4张图片

其原理就是首先让一个深度神经网络在海量文本上自监督学习（self-supervised learning）。

自监督和非监督（unsupervised）学习的区别，在于自监督学习，实际上是有标记的。

例如我们找到大量的语料，把常出现的词语放在一起，配对成（输入，输出）格式，例如（France, Paris）。这里 Paris 就可以看做是 France 的标记。然后学习的方式跟监督学习没有差别。

这也是著名的 word2vec 训练方式。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第5张图片

那问题来了，为什么不干脆叫监督学习?

因为监督学习，往往是指需要人工参与打标记的。例如你已经熟悉的情感分类任务，都是人阅读以后标记1或者0的。

可在语言模型这里，你利用了语料自身中词语的自然位置关系，没有主动人工打标记。所以为了区分，我们叫它“自监督学习”。

经过足够长时间的训练，这个神经网络就学会了该领域语言的特性。

然后，我们给这个神经网络，加上一个头部，就可以让它来完成特定的目标。

加上全连接层作为分类器，就可以把输入文本做分类（classification），例如我们讲解过的情感分析。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第6张图片

加上解码器（decoder），就可以把输入文本序列，转换成另一种序列。这就可以完成文本翻译、问答，甚至是文本转语音。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第7张图片

加上生成器（generator），例如卷积神经网络，就可以把序列转换成多层矩阵。这样，机器就可以根据你的文字输入，为你输出对应的图像来。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第8张图片

我以二元分类任务举例，仅仅是因为它足够简单，便于说明。

你完全可以举一反三，直接使用它来做多类别（multi-class）分类任务，例如三分类情感分析（正向、负向、中性）之类。

这时候，《如何用 Python 和 BERT 做中文文本二元分类？》一文中其他的代码，都是可以复用的。

你只需要调整一下测量指标（Evaluation Metrics）。

例如说，f1 分数专门针对二分类。你用它衡量多分类任务，程序会无所适从。

把它删除，或者替换成 micro f 或者 macro f 分数，就好了。

本文，我们来看看其他同学提出的这个更有挑战性的问题：

老师，BERT 能否做多标签（multi-label）分类？

多标签

先来解释一下，什么叫做多标签（multi-label）文本分类问题。

这里咱们结合一个 Kaggle 上的竞赛实例。

竞赛的名字叫做：恶毒评论分类挑战（Toxic Comment Classification Challenge），链接在这里。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第9张图片

这个竞赛的数据，取自真实的网络评论。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第10张图片

除了序号和原始文本以外，每行数据都包含了6个维度的标注，分别是：

toxic（恶毒）
severe_toxic（非常恶毒）
obscene（污言秽语）
threat（威胁）
insult（侮辱）
identity_hate（憎恨）

这就是我们的任务：

对于一个样本，需要同时在6个不同维度上判断它是否属于该标签范畴。

我觉得这个竞赛的初衷非常好。

因为网上恶毒评论过多，会降低用户高质量内容贡献度，让社区变得沉寂。

而人工处理，显然效率和速度都不理想，而且成本过高。

用机器自动甄别，可以第一时间直接屏蔽恶毒评论，有助于打造良好的网络社群环境和讨论氛围。

并且，成本还很低。

你可以很容易看出，这种多标签标注和多元分类标注的区别。

多元分类任务里面，分类互斥。一个样本属于某种分类，不能同时属于另一种分类。

例如一条评论，不能同时属于“正向”或者“负向”情感。

一张图片，不能同时属于“哆啦A梦”或者“瓦力”。

但是这个多标签分类例子里面，我们不难看出，一个“非常恶毒”的评论，同时也必定是“恶毒”的评论。

因此一个样本，可能同时属于上述两种，甚至全部六种类别。

当然，也有可能不属于任何一种类别。

了解了任务后，下一个问题自然是：怎么做？

最简单的偷懒办法，是分别建立6个独立的模型。

第一个模型，判断是否“恶毒”。

……

最后一个模型，判断是否“憎恨”。

这样一来，我们就可以把一个多标签分类问题，转化成6个二元分类问题。

解决了？

对。

很多论文，就是这么处理多标签分类任务的。

这样做有问题吗？

有。

因为6个独立模型，可能会判断出某条评论“非常恶毒”的同时，却认为它不“恶毒”。

这显然是个荒唐结论。

但既然模型是独立的，哪里管得了这么多？

好在，多标签分类任务，其实是可以只用一个模型来解决的。

一个模型的好处有很多。

例如可以对上述荒唐结论进行惩罚（penalize），从而让机器避免得出这样不合乎逻辑的判定结果。

而且，可以节省大量的时间、存储和计算资源。

本文，我们就讨论如何基于 BERT ，构造这样的多标签分类模型。

发现

本来，我是打算在之前 BERT 二元分类代码的基础上，实现多标签分类功能，然后把代码和教程提供给你的。

再次强调，我做的工作主要是简化（而非从头撰写）代码，使得你可以利用它学习，以及替换成你自己的数据来使用。

但是，现在正是 Tensorflow 大版本切换的过渡期。

之前分享的 BERT 二元分类原始代码采用 Tensorflow 1.X 代码编写，底层代码处理起来非常麻烦。

而且一旦 2.0 正式版推出，之前写好的 1.X 版代码需要大幅修改，甚至重来。

这种西西弗斯推石头般的无用功，让人望而却步。

这时，有人捷足先登了。

完成这件事的，就是我的 LinkedIn 好友 Kaushal Trivedi 。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第11张图片

早在今年1月份，他就在 medium 发布了关于 BERT 多标签分类的文章。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第12张图片

那一篇文章的配套代码，他是直接基于 PyTorch 撰写的，包含了大量底层细节。

对于应用来说，源代码包含底层细节过多，可不是什么好事儿。

因为这意味着以下几个特点：

代码很长
为了适应自己的任务，找需要修改的地方很麻烦
出错之后，不容易检查

这就是为什么软件工程会强调封装。

所谓封装，就是把已经通过反复测试的内容包裹起来。只在更高层次上，让开发者或者用户跟输入输出接口打交道。

这样可以避免重复造轮子，而且更不容易发生错误。

受 fast.ai 的启发，Kaushal Trivedi 做了一个新的项目，叫做 fast-bert 。

看，连名字都向 fast.ai 致敬了。

这次的代码简洁明快多了。

Kaushal Trivedi 还专门写了一篇文章，讲述了如何用 fast-bert 来进行多标签分类。用的样例就是咱们刚才提到的恶毒评论分类数据。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第13张图片

然而，由于这个软件包刚刚研发出来，所以坑非常多，包括但不限于：

文章内的代码不完整
Github 上的样例 ipynb 文件需要特定底层 Linux 编译软件包支持
样例数据过大，导致执行时间过长
Colab 上执行，会出现内存耗尽报错
……

把所有坑都踩过来之后，我觉得还是有必要整理出一个可以在 Google Colab 上让你直接执行，并且可以套用自己数据的版本。

毕竟，我们都喜欢免费的 GPU，对吧？

现在，我已经完成了这项工作。

这篇文章就将成果分享给你。

数据

如果你使用恶毒评论分类数据全集的话，训练数据有十几万条。

即便用上了 Colab 的 GPU ，执行起来也会花费好几个小时的时间。

顺便说一句，Colab 的免费 GPU 最近升级了，已经从原来速度慢、内存容量小的 K80，换成了 Tesla T4 。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第14张图片

这里为了让你快速看到运行结果，我对数据进行了采样。

目前的训练集包含 4000 条数据，验证集只有 1000 条。比起原始数据，这只是不到20分之一而已。

同样，对于测试集，我也只采样了 1000 条。

这样做，会有不利的影响，那就是分类效果会降低。

请记住现在的结果，是在数据相对较少的基础上训练出来的。因此结果如果不理想，并不能代表 BERT 的能力不够强。

环境

本文的配套源代码，我放在了 Github 上。链接获取方式请见本文末尾。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第15张图片

如果你对我的教程满意，欢迎在页面右上方的 Star 上点击一下，帮我加一颗星。谢谢！

注意这个页面的中央，有个按钮，写着“在 Colab 打开”(Open in Colab)。请你点击它。

然后，Google Colab 就会自动开启。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第16张图片

我建议你点一下上图中红色圈出的 “COPY TO DRIVE” 按钮。这样就可以先把它在你自己的 Google Drive 中存好，以便使用和回顾。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第17张图片

Colab 为你提供了全套的运行环境。你只需要依次执行代码，就可以复现本教程的运行结果了。

如果你对 Google Colab 不熟悉，没关系。我这里有一篇教程，专门讲解 Google Colab 的特点与使用方式。

为了你能够更为深入地学习与了解代码，我建议你在 Google Colab 中开启一个全新的 Notebook ，并且根据下文，依次输入代码并运行。在此过程中，充分理解代码的含义。

这种看似笨拙的方式，其实是学习的有效路径。

代码

为了让你把注意力集中在重要的环节，我这里把全部的准备工作都集中在了第一个代码段落，并且隐藏了其内容。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第18张图片

如果你需要查看和修改，只需要点击该代码段即可。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第19张图片

或者，你现在可以忽略并直接执行它。这大概需要花几分钟的时间。因为有个底层的软件包需要编译，才能支持 fast-bert 软件包。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第20张图片

下面，才是咱们要关注和讲解的部分。

首先，我们把数据下载下来。

!git clone https://github.com/wshuyi/demo-multi-label-classification-bert.git

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第21张图片

注意这里包含的数据，不只有采样版本，也包含了原始数据。

你在尝试过本教程后，也可以重新载入原始数据，看模型效果是否会有显著提升。

之后，是咱们的主角 fast-bert 登场。

!pip install fast-bert

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第22张图片

我们需要从 fast-bert 以及它依赖的软件包 pytorch_pretrained_bert 读入一些预置函数。

from fast_bert.data import *	
from fast_bert.learner import *	
from fast_bert.metrics import *	
from pytorch_pretrained_bert.tokenization import BertTokenizer

之后，是参数设定。

DATA_PATH = Path('demo-multi-label-classification-bert/sample/data/')	
LABEL_PATH = Path('demo-multi-label-classification-bert/sample/labels/')	

	
BERT_PRETRAINED_MODEL = "bert-base-uncased"	

	
args["do_lower_case"] = True	
args["train_batch_size"] = 16	
args["learning_rate"] = 6e-5	
args["max_seq_length"] = 512	
args["fp16"] = True

这里为你解释一下各项参数的含义：

DATA_PATH：数据路径。包含训练、验证和测试集的csv文件。
LABEL_PATH：标记路径。注意它只是把所有标记的类别每个一行，写在了一个 csv 中，短小精悍。
BERT_PRETRAINED_MODEL：使用的预训练模型。我们这里使用的是英文不分大小写版本 bert-base-uncased 。
args["do_lower_case"]：数据处理中是否全部转换小写。这里设定为“是”。
args["train_batch_size"]：训练集批次大小。这里设定为16。如果设定为32的话，Colab 的 GPU 会报告内存溢出错误。
args["learning_rate"]：学习速率。
args["max_seq_length"]：最大序列长度。这里我们设定为512。当然如果你处理 Twitter 数据，140就够了。
args["fp16"]：以16位浮点精度来进行运算。可以加快运算速度，节省存储空间。

下面我们从预训练模型中，获得数据处理器。

tokenizer = BertTokenizer.from_pretrained(BERT_PRETRAINED_MODEL,	
                                          do_lower_case=args['do_lower_case'])

把全部的标签类别输入到列表中。

label_cols = ["toxic", "severe_toxic", "obscene", "threat", "insult", "identity_hate"]

终于可以正式读取数据了。

databunch = BertDataBunch(DATA_PATH, LABEL_PATH, tokenizer, train_file='train.csv', val_file='valid.csv',	
                          test_data='test.csv', label_file="labels.csv",	
                          text_col="comment_text", label_col=label_cols,	
                          bs=args['train_batch_size'], maxlen=args['max_seq_length'],	
                          multi_gpu=multi_gpu, multi_label=True)

这里填充的参数，基本上都可以通过其名称直接了解含义。所以我这里只给你讲解以下几个重点：

text_col 是指训练集、验证集和测试集里面，文本所在那一列的表头名称。
multi_gpu 是指要不要使用多 GPU 并行运算。这里前面代码已经自动获取了取值，你不需要修改它。
multi_label 说明了咱们要进行的是多标签分类任务。

读取后的数据，存在了 databunch 中。模型可以直接使用。

我们指定模型效果测量标准。

metrics = [{'name': 'accuracy', 'function': accuracy_multilabel}]

因为是多标签分类，所以我们用的是准确率衡量指标是 accuracy_multilabel 。

我们把当前的参数设置，存入到日志记录器中。

logger.info(args)

开始构造模型了。

learner = BertLearner.from_pretrained_model(databunch, BERT_PRETRAINED_MODEL, metrics, device, logger,	
                                            is_fp16=args['fp16'], loss_scale=args['loss_scale'],	
                                            multi_gpu=multi_gpu,  multi_label=True)

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第23张图片

因为指定了 multi_label=True ，程序会自己构造模型的头部，以便正确处理多标签分类任务。

训练开始。

这里我们设定跑4个周期（cycle）。

learner.fit(4, lr=args['learning_rate'], schedule_type="warmup_linear")

根据 BERT 的设定，训练中间学习速率是要进行变化的。我们设定变化方式为 warmup_linear 。

它将在每一个周期中，把学习速率按类似下图这样的方式进行调整：

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第24张图片

运行结果如下：

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第25张图片

4轮周期跑下来，模型在验证集准确率达到了 0.993 。这就意味着平均每 1000 个样本，多标签分类准确数量 993 个。

这个结果怎么样？

够不够好？为什么？

这个问题作为今天的思考题。欢迎你把自己的想法记录下来写在留言区，咱们一起交流讨论。

小结

通过阅读本文，希望你已经掌握了以下知识点：

除二元分类外，语言模型（例如 BERT ）的其他应用场景
多类别（multi-class）分类和多标签（multi-label）分类的区别
自监督学习（self-supervised learning）的概念
多标签分类的独立模型转化法
使用 BERT 单模型进行多标签分类

希望这些知识和技能，可以帮助你解决研究和工作中遇到的实际问题。

祝深度学习愉快！

代码链接获取方法

第一步，微信关注公众号“玉树芝兰”（nkwangshuyi）。

如何用 Python 和 BERT 做多标签（multi-label）文本分类？_第28张图片

第二步，在后台回复“bert”（注意大小写）。

你可能感兴趣的:(如何用 Python 和 BERT 做多标签（multi-label）文本分类？)

Transformer 模型架构 2401_89793006 热门话题 transformer 深度学习人工智能
Transformer是一种模型架构（ModelArchitecture），而不是一个软件框架（Framework）。它的定位更接近于一种设计蓝图，类似于建筑中的结构设计方案。以下是详细解释：1.架构vs框架的区别概念定义示例模型架构定义神经网络的结构设计Transformer、CNN、RNN开发框架提供实现模型的工具和库PyTorch、TensorFlow2.Transformer作为架构的核心
Vue.js 基础与实战指南：从入门到跑路王嘉俊705 前端 javascript visual studio code html 前端 vue.js
一、Vue的两种使用方式扩展核心包开发直接通过引入Vue.js，适用于简单页面或局部功能增强。优点：轻量，无需构建工具。缺点：难以管理复杂项目，缺少工程化支持。工程化开发使用VueCLI、Vite等工具创建项目，结合Webpack/Vite构建。支持单文件组件（.vue文件），结构清晰（`,,）。插件生态丰富（如VueRouter、Vuex、Pinia）。二、Vue实例的深入理解核心配置项 new
SQL 注入攻击黄亚磊11 数据库
SQL注入攻击了解吗？攻击者在HTTP请求中注入恶意的SQL代码，服务器使用参数构建数据库SQL命令时，恶意SQL被一起构造，并在数据库中执行。用户登录，输入用户名lianggzone,密码123or1=1,如果此时使用参数构造的方法，就会出现select*fromuserwherename='lianggzone'andpassword='123'or'1'='1';不管用户名和密码是什么内容，
MVCC（多版本并发控制）机制讲解十五001 基础 oracle 数据库 mysql
MVCC（Multi-VersionConcurrencyControl，多版本并发控制）这是一个在数据库管理系统中非常重要的技术，尤其是在处理并发事务时。别担心，我会用简单易懂的方式来讲解，让你轻松掌握它的原理和作用。1.什么是MVCC？定义MVCC是一种数据库技术，用于通过保留数据的多个版本来提高并发性能，同时避免事务之间的冲突。简单来说，它允许数据库在读取和写入操作时，同时存在多个版本的数据
使用rknn进行yolo11-pose部署点PY 深度学习模型部署 pytorch 深度学习人工智能
文章目录概要生成ONNX生成RKNN实测效果概要使用RKNN进行YOLOv11Pose部署的必要性在于，RKNN能将YOLOv11Pose模型转化为适合Rockchip硬件平台（如RV1109、RV1126）执行的格式，充分利用其AI加速功能，显著提高推理速度和效率。此外，RKNN提供模型优化（如量化）功能，有助于减少计算资源消耗，提升实时处理能力，特别适合在嵌入式设备上进行高效、低功耗的姿态估计
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
深入解析JVM性能问题定位与优化测试不打烊性能测试 jvm 性能优化
JVM性能问题定位与优化详解：架构、内存、Linux命令与监控工具的全面解析引言Java虚拟机（JVM）是运行Java应用程序的核心组件，它管理内存、执行字节码，并提供垃圾回收机制等功能。然而，随着应用规模的增长，JVM的性能问题时常会成为系统瓶颈。为了有效定位和优化JVM性能问题，我们需要从JVM架构、内存管理、Linux系统命令，以及监控工具入手，对JVM的各类指标进行详尽的分析和优化。本文将
安装与部署openeuler 的HA VX-IT BANG 服务器网络 linux
实现原理LinuxHA（HighAvailability，高可用性）是指利用Linux操作系统构建的高可用集群解决方案，旨在确保关键业务服务在面临硬件故障、软件错误、网络中断等各种异常情况时，依然能够持续、稳定地运行，尽量减少服务中断时间，提高系统的可靠性和可用性。以下从几个方面详细介绍：关键组件和技术心跳监测（Heartbeat）这是LinuxHA系统中最基础也是最重要的组件之一。它通过在节点之
Ubuntu切换终端快捷键 yangsong4353 ubuntu shell term
在Ubuntu系统中，使用终端（Terminal）进行操作时，掌握一些快捷键可以大大提高工作效率。以下是一些常用的终端快捷键及其功能：打开和关闭终端打开终端:Ctrl+Alt+T关闭终端:Ctrl+D标签页操作新建标签页:Ctrl+Shift+T关闭标签页:Ctrl+Shift+W切换标签页:Alt+数字键（如Alt+1，Alt+2等）或Ctrl+PageUp/PageDown复制和粘贴复制:Ct
【Java基础】Java 中的 static 关键字李少兄 Java java 开发语言
一、前言在Java的编程世界里，static关键字是一个非常重要且实用的特性。它就像是一把神奇的钥匙，能够改变变量、方法、代码块和内部类的性质和行为。二、static修饰成员变量2.1静态变量的基本概念在Java里，当我们使用static关键字修饰成员变量时，这个变量就变成了静态变量，也叫类变量。普通的成员变量（实例变量）是每个对象都有一份独立的副本，而静态变量不同，它属于整个类，无论创建多少个该
如何将Docker容器打包并在其他服务器上运行 IT小辉同学技巧性工具栏分布式云部署搜索引擎 docker 服务器容器
如何将Docker容器打包并在其他服务器上运行我会幻想很多次我们的相遇，你穿着合身的T恤，一个素色的外套，搭配一条蓝色的牛仔裤，干净的像那天空中的云朵，而我，还是一个的傻傻的少年，我们相识而笑，默默不语，如此甚好！Docker容器使得应用程序的部署和管理变得更加简单和高效。有时，我们可能需要将一个运行中的Docker容器打包，并在其他服务器上运行。本文将详细介绍如何实现这一过程。1.提交容器为镜像
【自然语言处理|迁移学习-08】：中文语料完型填空爱学习不掉头发深度学习自然语言处理（NLP）自然语言处理迁移学习人工智能
文章目录1中文语料完型填空任务介绍2数据集加载及处理3定义下游任务模型4模型训练5.模型测试1中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析：使用迁移学习方式完成使用预训练模型bert模型提取文特征，后面添加全连接层和softmax进行单标签多分类2数据集加载及处理数据介绍：数据文件有三个train.csv，test
已经commit但是没有push，想撤回本次commit 逐云之巅 git git
使用gitreset命令撤回提交，有三种模式可选：1.gitreset--softHEAD~（推荐）#将HEAD指针移动到上一个提交，但保留暂存区和工作区的更改。这意味着你可以重新提交这些更改，但不需要重新gitadd。2.gitreset(--mixed)HEAD~#不带参数或者带参数--mixed；撤销提交，将更改的文件和目录恢复到工作区，需要手动暂存和更改3.gitreset--hardHE
揭秘 CSS Houdini：用浏览器魔法解锁 CSS 的终极潜力寒鸦xxx css houdini 前端
一、为什么我们需要CSSHoudini？1.1传统CSS的困境当我们试图用CSS实现一个波浪形边框时，通常会经历这样的挣扎：/*传统实现方案*/.wave-border{position:relative;overflow:hidden;}.wave-border::after{content:'';position:absolute;/*需要复杂计算和多个伪元素拼接*/}这种实现方式存在三个致命
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
鸢尾花分类项目 GUI 编织幻境的妖分类数据挖掘人工智能
1.机器学习的定义机器学习是一门人工智能的分支，专注于开发算法和统计模型，使计算机能够在没有明确编程的情况下从数据中自动学习和改进。通过识别数据中的模式和规律，机器学习系统可以做出预测或决策。常见的应用包括图像识别、语音识别、推荐系统等。2.为什么使用鸢尾花数据集（Irisdataset）鸢尾花数据集是一个经典的多类分类问题数据集，由英国统计学家和遗传学家RonaldFisher在1936年引入。
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
关于防火墙运维面试题编织幻境的妖运维 php 网络
一、防火墙基础概念类1.请详细阐述防火墙在网络安全体系中的具体作用及核心原理。以下是防火墙在网络安全体系中的具体作用及核心原理的详细阐述：防火墙在网络安全体系中的作用访问控制限制非法访问：防火墙可以根据预设的规则，允许或拒绝特定的网络流量通过。例如，企业内部网络可能只允许来自特定IP地址范围的员工访问敏感资源，而阻止其他未经授权的外部IP地址的访问，从而保护内部网络免受未经授权的访问和潜在的攻击。
改进YOLO系列 | YOLOv5/v7 引入 Dynamic Snake Convolution | 动态蛇形卷积 wei子 YOLO 目标跟踪人工智能
改进YOLO系列：动态蛇形卷积（DynamicSnakeConvolution，DSC）简介YOLO系列目标检测算法以其速度和精度著称，但对于细长目标例如血管、道路等，其性能仍有提升空间。动态蛇形卷积（DSC）是YOLOv5/v7中引入的一种改进，旨在更好地处理细长目标。DSC原理DSC的核心思想是使用类似蛇形运动的卷积核来提取细长目标的特征。具体来说，DSC卷积核沿着一系列控制点移动，并根据每个
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
hget和get redis_redis get hget 区别 weixin_39615257 hget和get redis
下标是从0开始的,接着上面例子redis>substrk08"hello,wor"redis>getk"hello,world"3.listredis的list类型其实就是一个每个子元素都......String–>SETNG“NewGrand”–>ok–>GETNG–“NewGrand”Redis常用命令?Hash–HSET–HGET–HEXISTS–HDEL应用场景:存储用户信息......5
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Playwright 入门介绍和使用指南 IT鱼多多 Python基础 #Python接口测试框架 python 开发语言 Playwright
Playwright入门介绍,Playwright使用指南请参考另一篇博客此博客为Playwright官网：译文希望让读者可以快速了解Playwriht可以用来做什么，怎么用。有些专业名词可能翻译不准确哈文章目录1.入门1.1Installation安装1.1.1AddExampleTest添加示例测试1.1.2RunningtheExampleTest运行示例测试1.2WritingTests编
Ubuntu之12.04常用快捷键——记住这些你就是高手啦！码莎拉蒂 . Linux/Unix积累 ubuntu 快捷键
桌面ALT+F1:聚焦到桌面左侧任务导航栏，可按上下键导航。ALT+F2:运行命令ALT+F4:关闭窗口ALT+TAB:切换程序窗口ALT+空格:打开窗口菜单PRINT:桌面截图SUPER:打开Dash面板，可搜索或浏览项目，默认有个搜索框，按“下”方向键进入浏览区域（SUPER键指Win键或苹果电脑的command键）在Dash面板中按CTRL+TAB:切换到下一个子面板（可搜索不同类型项目，如
Spring框架在Java企业级应用中的应用分析向哆哆 Java入门到精通 java spring 后端
Java在移动应用开发中的优势与挑战Java作为一门历史悠久且功能强大的编程语言，在移动应用开发中一直占据着重要地位，尤其是在安卓平台的应用开发上，Java是主要的开发语言。随着技术的发展，尤其是Kotlin的崛起，Java在移动应用中的角色发生了一些变化，但它依旧具有许多独特的优势，尤其是在企业级应用和维护现有项目中。本文将从多个角度探讨Java在移动应用开发中的优势与挑战，并提供相关的代码示例
十大经典排序算法的C++实现与解析金外飞176 算法算法数据结构 c++
经典排序算法的C++实现与解析在计算机科学中，排序算法是数据处理和算法设计的基础。无论是处理大规模数据还是优化小规模数据的性能，排序算法都扮演着重要角色。本文将介绍10种经典排序算法，并提供它们的C++实现代码。这些算法包括冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序、堆排序、计数排序、基数排序和桶排序。1.冒泡排序（BubbleSort）原理冒泡排序是最简单的排序算法之一。它通过重
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

如何用 Python 和 BERT 做多标签（multi-label）文本分类？

疑问

多标签

发现

数据

环境

代码

小结

延伸阅读

代码链接获取方法

你可能感兴趣的:(如何用 Python 和 BERT 做多标签（multi-label）文本分类？)