ronghuaiyang

使用半监督学习从研究到产品化的3个教训

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Varun Nair

编译：ronghuaiyang

导读

作者总结了自己在使用半监督学习进行研究和产品化的过程中踩过的一些坑，非常的有实际意义。

我从2019年6月开始读的一堆半监督式学习的论文中，最上面是我读过的第一篇论文：MixMatch —— 我不建议为了更好地回忆你读过的东西而在每一篇文章上画下划线。

如今，大多数深度学习算法的成功，在很大程度上是几十年研究、GPU和可用数据不断增长的的结果。但不是任何类型的数据 —— 而是那些丰富的、干净的、带有标签的数据。

像ImageNet, CIFAR10, SVHN等数据集，已经帮助研究人员在计算机视觉任务上取得显著进展，并且对我们自己的实验非常有用。然而，对于许多寻求从这一进步中获益的应用(如医学)来说，棘手的问题恰恰是数据必须是“丰富的、干净的、有标签的”这一事实。

半监督学习(SSL)，一个结合了监督和非监督学习的子领域，在过去几年中在深度学习研究社区中越来越受欢迎。很有可能，至少在短期内，SSL方法可能成为标签密集型监督学习和未来数据高效建模之间的桥梁。

在这篇文章中，我们将讨论在生产环境中什么时候应该考虑使用SSL方法，以及在Uizard上使用它们来改进物体检测模型所获得的经验教训。

我们希望通过展示SSL是如何工作的，以及什么时候不工作，通过分享我们从研究到生产的过程中学到的技巧，我们可以激励你在工作冒险用SSL试试，释放你的未标记数据的潜力。

简而言之，我们强调以下几点教训：

简单为王。在SSL中，从研究到生产的最成功的方法是那些最容易复制的方法。具体来说，我们将详细阐述“Self-Training with Noisy Student”对我们的作用。
使用启发式的伪标签优化可以是非常有效的。伪标记是SSL方法中一个流行的组成部分 —— 我们发现，使用简单的启发式方法来优化未标记数据中的伪标记可以提高不同大小的未标记数据集的性能。
半监督图像分类的提升很难转化为目标检测的提升。我们在SSL方面的大部分进展都是在图像分类性能方面进行的，并在目标检测方面进行类似的改进，但我们发现很难在实践中对它们进行适应。因此，在半监督目标检测领域需要进行更多的工作和研究。

什么是半监督学习（SSL）?

半监督学习和监督学习的区别

顾名思义，半监督学习(SSL)指的是一类介于监督学习和非监督学习之间的算法 —— 旨在同时使用标记数据和非标记数据对分布进行建模。

SSL的目标通常是比单独使用有标签的数据做得更好，能够建模目标分布，就好像我们也可以访问所有未标记数据的标签一样。

这样的算法并不是一个新想法，尽管在过去的18个月中，在深度半监督学习方面已经有了相当多的兴趣、进展和应用，我们将在下面讨论。

什么时候在产品中使用SSL是正确的？

如果你正在考虑使用SSL解决一个问题，那一定是因为你的数据集很大，并且有许多未标记的数据。你的数据集的一部分可能被标记，当然标记越多的数据越好 —— 但希望至少有和标记数据一样多的未标记数据，或者可能更多。

如果你可用的大多数数据都是带标签的，或者不带标签的数据集的分布与带标签的数据集明显不同，那么SSL现在可能并不适合你的应用。对于后一种情况，请查看域适应。

考虑到这一点，在实际应用中有两个主要设置适合去研究SSL方法：

你正在处理一个高价值的问题，对于这个问题，仅使用标记数据不足以产生足够的性能，并且还有很多倍的(10-100x +)的未标记数据可用和/或容易获得。

在这种情况下，我们要强调的是，得到具有生产价值的性能的可能性较低 —— 但是对于没有标记数据的任务，如果有一个数量级或更多的未标记数据，并且有足够的激励、时间和资源，那么尝试使用SSL是有意义的。

你正在处理的问题是，仅使用已标记的数据就足以产生足够的性能，但是你有一个未标记的样本集合，希望进一步提高性能。

在这种情况下，你可能已经有了一个做得很好的模型，或者几乎和你要求的一样好 —— 但是你想继续推动性能的提高，而不需要花费太多精力去标注新的数据。因此，可以将SSL视为改进建模的众多工具之一，例如获得标记更清晰的数据集、训练更大的模型，等等。对于性能关键型的应用，错误率相对降低5-10%以上是非常重要的，并且有未标记数据可用，SSL尤其重要。

生产环境中的半监督学习(SSL)模型的生命周期，在这种环境中，不断增长的用户群可以创建一个正向的反馈循环。

SSL方法的研究

这里有一些方法我们在下面的图像分类和目标检测中尝试过，但SSL还可以适用于其他领域如NLP以及音频/语音处理。

图像分类

MixMatch (Berthelot et al., 2019)
Unsupervised Data Augmentation (UDA) (Xie et al., 2019)
FixMatch (Sohn et al., 2020-A)

物体检测

CSD (Jeong et al., 2020)
STAC (Sohn et al., 2020-B)

任务无关

Noisy Student (Xie et al., 2019)

Lesson #1: 简单为王

在我们于2019年6月对半监督学习方法进行的最初文献综述中，关于MixMatch和UDA在SSL领域取得显著进展的报告非常吸引人，尤其是在标签数据极其有限的情况下。我们能够相对轻松地重现他们在CIFAR10和SVHN上的结果，这让我们相信他们有能力将这些性能上的收获在我们的数据集上进行迁移。

然而，经验上我们这样做并不是最优的，主要是因为 ——hyper-parameter调优。许多在论文中用于数据集的超参数的用在我们数据集上变得对性能很敏感。我们也注意到，我们的标签数据集在无标签数据上分布稍微有点不同，这个问题通常会导致SSL技术性能下降，这是在现实中使用SSL需要克服的一个挑战。截至2019年9月，对于我们来说，现有的最先进的SSL技术似乎还不够简单或灵活。

快进到2020年6月，两项新的SSL工作已经发布，它们专注于简单的实现 —— FixMatch和Self-Training with Noisy Student。

未标记图像如何在FixMatch中使用(Sohn et al.， 2020)。

FixMatch是其前身MixMatch的一个更简单但更有效的版本，我们成功地将他们的结果在CIFAR10, SVHN上复现了。这一次，我们在自己的图像分类数据集上也看到了很好的结果，性能对超参数的选择不那么敏感，而且可以调优的超参数也很少。

Self-Training with Noisy Student (from Xie et al., 2019)的图解

Noisy Student 训练包括一个迭代过程，在这个过程中，我们训练一个教师模型(可以访问标记数据的模型)，使用这个模型推断未标记数据的输出，然后在标记数据和伪标记数据上重新训练一个称为学生的新模型。然后我们可以重复这个循环，即所谓的self-training，通过这个学生模型在未标记集上推断新的伪标签。论文中展示了使用这个框架在300M未标记图像中进行了训练，并强调了添加各种类型的噪声（增强，dropout等）是成功的关键。

需要注意的是，Noisy Student方法是一个任务无关的框架，可以被广泛应用：图像分类，目标检测，情感分析，等等。**对我们来说，Noisy Student方法是我们尝试的所有技术中用于目标检测最成功的。**我们在后面会讨论为什么FixMatch的物体检测版本(STAC)和其他方法可能对我们无效，但是我们坚信，与其他方法相比，Noisy Student的简单性和灵活性是我们在产品模型中看到改进的原因。

为什么这么简单？现有的训练超参数和设置几乎没有改变。以下是整个管道所需要做的：

把我们现有的生产模型当作教师模型。
编写一些脚本，与教师模型一起推断和改进未标记数据上的伪标签(关于伪标签改进的更多信息，请参阅lesson #2)。
训练“学生”模型，增加噪音(增强等)。
按照图中显示的框架重复这个过程。

其他的一些想法和要点：

我们惊讶地发现，在使用Noisy Student方法时，未标记数据比标记数据少的情况下，我们的一些模型得到了改进。更多关于这个的内容，请参见lesson #2。一般来说，未标记数据越多越好。
我们发现，在没有进行增强，比如dropout、随机深度或软伪标签的情况下，使用普通的自我训练，我们的学生模型的表现得到了改善。一旦增加了这些，就有可能进一步提高我们的性能，就像在ImageNet上那样。、
使用较大的学生模型的结果是有好有差的，对我们来说，这意味着在我们的检测模型中使用从ResNet-50到ResNet-101的主干。

总的来说，在图像分类或目标检测方面，简单性是第一位的。FixMatch明显比MixMatch更容易适应我们的自定义图像分类数据集，而Noisy Student只需要对我们现有的物体检测管道进行很少的改变就可以看到改进的性能。

Lesson #2: 启发式伪标签优化可以非常有效果

伪标签，也被称为 self-training，是在SSL中出现的一个范式，早在20世纪60年代和70年代，因为它的简单而被坚持了下来。引入伪标签的深度SSL展示了使用有标签数据的时候，这个想法是如此的简单而强大。使用该模型在未标记数据上推断标签(现在叫伪标签)，然后用标签数据和伪标签数据再进行训练。许多现在的SSL技术都在使用某种形式的伪标签，包括FixMatch和使用Noisy Student的Self-Training。

然而，这些伪标签常常是有噪声的，需要某种形式的提纯才能使用。在FixMatch和Noisy Student中，这意味着对推断出的伪标签应用一个临界值(比如0.7或0.9)，只取那些softmax confidence得分高于临界值的预测。我们发现这对于获得高质量的伪标签是一个有用的启发式方法，也发现对伪标签应用与其他领域特定的启发式方法在Noisy Student中有显著的效果。

我们在讨论什么样的启发式？例如，你正在为一家房地产公司构建一个物体检测分类器，该模型需要为home中的不同物体提供边框。你注意到(教师)模型的预测通常是好的，然而，分类器倾向于对未标记的集合产生几个不正确的、高可信度的预测，其中一些梳妆台实际上是厨房岛。

这里有一些启发式的例子，我们可以选择优化这个标签：

如果厨房岛和床的预测出现在同一图像中，将厨房岛标签转换为梳妆台。
如果梳妆台和厨房岛的预测出现在同一幅图像中，把厨房岛标签转换为梳妆台。
如果厨房岛，床，和梳妆台的预测出现在同一图像，将厨房岛标签转换为梳妆台。

以上哪一种启发式最有意义？这将取决于你的数据集以及最常见的错误类型。如果模型在检测床方面做得很好，也许像第一个或第三个那样的启发式可能会有用，因为我们不希望床和厨房岛出现在同一幅图像中。

特别是在物体检测中，当物体的位置和大小在你的应用领域中遵循某些规则时，你可以定义类似这样的启发式方法来优化嘈杂的伪标签，并帮助你的学生模型学习到教师模型不能学到的更好的表示。

使用启发式伪标签改进，我们能够在Noisy Student模型中取得更好的表现，在某些情况下，未标记数据比标记数据少个数量级。我们还发现，这个结论听起来与Rosenberg等人，2005年发表的一篇论文的观察结果惊人地相似。

一个独立于检测器的训练数据选择度量方法大大优于基于检测器生成的检测置信度的选择度量方法。

这是所有数据和建模问题的解决方案吗？当然不是 —— 但它说明了启发式在深度(半监督)学习管道中仍然是一个有用的部分。同样，这里应用的启发式是特定于领域的，只有仔细研究你的数据和模型的偏差才能得到有用的伪标签改进。

Lesson #3: 使用半监督在图像分类上的进步很难迁移到物体检测中

我们在SSL研究中取得的大部分进展都是基于对图像分类性能的测量，希望能够轻松地对其他任务(如物体检测)进行类似的改进。然而，在我们尝试采用图像分类方法进行目标检测时，我们遇到了几个挑战 —— 这导致我们坚持使用Lesson #1中提到的最简单的半监督目标检测方法。

以下是其中的一些挑战：

Online vs. Offline 伪标签生成

在许多用于图像分类的SSL技术(FixMatch, UDA等)中，未标记数据的伪标签目标在训练期间或online更新/计算。在offline学习训练分为多个阶段。首先用标记样本训练模型，然后生成伪标签。然后用标记样本和伪标记样本训练一个新的模型。

FixMatch和UDA是SSL技术的例子，它们利用在线学习来达到一个阈值，只允许预测超过某个阈值的未标记样本来帮助训练 —— 在Noisy Student和STAC (FixMatch的一个对物体测变体)中，然而，伪标签是离线生成的。

虽然在线学习似乎是有利的 —— 允许在训练早期差的伪标签在以后的训练步骤中得到纠正 —— 它使得训练的计算成本更高，对于训练物体检测模型更是如此。为什么？两件事：数据增强和批处理大小。关于数据增强，让我们回顾一下在 lesson #1关于FixMatch的的图。

在FixMatch中没有标记的图像对损失函数的贡献

我们可以看到，每个未标记的样本在训练时都是“弱增强”和“强增强”，需要将两张增强的图像通过网络前向传播，计算损失。这样的数据增强是许多SSL方法的基础，虽然对于图像分类来说是可行的，但对于大图像(512x512+)上的目标检测任务，训练时的处理时间的增加显著降低了训练速度。

在batch size方面，许多文章(MixMatch, UDA, FixMatch, Noisy Student)和我们自己的实验也强调了没有标记的数据的batch size是标记的数据的几倍对SSL方法的成功是至关重要的。这种对目标检测任务的要求，加上内存中的大图像，以及对未标记batch size中的所有样本的必要扩充，造成了极大的计算负担。这两个挑战，数据增加和未标记数据的batch size，使得我们不能将比如FixMatch一对一的迁移到物体检测中。

在与STAC的作者的讨论中，他们还注意到，在半监督物体检测领域，在线学习带来的巨大资源开销。我们希望未来的工作能更深入地研究这个问题，并且希望在未来几年的成果能让研究人员更容易地了解这个问题。

管理长尾与类别均衡

SSL研究中的许多基准数据集，如CIFAR10、CIFAR100和STL-10使用类别平衡的标记的训练集。我们的数据集，像许多真实的数据集，是非常长尾的。类别平衡被认为是许多SSL方法的关键组成部分，在图像分类中，上采样和下采样技术是常见的做法。然而，在物体检测设置中，有效的类平衡技术并不是那么简单。

如果类平衡对SSL在实践中的成功至关重要，那么我们如何在半监督的物体检测中实现类平衡呢？未来解决这一问题的研究肯定会受到欢迎。

其他的一些Tips

迁移学习和自训练叠加

正如在Zoph et al., 2020中对COCO训练发现的那样，从COCO到我们的数据集执行转移学习，然后在Noisy Student中进行自训练，取得的结果比单独执行两个步骤中的任何一个都要好。应用于生产模型的任何迁移知识很可能也可以应用于SSL模型，带来同等或更多的好处。

适当的数据增强很重要

由于数据增强是现代SSL方法的主要组成部分，所以要确保这些增强对你的领域有意义。例如，如果可用的扩展集包括水平翻转，那么训练用于区分左箭头和右箭头的边框的分类器显然会受到影响。

此外，在STAC和Noisy Student中，他们观察到，在自训练中，对教师模型使用数据增强会导致较差的下游学生模型。

表6来自Xie et al., 2019。在这项消融研究中，他们表明，有增强的教师模型比没有增强的教师模型表现略差(在130M未标记图像上，分别为84.4%和85.1%)。

然而，我们发现，在我们的数据集上，使用数据增强的教师模型的Noisy Student和STAC的性能与不使用增强的教师模型相当或略好。虽然我们的结果可能是我们自己的数据集的一个特例，但我们相信这显示了广泛实验的重要性，并对你在论文中读到的观点的所谓成功和失败保持好奇。论文中显示的实证结果是一个很好的开始，但成功肯定是不能保证的，在SSL中仍有许多从理论角度尚不清楚的理解。

临别赠言

在过去的一年里，半监督学习(SSL)是我们工作的一个令人兴奋的领域，它在我们的生产模型中的最终结果向我们(也希望你们所有人)表明，在某些情况下可以而且应该考虑SSL。

特别是在Noisy Student中进行自训练，对于改进我们的目标检测模型是有效的。以下是我们在研究和生产深层SSL技术时所学到的3个主要教训：

简单为王
使用启发式的伪标签优化是非常有效的
半监督图像分类的进展很难转化为目标检测

所以今天的深度学习工程仍然是通过对潜在应用的了解来尝试和纠错 —— 我们希望你在半监督学习的工作中能够获得更多的经验。

—END—

英文原文：https://medium.com/@nairvarun18/from-research-to-production-with-deep-semi-supervised-learning-7caaedc39093

请长按或扫描二维码关注本公众号

喜欢的话，请给我个在看吧！

Python 数据分析实践：车辆行驶数据处理心得 lzzy-lt-0415 python 数据分析开发语言
在数据驱动决策的大趋势下，Python凭借其丰富的数据分析库，成为处理各类数据的得力工具。近期我围绕车辆行驶数据展开分析，过程中收获诸多实战经验，在此分享用Python进行数据处理与分析的心得，也结合代码讲讲实际运用思路。一、数据导入与初步探索：开启分析第一步importpandasaspd#导入数据df=pd.read_excel(r'../../数据层/数据集合/车辆行驶记录表单2.xlsx'
【PyTorch】教程：torch.nn.GELU 老周有AI~算法定制 PyTorch pytorch 深度学习 python
torch.nn.GELU原型CLASStorch.nn.GELU(approximate='none')参数approximate(str,optional)–gelu近似算法用none或者tanh，默认为none;定义高斯误差线性单元函数GELU(x)=x∗ϕ(x)\text{GELU}(x)=x*\phi(x)GELU(x)=x∗ϕ(x)其中ϕ(x)\phi(x)ϕ(x)为高斯分布的累积分布
数据结构之栈实验 lannnn_ 学习记录数据结构 c语言栈
栈实验实验目的实验环境实验要求实验内容源代码运行结果实验目的掌握栈这种数据结构特性及其主要存储结构，并能在现实生活中灵活运用。实验环境CodeBlocks实验要求1.熟悉c语言的语法知识；2.掌握栈的顺序存储结构—顺序栈的定义、构造、获得栈顶元素、入栈、出栈等基本操作；实验内容完成栈的定义、构造、获得栈顶元素、进栈、出栈等函数的编写。要求在主函数中实现对以上操作的调用，编写一个算法判断给定的字符向
Pillow 安装使用教程小奇JAVA面试安装使用教程 pillow microsoft 深度学习
一、Pillow简介Pillow是Python图像处理库PIL（PythonImagingLibrary）的友好分支，是图像处理的事实标准。它支持打开、编辑、转换、保存多种图像格式，常用于图像批量处理、验证码识别、缩略图生成等应用场景。二、安装Pillow2.1使用pip安装（推荐）pipinstallPillow2.2验证安装importPILprint(PIL.__version__)若无报错
python炫酷烟花表白源代码-python炫酷烟花表白源代码 weixin_37988176
天天敲代码的朋友，有没有想过代码也可以变得很酷炫又浪漫？今天就教大家用Python模拟出绽放的烟花，工作之余也可以随时让程序为自己放一场烟花秀。python炫酷烟花表白源代码这个有趣的小项目并不复杂，只需一点可视化技巧，100余行Python代码和程序库Tkinter，最后我们就能达到下面这个效果：学完本教程后，你也能做出这样的烟花秀。整体概念梳理我们的整个理念比较简单。如上图示，我们这里通过让画
Python实例题：基于 Flask 的在线聊天系统
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于Flask的在线聊天系统要求：使用Flask框架构建一个实时在线聊天系统，支持以下功能：用户注册、登录和个人资料管理一对一实时聊天功能群聊功能消息通知和未读消息提示在线用户状态显示使用Flask-SocketIO实现实时通信。使用SQLite数据库存储用户、聊天记录等信息。添加美观的前端界面，支持响应式设计。解题思路：使
pickle.dump() ddfa1234 java 开发语言
pickle.dump()pickle.dump()是Python标准库中的一个函数，用于将Python对象序列化并保存到文件中。函数签名：pickle.dump(obj,file,protocol=None,*,fix_imports=True)参数说明：obj：要序列化的Python对象。file：要保存到的文件对象。可以是一个文件名的字符串，也可以是一个已经打开的文件对象。protocol：
python炫酷烟花表白源代码,html代码烟花特效python liuyifan0 pygame python 开发语言
大家好，小编来为大家解答以下问题，python绘制烟花特定爆炸效果，python炫酷烟花表白源代码，今天让我们一起来看看吧！代码实现：importpygameimportrandomimportmath#屏幕宽度SCREEN_WIDTH=1350SCREEN_HEIGHT=800#烟花颜色COLORS=[(255,0,0),(0,255,0),(0,0,255),(255,255,0),(255,
深入解析Spring Boot与Kafka集成：构建高性能消息驱动应用 Uranus^ Java Spring Boot Kafka 消息队列分布式系统
深入解析SpringBoot与Kafka集成：构建高性能消息驱动应用引言在现代分布式系统中，消息队列是实现异步通信和解耦的关键组件之一。ApacheKafka作为一种高性能、分布式的消息队列系统，被广泛应用于大数据处理、实时流处理以及事件驱动的架构中。本文将深入探讨如何在SpringBoot应用中集成Kafka，构建高性能的消息驱动应用。Kafka简介ApacheKafka是一个分布式流处理平台，
Flask 安装使用教程小奇JAVA面试安装使用教程 flask python 后端
一、Flask简介Flask是一个使用Python编写的轻量级Web应用框架，核心设计理念是简单易用、模块化扩展性强。Flask提供了路由、模板、请求响应等基本功能，适合构建中小型网站、RESTfulAPI、微服务架构等。二、环境准备2.1安装Python确保已安装Python3.7或以上版本：python--version如未安装，可前往：https://www.python.org/downl
Python炫酷烟花 Want595 python pygame 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
第一章Pandas快速入门 Hajo_ 深入浅出Pandas学习代码 python pandas
《深入浅出Pandas》第一章代码数据来源：https://www.gairuo.com/file/data/dataset/team.xlsximportnumpyasnpimportpandasaspdfile_path='E:\\Data_python\\anconda_code\\Dive_into_Pandas\\data_files\\'team_path='team.xlsx'tea
Python实例题：基于 Python 的简单文件管理器狐凄实例 python 开发语言前端
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于Python的简单文件管理器要求：使用Python构建一个简单的文件管理器，支持以下功能：浏览文件和目录创建、删除、重命名文件和目录复制、移动文件和目录查看文件属性和内容搜索文件和目录使用tkinter构建图形用户界面。支持基本的文件操作权限检查。解题思路：使用os和shutil模块进行文件操作。通过tkinter构建用
新手必看：入行大模型前一定要知道的几件事！和老莫一起学AI 人工智能 java 机器学习大模型算法程序员转行
大模型怎么转？适合哪些人？哪些方向对新手友好？又有哪些坑你必须避开？文章有点长，但全是我这几年观察下来最真实的经验，如果你真的想搞懂大模型、入场不踩坑，建议认真读完，或先收藏慢慢看。一、大模型≠ChatGPT，先搞清“全景图”再出发说句真话，很多人对“大模型”的第一印象就是——ChatGPT。但这只是它的"最上层"，底下的基建、平台、算法、数据处理、推理部署……才是撑起整个技术栈的骨架。入行大模型
php字符串匹配算法,字符串查找算法及原理
面试题:判断字符串是否在另一个字符串中存在？面试时发现好多人回答不好,所以就梳理了一下已知的方法,此文较长,需要耐心的看下去。从实现和算法原理两方面解此问题，其中有用PHP原生方法实现也有一些业界大牛创造的算法。实现方法一:语言特性-内置函数/*strpos示例*///testecho'match:',strpos('xasfsdfbk','xasfsdfbk')!==false?'true':'
【小米App】Blocky语言编程入门指南 Botiway 移动APP windows kotlin android studio linux python
Blocky语言编程入门指南Blocky是一种基于可视化积木块拼接的编程语言，特别适合编程初学者和儿童学习编程概念。以下是Blocky语言的入门指南：什么是Blocky语言Blocky是由Google开发的基于Web的可视化编程工具，它通过将不同功能的代码块像拼图一样连接起来进行编程，无需记忆语法规则。开始使用Blocky访问Blocky官方网站(https://blockly-demo.apps
字符串的两种模式匹配算法--暴力法与KMP算法
对于字符串而言，最常见的基本操作莫过于查找某一字符串（模式串）在另一字符串（主串）中的位置，这一操作过程叫做字符串的模式匹配，常见的模式匹配算法有朴素模式匹配算法和KMP模式匹配算法，下面结合代码对这两种模式匹配算法的思想做个总结。参考博客：很详尽的KMP算法（厉害）1.朴素模式匹配算法（暴力法）朴素模式匹配算法的思想就是，把主串中的每一个字符作为子串开头，与要匹配的字符串进行逐字符匹配，直到所有
DTW 动态时间规整：时间序列的柔性桥梁
在时间的长河中，数据如浪花般不断涌现，而时间序列数据更是其中璀璨的存在。当我们试图比较两段时间序列时，常常会遇到一个棘手的问题：就像两位舞者，他们演绎着相同的舞蹈，却有着不同的节奏与速度，直接对比难以判断二者的相似度。而DTW（DynamicTimeWarping，动态时间规整）算法，就像一座神奇的柔性桥梁，能够跨越时间节奏的差异，精准度量时间序列间的相似性，在众多领域发挥着不可或缺的作用。一、D
串---暴力字符串匹配算法实现 KYGALYX 数据结构算法数据结构
暴力字符串匹配算法详解暴力字符串匹配算法（BruteForceStringMatchingAlgorithm）是一种简单的字符串匹配算法，它通过逐个比较主串中的字符与模式串中的字符来进行匹配。虽然这种方法简单直观，但在最坏情况下可能需要多次比较，导致效率较低。本文档将详细介绍暴力字符串匹配算法的原理、步骤以及如何在C语言中实现。1.暴力字符串匹配算法原理1.1主串与模式串主串：待搜索的字符串。模式
c++ python 共享内存 qianbo_insist 音视频和c++java 物联网 c++c++python 开发语言
一、目的是为了c++来读取并解码传递给python，Python做测试非常方便，c++和python之间必须定好协议，整体使用c++来解码，共享内存传递给python二、主类主类，串联decoder，注意decoder并没有直接在显存里面穿透，是解码以后传递给内存，从内存传给python#pragmaonce#define__STDC_CONSTANT_MACROS#defineSDL_MAIN_
Python 数据分析与可视化 Day 14 - 建模复盘 + 多模型评估对比（逻辑回归 vs 决策树）蓝婷儿 python python 数据分析逻辑回归
✅今日目标回顾整个本周数据分析&建模流程学会训练第二种模型：决策树（DecisionTree）掌握多模型对比评估的方法与实践输出综合对比报告：准确率、精确率、召回率、F1等指标为后续模型调优与扩展打下基础一、本周流程快速回顾步骤内容第1天高级数据操作（索引、透视、变形）第2天缺失值和异常值处理第3天多表合并与连接第4天特征工程（编码、归一化、时间）第5天数据集拆分（训练集/测试集）第6天逻辑回归模
Django5.1（91）—— 如何删除一个 Django 应用小天的铁蛋儿 django Python django python 后端
如何删除一个Django应用Django提供了将一组功能组织成名为应用程序的Python包的能力。当需求发生变化时，应用程序可能会变得过时或不再需要。以下步骤将帮助你安全地删除一个应用程序。删除所有与该应用程序相关的引用（导入、外键等）。从相应的models.py文件中删除所有模型。通过运行makemigrations来创建相关的迁移。这一步会生成一个迁移，用于删除已删除模型的表，以及与这些模型相
【python实用小脚本-125】基于 Python 的 Gmail 邮件发送工具：实现高效邮件自动化 Kyln.Wu Python python 自动化网络
引言在现代办公和开发环境中，邮件通信是一种重要的沟通方式。自动化发送邮件可以大大提高工作效率，例如发送通知、报告或文件。本文将介绍一个基于Python的Gmail邮件发送工具，它能够通过Gmail的SMTP服务器发送邮件，并支持附件功能。该工具主要利用了Python的smtplib库和email库，结合了邮件构建和网络通信技术，为用户提供了一个简单易用的邮件发送解决方案。总体功能概述Gmail邮件
Python之聚合函数 _AndyLau 手把手学python python
Python聚合函数文章目录Python聚合函数聚合函数使用多个聚合函数结合`annotate`和`values`进行分组聚合注意事项F表达式和Q表达式F表达式Q表达式注意事项视图HTML中的表单概述Django中表单概述ModelForm关键点使用示例创建ModelForm在视图中使用ModelForm模板总结Cookie和SessionDjango中的Cookie操作Django中的Sessi
Python报错信息归类以及处理
ʕᵔᴥᵔʔPython的错误和异常可以分为多个类别，了解这些类别有助于更好地调试和处理错误。以下是Python中常见报错信息的归类和分析。1.语法错误(SyntaxError)在代码执行前被解析器捕获的错误，通常是由于代码不符合Python语法规则。常见子类：IndentationError：缩进错误TabError：Tab和空格混用示例：#缺少冒号ifTrueprint("Hello")#Syn
python 获取mac地址 Take_a_chestnut python 小工具 python 开发语言
python获取mac地址方法一：使用socket库使用了socket库中的ioctl函数和fcntl模块来获取MAC地址importsocketimportfcntlimportstructdefget_mac_address():interface='eth0'#替换为你的网络接口名称，例如eth0或en0sock=socket.socket(socket.AF_INET,socket.SOC
搜索领域SEO进阶：内容优化与用户体验提升搜索引擎技术 ux ai
搜索领域SEO进阶：从关键词堆砌到用户价值——内容优化与体验升级的实战指南关键词SEO进阶、内容质量、用户体验、E-E-A-T、用户行为信号、结构化数据、页面速度优化摘要当“SEO=关键词堆砌”的时代成为历史，当搜索引擎算法从“识别文字”进化到“理解意图”，SEO从业者正面临一场从“技术投机”到“用户价值”的范式转移。本文将深度拆解搜索领域的进阶策略：从内容优化的核心逻辑（E-E-A-T框架、主题
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
LRU缓存算法在搜索引擎中的应用数据结构与算法学习缓存算法搜索引擎 ai
LRU缓存算法在搜索引擎中的应用关键词：LRU算法、缓存淘汰、搜索引擎、哈希表、双向链表、性能优化、访问频率摘要：本文深入探讨了LRU(最近最少使用)缓存算法在搜索引擎中的关键应用。我们将从基本概念出发，通过生活化的比喻解释LRU的工作原理，分析其在搜索引擎架构中的具体实现方式，并通过Python代码示例展示如何构建一个高效的LRU缓存系统。文章还将讨论LRU算法的数学建模、实际应用场景以及未来发
掌握大数据领域数据湖的部署要点
掌握大数据领域数据湖的部署要点关键词：数据湖,大数据部署,数据治理,存储架构,元数据管理,数据质量,湖仓一体摘要：在数据爆炸的时代，企业面临着"数据多却用不好"的困境——结构化数据藏在数据库里，非结构化数据堆在服务器上，半结构化数据散落在日志文件中。数据湖就像一个"智能中央仓库"，能统一存储所有类型的数据，并通过灵活的管理让数据"活起来"。本文将用"图书馆管理员建仓库"的故事，从概念理解、架构设计
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo