PaperWeekly

深度思考 | 从BERT看大规模数据的无监督利用

作者丨金立达，吴承霖

机构丨笨鸟社交 AI Lab

学校丨英国帝国理工学院

研究方向丨自然语言处理、知识图谱

在击败 11 个 NLP 任务的 State-of-the-art 结果之后，BERT 成为了 NLP 界新的里程碑，同时打开了新的思路：在未标注的数据上深入挖掘，可以极大地改善各种任务的效果。数据标注是昂贵的，而大量的未标注数据却很容易获得。

在分类中，标签表示训练示例所属的类; 在回归中，标签是对应于该示例的实值响应。大多数成功的技术，例如深度学习，需要为大型训练数据集提供 ground truth 标签；然而，在许多任务中，由于数据标注过程的高成本，很难获得强有力的监督信息。因此，希望机器学习技术能够在弱监督下工作。

这不可避免地导致我们重新考虑弱监督学习的发展方向。弱监督学习的主要目标是仅使用有限量的标注数据，和大量的未标注数据，来提升各项任务的效果。

弱监督最大的难点在于如何用少量的标注数据，和为标注数据来有效地捕捉数据的流形。目前的一些解决方案在面对复杂的数据时，比较难准确地还原数据的流形。但是 BERT 通过大量的预训练，在这方面有着先天的优势。

因而，BERT 凭借对数据分布的捕获是否足以超越传统半监督的效果？又或者，BERT 能否有与半监督方法有效地结合，从而结合两者优势？

弱监督

通常，有三种类型的弱监督。第一种是不完全监督，即只有一个（通常很小的）训练数据子集用标签给出，而其他数据保持未标注。这种情况发生在各种任务中。例如，在图像分类中，ground truth 标签由人类注释者给出；很容易从互联网上获取大量图像，而由于人工成本，只能注释一小部分图像。

第二种类型是不精确监督，即仅给出粗粒度标签。再次考虑图像分类任务。期望使图像中的每个对象都注释；但是，通常我们只有图像级标签而不是对象级标签。

第三种类型是不准确监督，即给定的标签并不总是真实的。出现这种情况，例如当图像注释器粗心或疲倦时，或者某些图像难以分类。

对于不完全监督，在这种情况下，我们只给予少量的训练数据，并且很难根据这样的小注释来训练良好的学习然而，好的一面是我们有足够的未标注数据。这种情况在实际应用中经常发生，因为注释的成本总是很高。

通过使用弱监督方法，我们尝试以最有效的方式利用这些未标注的数据。有两种主要方法可以解决这个问题，即主动学习和半监督学习。两者的明确区别在于前者需要额外的人为输入，而后者不需要人为干预。

主动学习（Active Learning）

主动学习假设可以向人类从查询未标注数据的 ground truth。目标是最小化查询的数量，从而最大限度地减少人工标签的工作量。换句话说，此方法的输出是：从所有未标注的数据中，找到最有效的数据点，最值得标注的数据点然后询问 ground truth。

例如，可能有一个距离决策边界很远的数据点，具有很高的正类可信度，标注这一点不会提供太多信息或改进分类模型。但是，如果非常接近分离阈值的最小置信点被重新标注，则这将为模型提供最多的信息增益。

更具体地说，有两种广泛使用的数据点选择标准，即信息性和代表性。信息性衡量未标注实例有助于减少统计模型的不确定性，而代表性衡量实例有助于表示输入模式结构的程度。

关于信息性，有两种主要方法，即不确定性抽样（Uncertainty sampling）和投票机制（query-by-committee）。前者培训单个分类器，然后查询分类器 confidence 最低的未标注数据。后者生成多个分类器，然后查询分类器最不相同的未标注数据。

关于代表性，我们的目标是通常通过聚类方法来利用未标注数据的聚类结构。

半监督学习（Semi-Supervised Learning）

另一方面，半监督学习则试图在不询问人类专家的情况下利用未标注的数据。起初这可能看起来反直觉，因为未标注的数据不能像标注数据一样，直接体现额外的信息。

然而，未标注的数据点却存在隐含的信息，例如，数据分布。新数据集的不断增加以及获得标签信息的困难使得半监督学习成为现代数据分析中具有重要实际意义的问题之一。

半监督学习的最主要假设：数据分布中有可以挖掘的的信息。

图 1 提供了直观的解释。如果我们必须根据唯一的正负点进行预测，我们可以做的只是随机猜测，因为测试数据点正好位于两个标注数据点之间的中间位置；如果我们被允许观察一些未标注的数据点，如图中的灰色数据点，我们可以高可信度地预测测试数据点为正数。虽然未标注的数据点没有明确地具有标签信息，但它们隐含地传达了一些有助于预测建模的数据分布信息。

▲ Figure 1 为标注数据分布对分类的帮助 [12]

所有半监督算法都有两个主要假设，即流形假设和聚类假设。前者假设数据位于流形上，因此，附近的实例具有类似的预测。而后者假设数据具有固有的集群结构，因此落入同一集群的实例具有相同的类标签。

简而言之，类似的数据点应该具有相似的输出，我们假设存在数据间点间关系，这些关系可以通过未标注的数据显示出来。

Self-Training

下面我们详细看一下各类的半监督方法。说到半监督学习，我们不得不提到自我训练方案（Self-training）。

Self-training 通过自己的预测结果中信心最高的样本来进行 Bootstrapping。也就是说，原始分类器首先对测试集进行一轮预测，并将最自信的预测添加到训练集中。选择最自信的预测通常基于预定义的阈值，然后使用新的扩大训练集作为输入重复训练过程，并将整个过程迭代到某个终止条件。

我们可以参考图 2 来对比 Self-training 和常规的 Expectation Maximisation (EM) 方法。

▲ Figure 2 Self-training 流程 [12]

该方法是作为现有训练流程的 Wrapper 实现的。然而，这种方法的缺点是它是启发式的，这意味着它们可能会加剧错误。例如，第一个模型错误地预测样本具有高可信度，可能是由于标签噪声等，这在现实世界的任务中非常常见。这将影响所有后续迭代，并且不会有自校正机制，因此错误将无论如何传播。

除了自我训练，半监督学习的许多其他版本和类别得到发展，一些有着非常悠久的历史。还有四种其他主要类别的半监督学习方法，即生成方法（Generative Methods），基于图的方法（Graph-based Methods），低密度分离方法（Low-density Separation）和基于分歧的方法（Disagreement-based Methods）。我们将选取其中几种方法进行深入研究，以及不同方法的发展。

下面可以看到几种不同方法的发展历程：

▲ Figure 3 生成方法的发展历程

▲ Figure 4 图方法的发展历程

▲ Figure 5 Low-density Separation 的发展历程

▲ Figure 6 Disagreement Methods 的发展历程

▲ Figure 7 综合方法的发展历程

Generative Methods

生成方法假设标注和未标注数据都是从相同的固有模型生成的。因此，未标注实例的标签可以被视为模型参数的缺失值并且通过诸如期望最大化（Expectation-Maximisation）算法的方法来估计。

Mixture of Experts

早在 1996 年，就已经在半监督学习领域进行了研究。学习基于总数据可能性的最大化，即基于标注和未标注数据子集。两种不同的EM学习算法，不同之处在于应用于未标注数据的EM形式。基于特征和标签的联合概率模型的分类器是“专家的混合”结构，其等同于径向基函数（RBF）分类器，但是与 RBF 不同，其适合于基于可能性的训练。

Hybrid Discriminative/Generative

现有的半监督学习方法可分为生成模型或判别模型。而这个方法侧重于概率半监督分类器设计，并提出了一种利用生成和判别方法的混合方法。在原有的生成模型（标注样本上训练得到）新引入偏差校正模型。基于最大熵原理，结合生成和偏差校正模型构建混合模型。该方法结合了判别和生成方法的优点。

Graph Based Methods

在图 8 中，我么可以一眼看出问号代表的样本，有很大的可能性为正样本。这充分体现出未标注数据的分布对于分类效果提升的帮助。

▲ Figure 8 数据分布对分类的影响 [5]

我们可以把分类任务定义为图结构，构建连接相似数据点的图，隐藏/观察到的标签为图节点上的随机变量（图便成为 MRF）。类似的数据点具有相似的标签，信息从标注的数据点“传播”。如图 9 所示：

▲ Figure 9 根据相似度建立图 [7]

各个样本为图的节点，链接相似的样本。目标则是最小化整体能量，能量的定义如下图所示：

给出的信息是 n×n 相似度矩阵。应该已经有一些方法来确定所有样本之间的相似性 - 并且已经在这个阶段给出。有许多不同的方法可以确定相似性，每种方法都有自己的优点和缺点。

从图 10 我们可以形象的看出优化能量的过程，红色边为高能量，最终目的则是要减少高能量的边。

▲ Figure 10 不同状态的能量 [7]

过程可以定义为离散马尔可夫随机场（Discrete Markov Random Fields）如图 11:

▲ Figure 11 离散马尔科夫随机场 [7]

Learning using Graph Mincuts

图方法中比较早的研究，此研究相对于较早方法关键的突破在于可以在指数复杂度优化问题上实现多项式运算时间。这里用的相似度为 Nearest Neighbour（NN），并优化最近邻的一致性。潜在的随机场为我们的方法提供了一个连贯的概率语义，但是本此方法仅使用场的均值，其特征在于谐波函数和谱图理论。

半监督学习问题的关键是先验假设的一致性，这意味着：（1）附近的点可能具有相同的标签; （2）同一结构上的点（通常称为簇或歧管）可能具有相同的标签。值得注意的是第一点是 Local，而第二点是 Global。传统监督学习算法，例如 k-NN，通常仅取决于局部一致性的第一假设。

预训练预训练与多任务学习

通过以上对半监督学习中不同方法的分析，我们可以看到，半监督的核心问题是数据流形构成不准确，在样本数量少的时候更是如此。如果我们可以准确地定义数据的分布，我们更有可能对未出现过的数据做出更好的预测。

BERT 通过大量的预训练，空间相对稳定，可以把流形更加清楚地构造出来。在半监督任务中可以加入 BERT 提供的流形先验，做整体的约束。我们可以用下图来直观地表示效果：

▲ Figure 12 BERT 理论上对数据流形的增强效果 [14]

近日微软发布的 MT-DNN，在 GLUE 的 11 项 NLP 任务中有 9 项超越了 BERT！MT-DNN 在 BERT 预训练的基础上，加入了多任务学习（Multi-task Learning）的方法，不像 BERT 只采用了未标注数据来做预训练，MT-DNN 还利用了其他相关任务的监督数据，与 BERT 预训练进行互补，并且减轻对特定任务的过拟合。

实验

为了对比 BERT 在半监督中的效果，我们做了一些实验来对比：传统的监督 Naïve Bayes 分类器，半监督 Naïve Bayes 分类器，BERT 和半监督 BERT。

这里用到的半监督方法是 Self-training/Label Propagation。我们使用相同的数据集 – 20 Newsgroups Dataset，并使用相同数量的训练和测试集 1,200 和 10,000。实验结果如图 13 所示：

▲ Figure 13 20 Newsgroup 分类结果

可以看到加入了 BERT 之后效果非常明显，BERT-base 已经在原有的半监督方法的基础上面提升了接近 10%，说明 BERT 本身可以更加好地捕获数据流形。此外，加入了半监督方法的 BERT 在原有的基础上有更好的效果，半监督跟预训练的方法还有结合互补的潜力。

总结

在深入了解弱监管的历史和发展之后，我们可以看到这一研究领域的局限性和改进潜力。数据标签成本总是很昂贵，因为需要领域专业知识并且过程非常耗时，尤其是在 NLP 中，文本理解因人而异。但是，我们周围存在大量（几乎无限量）未标注的数据，并且可以很容易地提取。

因此，我们始终将持续利用这种丰富资源视为最终目标，并试图改善目前的监督学习表现。从 ULMFiT 等语言模型到最近的 BERT，迁移学习是另一种利用未标注数据的方法。通过捕获语言的结构，本质上是另一种标签形式。在这里，我们建议未来发展的另一个方向 - 将迁移学习与半监督学习相结合，通过利用未标注的数据进一步提高效果。

参考文献

[1] Blum, A. and Chawla, S. (2001). Learning from Labeled and Unlabeled Data using Graph Mincuts.

[2] Chapelle, O. and Zien, A. (2005). Semi-Supervised Classiﬂcation by Low Density Separation.

[3] Fujino, A., Ueda, N. and Saito, K. (2006). A Hybrid Generative/Discriminative Classifier Design for Semi-supervised Learing. Transactions of the Japanese Society for Artificial Intelligence, 21, pp.301-309.

[4] Gui, J., Hu, R., Zhao, Z. and Jia, W. (2013). Semi-supervised learning with local and global consistency. International Journal of Computer Mathematics, 91(11), pp.2389-2402.

[5] Jo, H. (2019). ∆-training: Simple Semi-Supervised Text Classiﬁcation using Pretrained Word Embeddings.

[6] Kipf, T. (2017). Semi-Supervised Classification with Graph Convolutional Networks.

[7] Li, Q. (2018). Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning.

[8] Liu, X., He, P., Chen, W. and Gao, J. (2019). Multi-Task Deep Neural Networks for Natural Language Understanding.

[9] Miyato, T., Maeda, S., Ishii, S. and Koyama, M. (2018). Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.1-1.

[10] NIGAM, K. (2001). Text Classiﬁcation from Labeled and Unlabeled Documents using EM.

[11] Triguero, I., García, S. and Herrera, F. (2013). Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study. Knowledge and Information Systems, 42(2), pp.245-284.

[12] Zhou, Z. (2017). A brief introduction to weakly supervised learning. National Science Review, 5(1), pp.44-53.

[13] Zhu, X. (2003). Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions.

[14] Zhuanlan.zhihu.com. (2019). [online] Available at: https://zhuanlan.zhihu.com/p/23340343 [Accessed 18 Feb. 2019].

点击以下标题查看更多往期内容：

Airbnb实时搜索排序中的Embedding技巧
图神经网络综述：模型与应用
近期值得读的10篇GAN进展论文
F-Principle：初探理解深度学习不能做什么
自然语言处理中的语言模型预训练方法
两行代码玩转Google BERT句向量词向量
AI Challenger 2018 机器翻译参赛总结
Google BERT应用之红楼梦对话人物提取
深度长文：NLP的巨人肩膀（上）
NLP的巨人肩膀（下）：从CoVe到BERT

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

? 投稿邮箱：

• 投稿邮箱：[email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 获取最新论文推荐

贪心算法（GREEDY ALGORITHM）证明实践 m0_72431373 贪心算法算法 leetcode
基础概念贪心算法Formal的解释这里就不介绍了，有兴趣的直接去wikipedia上理解。简单地来说，贪心算法就是在某种规律下不断选取局部最优解，从而达到全局最优。《挑战程序设计竞赛》中有一个很直观的解释：一直向前！证明方法既然贪心算法是利用规律选取局部最优解，那么我们选取规律所得出的全局解就不一定是全局最优解。因此，我们需要证明，我们所选这个规律是可以得出一个全局最优解的。注意这里所谓的可以得出
【linux kernel】devtmpfs文件系统分析 iriczhao 小生聊【linux kernel】linux linux 内核文件系统 devtmpfs c
devtmpfs文件系统分析文章目录devtmpfs文件系统分析一、开篇二、devtmpfs简介三、devtmpfs内核源码分析（2-1）devtmpfs初始化（2-2）devtmpfs_init的调用一、开篇本篇文章主要从linux内核源码的角度分析devtmpfs文件系统。本篇作为分析过程的记录文章，以加深对devtmpfs文件系统的理解！（注）本篇文章所有源码出自linux内核版本：4.19
ubuntu18.04 配置 mid360并测试fast_lio hero_heart 电脑
1.在买到Mid360之后，我们可以看到mid360延伸出来了三组线。第一组线是电源线，包含了红色线正极，和黑色线负极。一般可以用来接9-27v的电源，推荐接12v的电源转换器，或者接14.4v的电源转换器。第二组线是信号线，共5根线，包含了2根pps线，秒脉冲；包含了2根GPS信号输入和GPS信号输出线，和一根地线。第三组线是数据线，是一个网线，直接连接笔记本就可以了2.IP配置2.1先把mid
动手实践OpenHands系列学习笔记17：构建自定义OpenHands应用
笔记17：构建自定义OpenHands应用一、引言OpenHands作为可扩展的AI驱动软件开发代理平台，不仅提供了丰富的内置功能，还允许开发者构建自定义应用和扩展。通过基于OpenHands的核心能力，开发者可以创建针对特定领域或工作流的专用AI代理应用。本笔记将探讨OpenHands的可扩展架构，分析自定义应用的设计模式，并通过实践构建一个专门的代码重构助手应用。二、OpenHands扩展性架
动手实践OpenHands系列学习笔记15：无头模式架构 JeffWoodNo.1 笔记架构
笔记15：无头模式架构一、引言无头模式(HeadlessMode)是现代软件系统中的重要架构模式，允许应用程序在没有图形界面的情况下运行，特别适用于自动化场景、CI/CD流水线和系统集成。OpenHands作为先进的AI驱动开发代理平台，提供了强大的无头模式支持。本笔记将探讨无头架构设计原则，分析OpenHands的无头模式实现，并通过实践构建一个使用无头模式API的自动化工作流。二、无头架构设计
动手实践OpenHands系列学习笔记8：后端服务开发 JeffWoodNo.1 笔记
笔记8：后端服务开发一、引言后端服务是AI代理系统的技术基础，负责处理业务逻辑、状态管理和外部集成。本笔记将探讨API设计与服务架构理论，分析OpenHands的后端设计特点，并通过实践构建一个模拟OpenHands核心功能的后端服务模块。二、API设计与服务架构理论2.1API设计原则RESTful设计:资源化URL设计、HTTP方法语义GraphQL:声明式数据查询、减少请求次数API版本控制
动手实践OpenHands系列学习笔记9：容器安全加固 JeffWoodNo.1 笔记安全
笔记9：容器安全加固一、引言容器技术虽然提供了环境隔离，但仍存在潜在的安全风险。本笔记将探讨容器安全的基本原则，分析OpenHands中的安全考量，并实现一套容器安全加固方案，确保在保持功能性的同时提升系统安全性。二、容器安全基础理论2.1容器安全风险分析逃逸风险:容器突破隔离边界访问宿主机特权提升:获取比预期更高的系统权限资源耗尽:DoS攻击导致系统资源枯竭镜像安全:镜像中潜在的漏洞和恶意代码供
动手实践OpenHands系列学习笔记3：LLM集成基础 JeffWoodNo.1 笔记人工智能
笔记3：LLM集成基础一、引言大型语言模型(LLM)是OpenHands代理系统的核心驱动力。本笔记将深入探讨LLMAPI调用的基本原理，以及如何在实践中实现与Claude等先进模型的基础连接模块，为构建AI代理系统奠定基础。二、LLMAPI调用基础知识2.1LLMAPI基本概念API密钥认证:访问LLM服务的身份凭证提示工程:构造有效请求以获取预期响应推理参数:控制模型输出的各种参数流式响应:增
触发器设计美国VPS：优化数据库性能的关键策略 cpsvps oracle 数据库
在当今数字化时代，美国VPS（虚拟专用服务器）因其高性能和稳定性成为众多企业和开发者的首选。本文将深入探讨触发器设计在美国VPS中的应用，分析其优势、实现方法以及最佳实践，帮助您充分利用VPS资源，提升系统效率和响应速度。触发器设计美国VPS：优化数据库性能的关键策略美国VPS与触发器设计的完美结合美国VPS作为云计算领域的重要基础设施，为触发器设计提供了理想的运行环境。触发器（数据库中的自动执行
在Ubuntu上使用Certbot申请Let’s Encrypt SSL证书
1引言要使用HTTPS就必须得有SSL证书。理论上，证书是可以通过像OpenSSL这样得工具生成的。不过这种证书只能自己测试用，浏览器上面是不认的，会提示用户不安全。也就是说，浏览器只接受一些特定的证书颁发机构（CA）发布的证书。正规的商业应用上，这些证书是需要像这些机构购买的。不过好在还是有像Let’sEncrypt这样开放的证书颁发机构，可以免费向其申请SSL证书，不过缺点是证书有效期只能有9
数据库学习笔记-触发器 T_ALH 数据库课程设计数据库存储过程
步骤创建触发器①启动SQLServer查询编辑器，选择要操作数据库，如“sc（学生选课）”数据库。②在查询命令窗口中输入以下CREATETRIGGER语句，创建触发器。为sc(学生选课)表创建一个基于UPDATE操作和DELETE操作的复合型触发器，当修改了该表中的成绩信息或者删除了成绩记录时，触发器被激活生效，显示相关的操作信息。CREATETRIGGERtri_UPDATE_DELETE_sc
1963. 使字符串平衡的最小交换次数 Joyner2018 python 算法 leetcode python 开发语言
如何使字符串变成平衡括号串？——最小交换次数问题详解题目描述给定一个字符串s，字符串长度为偶数n，且恰好由n/2个开括号'['和n/2个闭括号']'组成。我们称字符串为平衡字符串，当且仅当它满足以下条件之一：空字符串是平衡字符串；若字符串A和B是平衡字符串，则它们的拼接AB也是平衡字符串；若字符串C是平衡字符串，则用括号包裹起来的字符串[C]也是平衡字符串。你可以交换字符串中任意两个位置的括号任意
IDEA运行java博客项目halo报错笔记（一）叶卡 halo博客项目 java
1、关于JDK版本在导入项目时查看日志CHANGELOG.md，里面有关于jkd版本适用版本的描述，1.4.3及以后版本不再支持JRE1.8，只能是jdk11及以上的版本，不然导入项目会出错！除此之外，也应该看看其他更新的信息。2、‘fetchBranch(java.lang.String,java.lang.String)’isdeprecatedandmarkedforremoval问题描述：
C语言之分支语句总结
学完了分支语句就浅浅的总结一下，嘿嘿！C语言是结构化的程序设计语言，这里的结构可分为顺序结构、选择结构、循环结构。其中顺序结构是一种线性、有序的程序执行结构，按照程序代码书写的先后顺序依次执行，选择结构依据条件判断，选择执行不同分支，循环结构是满足条件时，重复执行一段代码。其中我们是运用if,switch语句实现分支结构，运用while，for，do—while来实现循环结构。接下来依次进行介绍：
《刚刚问世》系列初窥篇-Java+Playwright自动化测试-7-元素基础定位方式-下篇（详细教程）
1.简介上一篇主要是讲解我们日常工作中在使用Playwright进行元素定位的一些比较常用的基础定位方式的理论基础知识以及在什么情况下推荐使用。今天这一篇讲解和分享一下剩下部分的基础定位方式。２.过滤器定位例如以下DOM结构，我们要在其中单击第二个产品卡的购买按钮。我们有几个选项来过滤定位器以获得正确的定位器。2.1按文本过滤定位器可以使用locator.filter（）方法按文本进行过滤。它将搜
html初学者第一天祝余呀 html 前端
网页1.1什么是网页？网站是指在因特网上根据一定规则，使用HTML等制作的用于展示特定内容相关的网页集合。网页时网站中的“一页”，通常是HTML格式的文件，它要通过浏览器来阅读。网页是构成网站的基本元素，它通常由图片，链接，文字，声音，视频等元素组成。通常我们看到的网页，常见以.htm或.html后缀结尾的文件，因此将其俗称为HTML文件。1.2什么是HTML？HTML是指超文本标记语言（Htyp
Redis 的特性、工作机制与性能优化全解（含搭建实战教程）
文章目录二、Redis的核心特性三、Redis的工作机制解析单线程模型（性能为何强大？）数据结构是性能的关键持久化机制（数据如何存下来？）四、Redis性能优化实战1.优化内存使用2.提升并发性能3.使用分片/集群机制4.异步处理五、Redis搭建流程（Linux环境）1.下载与解压2.编译并安装3.修改配置文件（推荐复制一份）4.启动Redis5.客户端连接测试六、Redis运维技巧与监控命令七
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
前端技术栈 —— HTML、CSS和JavaScirpt执行环境 CS-Polaris 前端技术栈前端 html css
以下内容由GLM回答生成，不保证正确性。前端技术栈——HTML、CSS和JavaScirpt执行环境JavaScript的执行环境HTML和CSS的执行环境HTML和CSS是否可以在其他环境中执行？总结JavaScript是一种解释型语言，但它也可以被编译。JavaScript的执行方式取决于具体的运行环境。在浏览器中，JavaScript是通过解释器逐行执行的，但在某些情况下（如使用工具如Bab
Python 库包 sentence-transformers 音程机器学习人工智能 python 开发语言
sentence-transformers是一个非常流行的Python库，专门用于将文本（句子、段落、文档）转换为高质量的语义向量（嵌入）。它基于Transformer架构（如BERT、RoBERTa、DistilBERT等）的预训练模型，并在大量语义相似性数据上进行了微调，能够捕捉句子之间的深层语义关系。什么是sentence-transformers？项目地址：https://www.sber
如果你仍然在使用XP，请加固它 haierccc windows
XP系统因为过于老旧，充满漏洞，非常不安全，如果将其暴露在公网立刻就会被攻陷。但若你有老旧的服务仍需要运行于XP，就需要对XP进行加固处理以提高安全性。再次强调：XP仅作为服务器对外提供服务（打开特定的TCP或UDP端口），本身不作为客户端访问网络上的资源。1、我的电脑→管理→服务和应用程序→服务，停止以下三个服务：server、workstion、Messenger2、我的电脑→属性→远程，去掉
Windows内核并发优化
Windows内核并发优化通过多层次技术手段提升多核环境下的系统性能，以下是关键技术实现方案：一、内核锁机制优化‌精细化锁策略‌采用自旋锁（Spinlock）替代信号量处理短临界区，减少线程切换开销对共享资源实施读写锁分离，如文件系统元数据采用ERESOURCE结构实现读写并发无锁数据结构‌关键路径（如调度队列）使用Interlocked原子操作指令（如lockcmpxchg）实现无锁同步内存分配
创客匠人深度剖析：家庭教育赛道创始人 IP 打造与知识变现的破局之道创小匠 tcp/ip 网络协议网络
在知识付费领域，家庭教育赛道的竞争日益激烈，如何从0-1打造创始人IP并实现高效拓客，成为创业者的核心难题。创客匠人服务的慈航德教育创始人陈向杰老师，通过视频号运营、产品矩阵设计与社群生态构建，实现单月拓客1.6万+，其背后的IP打造逻辑为行业提供了可复用的方法论。从慈航德教育的案例来看，创始人IP的定位需要锚定赛道本质需求。陈向杰老师将“慈、航、德”的品牌理念融入IP人设，以“帮助孩子减负”的教
创客匠人视角下：创始人 IP 如何通过内容运营实现知识变现的冷启动创小匠 tcp/ip 内容运营网络协议
知识付费创业的冷启动阶段，如何快速建立IP影响力并实现用户积累，是创业者面临的首要挑战。创客匠人服务的慈航德教育从0-1入局家庭教育赛道，单月拓客1.6万+的实践，揭示了创始人IP通过内容运营驱动知识变现的底层逻辑。视频号作为IP冷启动的核心阵地，其运营本质是价值观的持续输出。陈向杰老师通过840期连续直播（日均2小时），将“慈祥之心+明确方向+立德树人”的IP理念拆解为具体的育儿干货、案例解析与
创客匠人视角下：创始人 IP 打造与知识变现的深度耦合路径创小匠 tcp/ip 大数据人工智能
在知识经济蓬勃发展的当下，创始人IP打造与知识变现的融合已成为行业破局关键。创客匠人作为深耕知识付费赛道多年的服务平台，其创始人老蒋提出的“土壤构建能力”理论，为理解这一融合逻辑提供了独特视角。从本质来看，创始人IP并非简单的个人品牌包装，而是企业价值观与专业能力的人格化投射。以创客匠人服务的众多知识创业者为例，成功的创始人IP往往具备三大特征：专业领域的深度沉淀、用户需求的精准洞察，以及价值输出
网络相关篇Linux一句话精彩问答--2006/09/08更新--20060908pdf版本下载
----------------------------网络相关篇--------------------------2001让apache的默认字符集变为中文(陈绪)vihttpd.conf，找到AddDefaultCharsetISO-8859-1一行apache版本如果是1.*，改为AddDefaultCharsetGB2312如果是2.0.1-2.0.52，改为AddDefaultChar
每天一个前端小知识 Day 23 - PWA 渐进式 Web 应用开发蓝婷儿 python 前端
PWA渐进式Web应用开发（离线缓存、桌面安装等）一、什么是PWA？PWA（ProgressiveWebApp）是一种让Web应用具有类似原生App用户体验的技术体系。PWA不是一个框架，而是由一组浏览器API组成的技术集合，包括：离线访问能力WebApp安装到桌面推送通知后台同步原生风格UIPWA的三大核心能力能力描述可安装性支持添加到桌面启动器，像原生App打开离线能力使用ServiceWor
Debian TTY环境乱码两斤半 Debian Linux debian linux
设置语言环境当前语言环境locale重新配置语言环境sudodpkg-reconfigurelocales配置控制台字体安装console-setup和kbd支持UTF-8的控制台字体sudoaptinstallconsole-setupkbd重新配置控制台字体sudodpkg-reconfigureconsole-setup内核相关没有正确加载字体或控制台相关的模块，安装或重装字体#文泉驿正黑s
LambdaQueryWrapper方法查询某个字段的list
LambdaQueryWrapperwrapper=newLambdaQueryWrapperlist=list(wrapper);ListnameList=list.stream().map(e->e.getUserName()).collect(Collectors.toList());
从零开始写一个RTSP服务器（五）RTP传输AAC
从零开始写一个RTSP服务器系列★我的开源项目-RtspServer从零开始写一个RTSP服务器（一）RTSP协议讲解从零开始写一个RTSP服务器（二）RTSP协议的实现从零开始写一个RTSP服务器（三）RTP传输H.264从零开始写一个RTSP服务器（四）一个传输H.264的RTSP服务器从零开始写一个RTSP服务器（五）RTP传输AAC从零开始写一个RTSP服务器（六）一个传输AAC的RTSP
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号