kaijie234

【2019斯坦福CS224N笔记】（9）Deep Learning for NLP Best Practices

本人在看CS224n Lecture9课程后，本节课程主要讲的是Final project和回顾了GRU和LSTM网络。没有特别多的新内容，故在网上找到了一篇国外大佬写的关于NLP实践总结的博文，故翻译之与大家进行分享。

原文作者：Sebastian Ruder

[原文链接] (http://ruder.io/deep-learning-nlp-best-practices/index.html#attention)

在NLP社区中一直存在一个笑话，一个受到关注的LSTM将在任何任务上产生最先进的性能。虽然这在过去两年中一直如此，但NLP社区正逐渐从现在的标准基线转向更有趣的模型。

然而，作为一个社区，我们不希望在接下来的两年中独立（重新）发现下一个关注LSTM。我们不想重新发明已经证明有效的技巧或方法。虽然许多现有的深度学习库已经编码了一般用于神经网络的最佳实践，例如初始化方案，但许多其他细节，特别是任务或特定于域的注意事项，仍留给从业者。

这篇文章并不是为了追踪最新技术，而是为了收集与各种任务相关的最佳实践。换句话说，这篇文章不是描述一个特定的架构，而是旨在收集成功架构的功能。虽然这些功能中的许多功能对推动最新技术最有用，但我希望通过更广泛的知识对它们进行更强有力的评估，与基线进行更有意义的比较，以及通过塑造我们对可行方法的直觉来激发灵感。

我将首先概述与大多数任务相关的最佳实践。然后，我将概述与最常见任务相关的实践，特别是分类，序列标记，自然语言生成和神经机器翻译。

免责声明：将某事视为最佳做法非常困难：最好根据什么？如果有更好的选择会怎么样？这篇文章是基于我（必然是不完整的）理解和经验。在下文中，我将仅讨论被至少两个不同组独立报告的实践。我将尽力为每个最佳实践提供至少两个参考。

词向量技术

Word嵌入可以说是NLP近期历史上最广为人知的最佳实践。众所周知，使用预先训练的嵌入有助于提升模型的结果。单词嵌入的最佳维度主要取决于任务：较小的维度更适用于更多的句法任务，如命名实体识别或词性（POS）标记，而较大的维数为多个语义任务，如情绪分析。

模型深度

虽然我们暂时无法达到计算机视觉的深度，但NLP中的神经网络已逐渐变得更加深入。最先进的方法现在经常使用深层Bi-LSTM，通常由3-4层组成，例如用于POS标记和语义角色标记。某些任务的模型可以更深入，参见谷歌的NMT模型有8个编码器和8个解码器层。然而，在大多数情况下，使模型深于2层的性能改进是最小的。

这些观察结果适用于大多数序列标记和结构化预测问题。对于分类，深度或深度模型仅在字符级输入时表现良好，浅字级模型仍然是最先进的。

网络层之间的连接

对于深层次神经网络的训练，有一些技巧非常重要，可以避免梯度弥散的问题。目前已经提出了各种各样的网络层和连接方法。在这里，我们将讨论其中的三种方法：

高速公路层 (highway layers)
残差连接 (residual connection)
密集连接 (dense connection)

1.高速公路层

高速公路层高速公路层的灵感来源于LSTM的门函数。首先让我们假设有一个单层的MLP (多层感知机，也就是全连接神经网络)，它将对输入x作一个非线性g函数的变换，如下：

h = g(Wx + b)

高速公路层则是这样的函数变换：

h = g ⊙ g(Wx + b) + (1 - t) ⊙ x

其中⊙表示对应元素相乘,

[外链图片转存失败(img-aaSZo4x6-1563713037024)(…/…/…/img/nlp/cs224n/09/TIM截图20190716174855.png)]

称为变换门，

(1 -t)称为移位门。我们可以看到，高速公路层其实类似于LSTM的门函数，因为它能将输入的一些信息自适应地直接传送至输出端。

高速公路层已经被用于语言模型之中，并取得了目前的最好结果，也被用于其他任务上，如语音识别。Sristava的主页里有关于高速公路层更多资料和代码。

2.残差连接

残差连接的提出最初是用于计算机视觉领域，它是在2016年的ImageNet大赛上夺冠的主要原因。残留连接的方式比高速公路层更为直接，使用如下的函数：

h = g(Wx + b) + x

从上述公式来看，它简单地将当前层的输入添加至输出。这个简单的修改改善了梯度弥散的问题，这是因为即使某一层的作用不大，它也还是可以获取到原始输入的信息(不至于传递不下去)。

3.密集连接

相比于之前只是简单地将每一层的输出直接添加至下一层的输入，密集连接 (Huang et al., 2017) (2017年CVPR会议的最佳论文奖) 增加了从每个层到后续所有层的直接连接。我们用h表示输出结果，x表示输入，l表示当前层。密集连接将当前层之前的所有网络层的输出作为输入提供给当前层：

其中[⋅;⋅]表示级联。密集连接已成功应用于计算机视觉领域之中。他们还发现这种连接方法对于不同NLP任务的多任务学习也是有用的，而对于基于神经网络的机器翻译任务而言，使用残差变量之和的方法已被证明要优于仅使用残差连接。

Dropout

虽然计算机视觉中的批量标准化使得其他正规化器在大多数应用中已经过时，但是辍学仍然是NLP中深度神经网络的首选正则化器。在大多数情况下，辍学率0.5已被证明是有效的。近年来，已经提出了诸如自适应（Ba＆Frey，2013）和进化辍学等辍学的变化，但这些都没有在社区中得到广泛采用。阻碍NLP丢失的主要问题是它不能应用于循环连接，因为聚合丢失掩码会随着时间的推移有效地将嵌入归零。

循环dropout

循环dropout通过在第1层的时间步长应用相同的丢失掩码解决了这个问题。这避免了沿序列放大丢失噪声并导致序列模型的有效正则化。例如，在语义角色标记（He et al。，2017）和语言建模中，反复出现辍学已被用于实现最先进的结果。

多任务学习

如果有足够多的额外数据，通常可以利用多任务学习 (MTL) 来提高目标任务的性能。可以看看这篇博文来了解有关MTL的更多信息。

1.辅助目标

我们经常可以找到对我们关心的任务有用的辅助目标。虽然我们已经可以预测周围的单词以便预先训练单词嵌入（Mikolov等，2013），但我们也可以将其作为训练期间的辅助目标也使用类似的目标进行序列到序列模型。

2.面向特定任务的网络层

尽管NLP领域中多任务学习的常用方法都是参数共享的，但这样作对于面向不同任务的模型层的学习是有益的。这可以通过将一个任务的输出层放置在较低的层次来完成。而另一种方法是利用独自的共享空间来实现。

注意力机制

注意力机制最常用于seq2seq模型的编码过程，也可用于任何序列模型中以回溯过去的状态。使用注意力机制，可以基于隐藏层状态s,来得到一个上下文向量ci，再结合当前层的隐状态hi来做出预测。上下文向量ci是之前隐藏层状态的加权平均，权重系数为ai:，如下面的公式：

注意力函数,

利用当前隐层状态hi和之前隐层状态sj计算出一个相应分值(未归一化)。接下来，我们将探讨4种注意力机制的变种：

加法式的注意力机制
乘法式的注意力机制
基于自身的注意力机制 (self-attention)
key-value形式的注意力机制

1.加法式的注意力机制

原始的注意力机制使用了一个单层的隐藏层前馈网络来计算注意力的对齐关系，如下公式：

其中Va和Wa是学习到的注意力参数。相应地，我们也可以使用矩阵W1和W2分别对hi和sj作相应的变换，然后求和：

2.乘法式的注意力机制

乘法式的注意力机制简化了原始的注意力函数的计算，如下：

加法式和乘法式的注意力机制在时间复杂度上是差不多的，但乘法式在实践中的计算更快，也更节省内存，因为它可以利用高效率的矩阵乘法算法。当解码器向量dh的维数较小时，这两种的性能差不多；而维数较大时，会出现加法式的注意力机制表现更好的情况，此时通过将

缩小至

倍可以减少这种情况的发生。

注意力机制不仅可以影响编码器的状态以及利用之前的隐层状态，还可以获得输入信息的分布情况(也是一种特征形式)，例如用于阅读理解任务中的文本对应的词向量分析。但是，注意力机制并不适用于一些不需要额外信息的分类任务，如情感分类。对于这类任务用到的模型，通常是使用LSTM的最终隐藏层状态或者使用类似于最大池化或平均池化的聚合函数来获得句子表示。

3.基于自身的注意力机制

在没有任何额外信息的情况下，我们仍然可以通过关注句子本身 (即self-attention) 来从句子中提取出相关的信息。基于自身的注意力机制 (也称为基于内部的注意力机制) 已经被成功地应用于各种任务上，包括阅读理解，文本蕴涵和生成式摘要等。

我们可以简化加法式的注意力模型，即计算每个隐藏状态hi的非归一化的对齐分数：

转换为矩阵运算形式，对于隐藏层状态,

我们可以计算出注意力向量a和最终的句子向量表示c如下：

相比于只提取出一个向量，我们利用矩阵Va来取代va从而得到几个关注点，然后抽取出矩阵注意力矩阵A：

在实践中，我们会使用如下的正交约束项来防止冗余，并采用Frobenius规范项的平方来保证注意力向量的多样性：

一种类似的multi-head注意力机制被Vaswani等人采用过。

4.Key-value形式的注意力机制

最后，Key-value形式的注意力机制是最近提出的一种注意力机制的变种，与之前使用注意力函数不同的是，它通过维护一个独立的向量来进行注意力的计算。这种方法被有效地应用到多种文档建模任务中。具体而言，Key-value形式的注意力机制将每个隐藏层向量hi分解成一个key为ki和一个value为vi：即

这些key会被用于计算注意力的分布ai，通过一个加法式的注意力函数：

其中L是注意力窗口的长度，l是一个向量。然后通过这些来得到上下文表示向量ci：

上下文表示向量ci和当前值vi会结合在一起来用于预测。

最优化

最优化算法和优化模式通常也是属于模型的一部分，并被当做一个黑盒子。有时候，对最优化算法进行轻微的改动，例如对于Adam降低β2值会对优化结果产生非常大的影响。

1.最优化算法

Adam 是最受欢迎和被广泛使用的优化算法之一，通常都会作为NLP领域研究人员的选择。通常认为，Adam要明显优于传统的随机梯度下降(SGD)算法。然而，虽然训练过程中A dam比SGD收敛快得多，但是SGD的在学习率上的退火速率要略胜于Adam。最近的研究工作进一步表明，对SGD进行适当的动量调整将优于Adam算法。

2.优化模式

虽然Adam内部会调整每个参数的学习率，我们仍然在Adam中使用SGD式的退火。具体而言，我们可以通过重启来进行学习率退火：设定一个学习率并训练模型直到收敛。然后，我们将学习率减半，并通过加载之前最佳的学习模型来重启算法。对于Adam而言，这会使优化器忘记其之前的参数学习率并重启。(Denkowski, M., & Neubig, G. (2017). Stronger Baselines for Trustable Results in Neural Machine Translation)表明，Adam两次重启后的学习率退火更快，表现要优于SGD。

模型集成

通过集成多个模型来提升最终的性能是一种基于经验主义的有效策略。尽管使用集成式的模型在测试阶段会比较费时，但最新研究进展表明对集成式模型进行压缩也是可行的。

随着模型多样性增加，对这些模型进行集成是确保最终结果可靠的重要方法。虽然对同一模型的不同种结果的集成被证明是有效的，但是这牺牲了模型的多样性作为代价。周期性的学习率有助于减轻这种影响。然而，在有充足的计算资源的情况下，我们更倾向于集成多个单独训练的模型来最大程度上增加模型的多样性。

超参数的优化

相比于单纯使用预先定义好的或现成的模型超参数，简单地对它们作一点调整就可以提升模型的结果。贝叶斯优化的最新研究进展使其成为神经网络中超参数优化的理想工具，远远优于被广泛使用的网格搜索。对一个简单的LSTM模型的超参数作自动调整取得了目前语言模型的最好结果，这甚至超过了一些更复杂的模型。

LSTM模型调优的小技巧

初始状态的学习我们通常用0向量来初始化LSTM模型的初始状态。相较于固定模型的初始状态，我们可以把初始状态的参数也当做需要学习的参数，这可以提高性能，也是Hinton所推荐的做法(https://www.cs.toronto.edu/~hinton/csc2535/notes/lec10new.pdf)。参考这篇博客文章(https://r2rt.comnon-zero-initial-states-for-recurrent-neural-networks.html)，了解Tensorflow的实现。

1.共享输入和输出的词向量

输入和输出的词向量参数是LSTM模型中数量最多的参数。如果将LSTM作为一个语言模型来进行词的预测，那么输入和输出的参数是可以共享的。这种做法对于小型数据集特别适用，因为数据规模限制了参数的学习量。

2.梯度的规范化削减

降低“梯度爆炸”风险的一种方法是削减梯度的最大值。然而，这对模型的效果并没有改善。相比于简单地削减梯度的最大值，对梯度的全局范数进行削减取得的效果更为显著(在此有Tensorflow的实现)。

3.向下投影

为了进一步减少输出的参数量，可以将LSTM的隐藏层状态投影至更小的空间。这对于输出量较大的任务 (如语言建模) 尤其有用。

面向具体任务的最佳实践经验

接下来，我们将讨论一些具体任务上的最佳实践经验。其中的大多数在一个具体的任务上的效果都是最佳的，其中的一些可能还适用于其他的任务，但这还需要进行验证。我们将讨论以下几种应用：分类，序列标注，自然语言生成(NLG)，以及 NLG的一个特例——基于神经网络的机器翻译。

1.分类

CNN模型被广泛应用在NLP中的分类任务中。近期发现，由于CNN模型具有高效的卷积运算，它也同样适用于序列类型的任务。下面是一些与CNN模型相关的最佳实践，以及超参数上的最佳选择。

卷积核：可以组合多种尺寸的卷积核来取得最优的效果，例如卷积核尺寸为(3,4,5)的组合的效果最佳。卷积核的最佳数量范围为50-600。
池化函数输出为1的最大池化的效果要好于平均池化和输出为k的最大池化方法。

2.序列标注

序列标注是NLP领域的常见任务。现有的实践经验很多都是与模型结构的中特定部分相关，下面将提供模型输出和预测阶段方面的实践经验。

序列标注的模式：对于某些文本标注任务而言，所使用的标注框架是不同的。其中有：BIO模式，它将文本片段中出现的第一个令牌 (token) 标记成B标签，剩余的令牌都标记成I标签，不属于令牌的标记为O标签; IOB模式，类似于BIO，但只在前一个令牌是同一个类但不属于分段的一部分时标记为B标签; 还有IOBES模式，它额外区分了单令牌实体 (S标签) 和分段中的最后一个令牌 (E标签)。使用IOBES和BIO模式所取得的效果是差不多的。
CRF输出层：如果输出之间存在相互依赖的关系，例如对于命名实体识别，最终的softmax层可以用线性的条件随机场 (CRF) 替代。实验结果表明，这对模型需要进行约束的任务有一定的改进。
受约束的解码过程：相较于使用一个CRF输出层，对解码进行约束是一种防止生成错误序列的方法，即不会产生有效的BIO转换。对解码进行约束的好处在于可以执行任意的约束条件，这适用于一些特定的任务，如需要执行句法约束的任务。

3.自然语言生成

目前大多数的实践经验也适用于自然语言生成 (NLG)。事实上，迄今为止有很多实践上的技巧都来源于语言建模，这个最原始的NLP任务。

模型结果的覆盖度：输出重复问题是许多NLG任务面临的一大问题，这是因为目前的模型没有一个好的方法来记住模型产生了的输出结果。在模型中使用模型输出结果的覆盖度是解决这个问题的好方法。如果提前有一个清单，包括了有哪些实体应该在输出结果中提及，如 (Kiddon, C., Zettlemoyer, L., & Choi, Y. (2016). Globally Coherent Text Generation with Neural Checklist Models. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP2016), 329–339) 所用到的。如果使用注意力机制，我们可以记录覆盖度向量ci，这是之前时间步长的注意力分布at的总和：

这个向量捕获了我们对输入中所有单词的关注程度。我们可以通过控制这个表征覆盖度的向量，以避免模型在输出时使用重复的单词：

此外，我们还可以增加一个辅助的损失函数，来捕获对于特定任务我们想得到的注意力分布：对于NMT，我们希望大致上能一对一地对齐；因此，如果覆盖向量的指标发生了偏差，我们则对模型做出相应的惩罚处理。总之，当模型重复使用输入中的相同部分时，需要对模型的训练作相应惩罚。

4.基于神经网络的机器翻译

尽管基于神经网络的机器翻译 (NMT) 只是NLG的一个实例，但NMT受到了非常多的关注，许多模型和方法都是专门为此而开发的。相应地，许多最佳的实践经验或超参数最佳选择都仅适用于NMT这个任务本身。

词向量的维数:词向量的维数设置为2048时的模型性能达到最佳，但这带来的提升幅度很小。其实即使词向量维数为128维时模型的性能也很不错，而收敛速度也将几乎快上两倍。
编码器和解码器的层数:编码器的层数设置最好不要超过2-4层。尽管深层次的模型要优于浅层模型，但对于解码器而言，其层数最好不要超过44层。
编码方向双向的编码器的性能要优于单向的编码器。Sutskever等人(2014)提出了对源序列的输入方向反转有助于减轻对长时记忆的依赖。在单向编码器中反转源序列的结果要优于没有反转的结果。
集束搜索 (Beam Search) 策略:集束搜索设置的大小为10左右，同时对长度作正则化时，能够取得最佳的模型性能。
单字翻译:Senrich等人(2016)提出了一种基于字节对编码 (BPE) 的方式将单词划分为字序列。BPE迭代式地合并频繁的符号对，最终将频繁出现的ngram合并成单个符号，从而有效地清除了不在词典中的词。尽管这个方法最初是为了处理罕见的单词，但是处理字单元的模型整体的表现要优于全词系统，对于以字为单位的词汇表大小设置为32,000比较合适。

注意：本文参考文献比较多，查看原文可参考完整的参考文献。

头歌实践教学平台 Python程序设计实训答案（三）学习的锅头哥实践教学平台实训答案 python
第七阶段文件实验一文本文件的读取第1关：学习-Python文件之文本文件的读取任务描述本关任务：使用open函数以只写的方式打开文件，打印文件的打开方式。相关知识为了完成本关任务，你需要掌握：文本文件；open函数及其参数；文件打开模式；文件对象常用属性；关闭文件close函数。#请在下面的Begin-End之间按照注释中给出的提示编写正确的代码##########Begin###########
React Native：跨平台移动应用开发的强大框架冬冬小圆帽 react native react.js javascript
ReactNative介绍ReactNative是由Facebook开发并开源的一款基于JavaScript和React的跨平台移动应用开发框架。它允许开发者使用React的语法和组件模型来构建原生移动应用（iOS和Android）。ReactNative的核心思想是“LearnOnce,WriteAnywhere”，即学习一次，编写多端应用。1.核心特点跨平台开发：使用JavaScript和Re
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
字节跳动离职后，转行学起了AI大模型！该说不说，真的香！！小城哇哇人工智能 AI大模型语言模型 agi ai LLM 转行
个人自我介绍鄙人出生于南方小乡镇，为了走出小镇，在当地够拼够努力，不是自夸，确确实实也算得上“别人家的小孩”，至少在学习这件事情少，没有要家里人操过心。高考特别顺利，一个老牌985，具体哪个学校就不说了，不想给母校丢脸。毕业后，也算是“风光”地进入了字节跳动。做的是运维测试。在职期间刚入职的时候真的信心满满⛽️，但才3天就感受到了互联网头部公司的强度不是一般的大。明面上的早十晚八工作制完全不存在，
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
01.什么是MQTT？墨先森 NodeMCU与MQTT 物联网
目录00_前言01_简述02_特性03_MQTT运行机制00_前言本系列博客是基于NodeMCU平台来完成的一个物联网小项目，目的在于了解并学习MQTT协议，掌握MQTT协议的作用机制。以上。01_简述以下摘自百度百科MQTT(消息队列遥测传输)是ISO标准(ISO/IECPRF20922)下基于发布/订阅范式的消息协议。它工作在TCP/IP协议族上，是为硬件性能低下的远程设备以及网络状况糟糕的情
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
网安会有35岁中年危机吗，还有网安将来发展怎么样？网络安全工程师可以干到多大年龄认真写程序的强哥 web安全干货分享黑客技术网络安全渗透测试编程计算机
关于35岁中年危机这个问题，我想说，在网安行业里，这根本就不是个事儿！！与传统的IT行业不同，网安行业更加注重实战经验和技能深度，而不是单一的年龄因素。随着经验的积累，网络安全工程师在面对复杂问题时，反应更快、决策更准，这种价值是无法用年龄来衡量的。所以，只要你保持学习热情，不断提升自己的技能，35岁不仅不是终点，反而可能是你职业生涯的新起点。初入计算机行业的人或者想转行大学计算机相关专业准程序员
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
R.E.D.算法：革新文本分类的半监督学习新范式真智AI 算法 r语言分类人工智能学习
随着大型语言模型（LLMs）在解决问题方面的应用进入新时代，只有少数问题仍然存在不尽如人意的解决方案。大多数分类问题（在概念验证层面）可以通过良好的提示工程技术和自适应的上下文学习（ICL）示例，利用LLMs以70-90%的精确度/F1分数来解决。当您希望持续实现高于此水平的性能时——当提示工程不再足够时，会发生什么？分类难题文本分类是监督学习中最古老且最易理解的示例之一。鉴于这一前提，构建能够处
【大模型学习路线】从月薪6K到年薪35W，普通二本生转行大模型的逆袭之路：我的500小时崩溃实录与实战秘籍（附保姆级学习路线） AGI大模型学习学习人工智能大模型应用程序员 AI 大模型 AI大模型
摘要：26岁机械专业零基础转大模型，被面试官羞辱“非科班别做梦”，5个月死磕源码，现拿下3个大厂offer。踩过所有新人会踩的坑，总结出普通人高效突围的4个阶段+7个杀手级项目。（文末送自研《大模型避坑指南》+120G学习资料包）一、血泪教训：这些弯路我替你走了（小白必看）2023年3月12日，我在工地上画完第108张CAD图纸后，突然收到大学班群消息：“XX同学入职字节AILab，年薪50W+”
目前常用的机器视觉工具库总结，选一个适合自己的机器视觉库才是最好的。 yuanpan 计算机视觉图像处理 ai AI编程
以下是常用机器视觉工具的总结，包括它们的特点、优点、缺点和是否付费：1.Halcon特点：由MVTec公司开发，专注于工业机器视觉。提供强大的图像处理、模式匹配、OCR和3D视觉功能。优点：高性能，适合复杂的工业应用。提供图形化编程界面（HDevelop），用户友好。支持多种硬件设备（如相机、采集卡）。缺点：付费：价格较高，适合企业级用户。开放性较低，定制化能力有限。学习曲线较高，文档复杂。是否付
JavaWeb学习笔记时间会给答案scidag java java-ee servlet 笔记学习数据库
一.刨析JDBC1.概念：JDBC就是java语言操作关系型数据库的一套API2.常用API2.1DriverManager:作用1.注册驱动2.获取数据库连接;都是静态方法，直接类名.方法2.2Connection:作用1.获取sql执行对象2.事务管理《《关于管理事务回滚常用方法setAutoCommit（）commit(),rollback()2.3Statement:作用执行SQL语句《《
CSS3学习教程，从入门到精通，CSS3 布局语法知识点及案例代码（15）知识分享小能手编程语言如门前端开发网页开发 css3 学习 css 前端 html5 html Java后端开发
CSS3布局知识点及案例代码一、盒模型知识点CSS盒模型是理解CSS布局的基础，它包括内容（content）、内边距（padding）、边框（border）和外边距（margin）四个部分。content：盒子的内容区域，定义宽度和高度。padding：内容与边框之间的空间，可控制内容与边框的距离。border：围绕内容和内边距的边框，可设置边框的样式、宽度和颜色。margin：边框与其他元素之间
CSS3学习教程，从入门到精通，CSS3 盒子模型语法知识点及案例代码（13）知识分享小能手编程语言如门前端开发网页开发 css3 学习前端 css html5 html Java后端开发
CSS3盒子模型语法知识点及案例代码CSS3盒子模型概述CSS3盒子模型是用于控制网页元素布局和外观的重要工具。它包括标准盒子模型、IE盒子模型以及CSS3引入的弹性盒子模型和网格布局模型。一、标准盒子模型（StandardBoxModel）语法selector{width:value;height:value;padding:value;border:value;margin:value;}wi
CSS3学习教程，从入门到精通，CSS3 背景样式语法知识点及案例代码（11）知识分享小能手编程语言如门前端开发网页开发 css3 学习前端 css html5 Java Java后端开发
CSS3背景样式语法知识点及案例代码一、背景颜色（background-color）/*设置元素的背景颜色*/selector{background-color:color-value;}selector：选择器，指定要设置背景颜色的元素。color-value：颜色值，可以是颜色名称、十六进制颜色代码、RGB颜色值或HSL颜色值等。案例：.box{width:200px;height:200px
10初识Spring MVC框架 TechLens JAVA EE笔记 servlet spring java
学习内容一、回顾1.JSPModel2架构模型采用JSP+Servlet+JavaBean技术实现了页面显示、流程控制和业务逻辑的分离Jsp负责生成动态网页，只用做显示页面；Servlet负责流程控制，用来处理各种请求的分派；JavaBeans负责业务逻辑，对数据库的操作流程控制等通用逻辑以硬编码的方式实现，每次开发新的Web应用程序均需重新编写流程控制、通用逻辑代码2.WebMVC应用框架Spr
跨域自监督学习：打破数据壁垒的创新突破 mslion 学习人工智能跨模态学习深度学习计算机视觉自监督表示学习
近年来，跨域学习和跨模态学习在多个应用领域中取得了显著的进展。尽管不同领域和模态之间的数据分布差异和标注数据稀缺常常带来挑战，但越来越多的研究集中在如何通过自监督学习和无监督领域适应技术来解决这些问题。自监督学习作为一种无需大量标注数据的方法，能够有效地从未标注数据中提取有用特征，并在跨域或跨模态设置中增强模型的迁移能力和泛化能力。此外，如何处理源域和目标域之间的差异，使得模型能够在多领域或跨模态
深度讨论Python for循环观智能 python 开发语言
作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
Spring MVC +Spring 框架学习总结-入门必学知识点柚子味* Java spring spring mvc java spring mvc
Spring框架是由于软件开发的复杂性而创建的。Spring使用的是基本的JavaBean来完成以前只可能由EJB完成的事情。然而，Spring的用途不仅仅限于服务器端的开发。从简单性、可测试性和松耦合性角度而言，绝大部分Java应用都可以从Spring中受益。spring相关视频教程：https://www.bilibili.com/video/BV1nz4y1d7uySpringMVC是Spr
《Operating System Concepts》阅读笔记：p408-p448 codists 读书笔记操作系统
《OperatingSystemConcepts》学习第34天，p408-p448总结，总计41页。一、技术总结2.page-replacementalgorithmInmemorymanagement,thealgorithmthatchooseswhichvictimframeofphysicalmemorywillbereplacedbyaneedednewframeofdata.(1)FI
《Operating System Concepts》阅读笔记：p272-p285 codists 读书笔记操作系统
《OperatingSystemConcepts》学习第27天，p272-p285总结，总计14页。一、技术总结1.semaphoreAsemaphoreSisanintegervariablethat,apartfrominitialization,isaccessedonlythroughtwostandardatomicoperations:wait()andsignal().2.monit
CSS3学习教程，从入门到精通，CSS3 图像属性知识点及案例代码（16）知识分享小能手前端开发网页开发编程语言如门 css3 学习前端 css html5 javascript css前端开发
CSS3图像属性知识点及案例代码一、图像属性概述CSS3提供了丰富的图像属性，可以控制图像的显示方式、大小、位置、滤镜效果等。以下是一些常用的图像属性：二、常用图像属性1.background-image作用:设置元素的背景图像。语法:background-image:url("image.jpg");案例:.box{width:300px;height:200px;background-imag
QT学习笔记(常用控件) 四代目水门 QT学习笔记 qt 学习笔记
QT学习笔记一、QTGUI类继承体系QObject（基类）└──QWidget（所有可视化控件基类）├──QAbstractButton（按钮类基类）│├──QPushButton│├──QRadioButton│└──QCheckBox├──QFrame（带边框控件基类）│└──QLabel├──QLayout（布局管理器基类）└──其他控件类...核心类说明：QObject：所有QT对象的基类
Mac触控板设置以及使用 Yo3ngLau Mac实用技巧操作集
本文转载自：https://blog.csdn.net/guang_s/article/details/84307604如有侵权，联系即删，转载仅用于学习用途触控板Mac触控板体验是非常好的，很多同学甚至直接用触控板代替鼠标操作，但是默认设置中有一些功能是没有开启的，需要手动配置。本文就来说说如何更改Mac触控板默认设置，让触控板变得更高效。一、启用三指拖移1、打开系统偏好设置，点击辅助功能。2、
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
雅特力AT32F435学习——3.PWM实验数字梦想家学习
PWM实验定时器浑身都是包其中PWM占大头，因为PWM应用太广了：呼吸灯、电机、蜂鸣器，生日火炬里的声音都是PWM干的，接下来就让我们学一下雅特力AT32F435单片机的PWM吧。基础知识老样子对于PWM的基础了解那肯定直接从数据手册学起，先要从头到尾过一遍。PWM是高级功能不是一般的定时器就能有的，所以第一时间就要看数据手册看看哪些定时器用PWM功能，并且确认PWM输入输出的通道和引脚，本次教学
数据库数值函数详解 web安全工具库数据库 oracle jvm
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474数值函数是数据库中用于处理数值数据的函数，可以用于执行各种数学运算、统计计算等。数值函数在数据分析及处理时非常重要，能够帮助我们进行数据的聚合、计算和转换。在本篇博客中，我们将详细介绍常用的数据库数值函数，并通过Python和SQLite进行示例，帮助您理解和应用这些函数。1.数值函数的基本概念数值函数是用于
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round