狮子座明仔

文本匹配模型实验报告-text2vec

尽管基于BERT的模型在NLP诸多下游任务中取得了成功，直接从BERT导出的句向量表示往往被约束在一个很小的区域内，表现出很高的相似度，因而难以直接用于文本语义匹配。为解决BERT原生句子表示这种“坍缩”现象，Su[21]提出了一种排序Loss的句向量表示模型——CoSENT，
通过在目标领域的监督语料上Fine-tune，使模型生成的句子表示与下游任务的数据分布更加适配。

在句子语义匹配（STS）任务的实验结果显示，同等设置下CoSENT相比此前的Sentence-BERT大幅提升了5%。

1. 背景

句向量表示学习在自然语言处理（NLP）领域占据重要地位，许多NLP任务的成功离不开训练优质的句子表示向量。特别是在文本语义匹配（Semantic Textual Similarity）、文本向量检索（Dense Text Retrieval）等任务上，
模型通过计算两个句子编码后的Embedding在表示空间的相似度来衡量这两个句子语义上的相关程度，从而决定其匹配分数。

尽管基于BERT的模型在诸多NLP任务上取得了不错的性能（通过有监督的Fine-tune），但其自身导出的句向量（不经过Fine-tune，对所有词向量求平均）质量较低，甚至比不上Glove的结果，因而难以反映出两个句子的语义相似度[1][2][3][4]。
我们在研究的过程中进一步分析了BERT导出的句向量所具有的特性，证实了以下两点：

BERT对所有的句子都倾向于编码到一个较小的空间区域内，这使得大多数的句子对都具有较高的相似度分数，即使是那些语义上完全无关的句子对（如下图所示），我们将此称为BERT句子表示的“坍缩（Collapse）”现象。

左：BERT表示空间的坍缩问题（横坐标是人工标注的相似度分数，纵坐标是模型预测的余弦相似度）；右：经过CoSENT方法Fine-tune之后

BERT句向量表示的坍缩和句子中的高频词有关。具体来说，当通过平均词向量的方式计算句向量时，那些高频词的词向量将会主导句向量，使之难以体现其原本的语义。当计算句向量时去除若干高频词时，坍缩现象可以在一定程度上得到缓解（如下图蓝色曲线所示）。

计算句向量时移除Top-K高频词后的性能变化

学习句向量的方案大致上可以分为无监督和有监督两大类，其中有监督句向量比较主流的方案是Facebook提出的InferSent，
而后的Sentence-BERT进一步在BERT上肯定了它的有效性。然而，不管是InferSent还是Sentence-BERT，它们都存在训练和预测不一致的问题，而如果直接优化预测目标cos值，效果往往特别差。

为了解决句向量方案这种训练与预测不一致的问题，分析了直接优化cos值无效的原因，并参考SimCSE的监督方法，分析了CoSENT的rank loss，该loss可以直接优化两个文本比较的cos值。实验显示，CoSENT在第一轮的收敛效果比Sentence-BERT高35%，最终效果上比Sentence-BERT高5%。

2. 研究现状和相关工作

2.1 句子表征学习

句子表征学习是一个很经典的任务，分为以下三类方法：

有监督的句子表征学习方法：早期的工作[5]发现自然语言推理（Natural Language Inference，NLI）任务对语义匹配任务有较大的帮助，训练过程常常融合了两个NLI的数据集SNLI和MNLI，文本表征使用BiLSTM编码器。InferSent模型用了siamese结构，两个句子共用一个encoder，分别得到u和v的文本向量表达，然后用3种计算方式，向量拼接([u,v])，相乘(u * v)，相减(|u-v|)(为了保证对称性取绝对值），来帮助后面的全连接层提取向量间的交互信息，最后跟一个3分类的分类器。Sentence-BERT[1]借鉴了InferSent的框架，只是encoder部分替换成了BERT模型。
自监督的Sentence-level预训练：有监督数据标注成本高，研究者们开始寻找无监督的训练方式。BERT提出了NSP的任务，可以算作是一种自监督的句子级预训练目标。尽管之后的工作指出NSP相比于MLM其实没有太大帮助。Cross-Thought[7]、CMLM[8]是两种思想类似的预训练目标，他们把一段文章切成多个短句，然后通过相邻句子的编码去恢复当前句子中被Mask的Token。相比于MLM，额外添加了上下文其他句子的编码对Token恢复的帮助，因此更适合句子级别的训练。SLM[9]通过将原本连贯的若干个短句打乱顺序（通过改变Position Id实现），然后通过预测正确的句子顺序进行自监督预训练。
无监督的句子表示迁移：预训练模型现已被普遍使用，然而BERT的NSP任务得到的表示表现更不好，大多数同学也没有资源去进行自监督预训练，因此将预训练模型的表示迁移到任务才是更有效的方式。BERT-flow[2]：CMU&字节AI Lab的工作，通过在BERT之上学习一个可逆的Flow变换，可以将BERT表示空间映射到规范化的标准高斯空间，然后在高斯空间进行相似度匹配。BERT-whitening[10]：苏剑林提出对BERT表征进行白化操作（均值变为0，协方差变为单位矩阵）就能在STS上达到媲美BERT-flow的效果。SimCSE[11]：陈丹琦组在2021年4月份公开的工作，他们同样使用基于对比学习的训练框架，使用Dropout的数据增强方法，在维基百科语料上Fine-tune BERT。

2.2 Sentence-BERT模型

当前有监督的句子表征模型Sentence-BERT，表现出在句向量表示和文本匹配任务上SOTA的效果，证明了其有效性。Sentence-BERT的训练过程是把（u, v, |u - v|）拼接起来后接分类层，而预测过程，是跟普通的句向量模型一样，先计算mean pooling后的句向量，然后拿向量算cos得到相似度值。

Sentence-BERT的训练：

Sentence-BERT的预测：

Sentence-BERT模型为啥有效？

我们根据消融实验分析：

|u - v|的作用，匹配数据集中，正样本对的文本相似度是远大于负样本对的，对于初始的BERT模型，其正样本对|u - v|差值也是小于负样本对|u - v|差值，可以看出正样本对的u - v分布是一个半径较小的球面附近，
而负样本对的u - v分布在一个较大的球面附近，也就是说，初始模型的u - v本身就有聚类倾向，我们只需要强化这种聚类倾向，使正样本对的u - v更小，负样本对的u - v更大。
BERT-flow和BERT-whitening这类BERT后处理模型，就是用无监督方法强化这种聚类倾向的方法。而监督方法的直接做法是u - v后面接一个全连接层的分类器，但交叉熵的分类器是基于内积计算的，它没法区分两个分布在不同球面的类别，所以这里加上绝对值变成|u - v|，将球面变成锥形，此时就可以用分类器来做分类了。
u, v拼接的作用，从BERT-flow的工作可以知道，BERT句向量具备具备丰富的语义信息，但是句向量所在空间受到词频的影响，具备非平滑，各向异性的特点，这种特点导致未经过微调的“BERT+CLS”句向量模型直接应用在语义相似计算任务上的效果甚至不如简单的GloVe句向量，
而|u - v|只是向量的相对差距，无法明显改善这种各向异性。而在u, v拼接之后接全连接层，利用了全连接层的类别向量是随机初始化的，相当于给了u，v一个随机的优化方向，迫使他们各自“散开”，远离当前的各向异性状态。

3. CoSENT模型介绍

3.1 基本思路

目标：在一个类似BERT的预训练语言模型基础上，监督训练一个句向量表征模型，使模型能够在文本语义匹配任务上表现最好。
其中，可以利用的标注数据是常见的句子对形式，格式是“（句子1，句子2，标签）”，按照训练encoder的思路，两个句子经过encoder后分别得到向量u，v，由于预测阶段是计算的余弦相似度cos(u，v)，所以思路是设计基于cos(u, v)的损失函数，让正样本对的相似度尽可能大、负样本对的相似度尽可能小。
如SimCSE的监督方法的损失函数：

输入样本是 $x^{i}, x^{i+}, x^{i-})$ ，其中 $x^{i+}$ 是与 $x^{i}$ 蕴含关系，而 $x^{i-}$ 是与 $x^{i}$ 矛盾关系
$h^{i}$ 是 $x^{i}$ 的句子embedding
$N$ 是 batch size
$s im$ 是求余弦相似性（cosine similarity）
$t$ 是温度系数，作为超参数，取值为 0.05

3.2 基于cos的排序损失函数

我们记正样本对 $x^{i}, x^{i+})$ ，负样本对 $x^{i}, x^{i-})$ ，目标是希望对于任意的正样本对和负样本对都有如下关系：

$cos(h^i, h^{i+}) > \cos(h^i, h^{i-})$

至于正样本对的相似度比负样本对大多少，就是越多越好。所以可以设该cos结果的差值为损失，则优化该损失。借鉴Circle Loss和SimCSE的监督损失函数，
设计下面基于cos的排序损失函数：

$\log\left( 1 + \sum_{\cos(h^i, h^{i+}) > \cos(h^i, h^{i-})} e^{(\cos(h^i, h^{i-}) - \cos(h^i, h^{i+}))/t}\right)$

CoSENT的损失函数

正样本对是 $x^{i}, x^{i+})$ ，负样本对是 $x^{i}, x^{i-})$ 。
$h^i$ 是 $x^{i}$ 句子向量。
$t$ 表示 temperature，是温度系数，超参数。

模型结构：

训练与预测同模型结构

3.3 融合监督和无监督信号

除了有监督训练以外，我们还可以进一步融合监督信号的策略：
先做有监督再无监督（sup-unsup）：先使用有监督损失训练模型，再使用SimCSE的无监督的方法进行表示迁移也是可以的，具体效果下面有分析，大家可以自行实验，可以在领域迁移学习快速应用。

4. 实验分析

我们主要在文本语义匹配（Semantic Textual Similarity，STS）任务上进行了实验，主要是STS-B数据集，为STS benchmark，来自于SemEval2017评测赛，
该数据集中的样本均包含两个短文本text1和text2，以及人工标注的位于0～5之间的分数，代表text1和text2语义上的匹配程度（5表示最匹配，即“两句话表达的是同一个语义”；
0表示最不匹配，即“两句话表达的语义完全不相关”）。

下面给出了两条样本作为示例：

text1	text2	score
A black and white photo of an old train station.	A black and white photo of a motorcycle laying on the ground.	0.2
a woman is dancing in the rain .	a woman dances in the rain out side .	5.0

中文STS-B数据集，是英文STS-B数据集的中文翻译版本，示例case如下：

text1	text2	score
一个男人在玩电子键盘。	一个人在吹长笛。	1
女人剥土豆。	一个女人在剥土豆。	5

在测试时，为了跟之前的文本匹配工作保持一致，选择了斯皮尔曼相关系数（Spearman correlation）作为评测指标，
它将用于衡量两组值（模型预测的余弦相似度和人工标注的语义相似度）之间的相关性，结果将位于[-1, 1]之间，仅当两组值完全正相关时取到1。
对于每个数据集，我们将其测试样本全部融合计算该指标。考虑到简洁性，会在表格中报告乘以100倍的结果。

4.1 英文匹配数据集

Arch	Backbone	Model Name	English-STS-B
GloVe	glove	Avg_word_embeddings_glove_6B_300d	61.77
BERT	bert-base-uncased	BERT-base-cls	20.29
BERT	bert-base-uncased	BERT-base-first_last_avg	59.04
BERT	bert-base-uncased	BERT-base-first_last_avg-whiten(NLI)	63.65
SBERT	sentence-transformers/bert-base-nli-mean-tokens	SBERT-base-nli-cls	73.65
SBERT	sentence-transformers/bert-base-nli-mean-tokens	SBERT-base-nli-first_last_avg	77.96
CoSENT	bert-base-uncased	CoSENT-base-first_last_avg	69.93
CoSENT	sentence-transformers/bert-base-nli-mean-tokens	CoSENT-base-nli-first_last_avg	79.68

英文数据集的实验结果

在英文匹配任务实验中，我们基于预训练的BERT在STS数据上进行Fine-tune。
在有监督实验中，我们没有使用额外的SNLI和MNLI训练数据，仅使用了STSb的训练数据，CoSENT在backbone为bert-base-uncased和bert-base-nli-mean-tokens下，实现结果得分均超过了基线。

结果显示，CoSENT方法在完全一致的设置下超过Sentence-BERT，达到了2%的相对性能提升。

4.2 中文匹配数据集

Arch	Backbone	Model Name	ATEC	BQ	LCQMC	PAWSX	STS-B	Avg
SBERT	bert-base-chinese	SBERT-bert-base	46.36	70.36	78.72	46.86	66.41	61.74
SBERT	hfl/chinese-macbert-base	SBERT-macbert-base	47.28	68.63	79.42	55.59	64.82	63.15
SBERT	hfl/chinese-roberta-wwm-ext	SBERT-roberta-ext	48.29	69.99	79.22	44.10	72.42	62.80
CoSENT	bert-base-chinese	CoSENT-bert-base	49.74	72.38	78.69	60.00	79.27	68.01
CoSENT	hfl/chinese-macbert-base	CoSENT-macbert-base	50.39	72.93	79.17	60.86	79.30	68.53
CoSENT	hfl/chinese-roberta-wwm-ext	CoSENT-roberta-ext	50.81	71.45	79.31	61.56	79.96	68.61

中文数据集的实验结果

在中文匹配任务实验中，我们在五个数据集中做了实验，包括：ATEC、BQ、LCQMC、PAWSX、STS-B，并且报告了五个数据集的平均结果，结果显示，
CoSENT方法在在相同的MacBERT预训练模型下Fine-tune，其得分超过Sentence-BERT，达到了5%的相对性能提升。

4.3 BackBone选择的实验分析

我们对比了CoSENT在不同的BackBone下的中文STS-B的实验结果，包括bert-base-chinese、hfl/chinese-macbert-base、nghuyong/ernie-3.0-base-zh等多种中文预训练模型。

backbone	Chinese-STS-B (spearman, test)
bert-base-chinese	0.7927
hfl/chinese-bert-wwm-ext	0.7635
hfl/chinese-roberta-wwm-ext	0.7996
hfl/chinese-macbert-base	0.7930
hfl/chinese-macbert-large	0.7495
nghuyong/ernie-3.0-nano-zh	0.6677
nghuyong/ernie-3.0-base-zh	0.8153
nghuyong/ernie-3.0-xbase-zh	0.7827

在中文STS-B的实验中，我们发现CoSENT在不同的BackBone下的实验结果相差不大，这说明CoSENT方法对于不同的BackBone都有很好的适应性，
该实验显示同等参数量模型size下，Backbone最佳是nghuyong/ernie-3.0-base-zh。

4.4 Pooling策略的实验分析

我们对比了CoSENT使用不同pooling策略的实验结果，包括MEAN、CLS、FIRST_LAST_AVG等多种pooling策略，其他实验设置是一样的：
Backbone为nghuyong/ernie-3.0-base-zh，训练集为Chinese-STS-B，batch size为64，t为0.05。

pooling	Chinese-STS-B (spearman, test)
CLS	0.8020
POOLER	0.7379
FIRST_LAST_AVG	0.7931
MEAN	0.8153

在中文STS-B的实验中，我们发现MEAN pooling 效果最好，但和CLS、FIRST_LAST_AVG相差不大，我们还发现个有趣的现象，用FIRST_LAST_AVG训练，再用MEAN预测，效果损失很小，或者换过来也一样，
pooling策略对中文匹配影响较小。pooling策略最佳选择MEAN。

4.5 Temperature超参的实验分析

在实验中，我们发现对比学习损失函数中的温度超参数（t）对于结果有很大影响。从下面CoSENT模型的分析实验中可以看到，当t值在0.01到0.05之间时会得到最优结果。

这个现象再次证明了BERT表示的坍缩问题，因为在句子表示都很接近的情况下，t过大会使句子间相似度更平滑，编码器很难学到知识。而t如果过小，任务就太过简单，所以需要调整到一个合适的范围内。

不同超参数t下的性能

temperature	Chinese-STS-B (spearman, test)	first-epoch-spearman(dev)	best_epoch_num
0.2	0.7711	0.8158	2
0.1	0.7945	0.8291	5
0.05	0.8051	0.8277	2
0.03	0.8061	0.8255	3
0.025	0.8065	0.8181	2
0.0125	0.8105	0.7982	9
0.01	0.8127	0.7838	9
0.005	0.7846	0.6399	4

在中文STS-B的实验中，温度超参数（t）最佳的是0.01，需要9个epoch训练，而设置t为0.05时，仅需要2个epoch即可达到最佳性能，
而且模型收敛速度更快，第一个epoch的dev结果就有0.8277，相较t=0.01的0.7838有0.04的提升。另外，Sentence-BERT第一个epoch的dev结果只有0.4630。

4.6 Batch size超参的实验分析

NLP的transformer框架下的模型，Batch size会对结果有影响，因此我们也对比了不同Batch size下在Chinese-STS-B数据集CoSENT模型的表现。

不同Batch size下的性能

batch size	Chinese-STS-B (spearman, test)	first-epoch-spearman(dev)	best_epoch_num
16	0.7891	0.8295	5
32	0.7957	0.8339	4
64	0.8051	0.8306	2
128	0.8011	0.8251	2
192	0.8018	0.8191	7

实验结果，可以看到batch size和spearman得分两者基本是成正比的，但提升很有限。该实验显示最佳batch size是64。

4.7 融合无监督信号的实验分析

无监督句子表征的模型有较大突破，为了提升模型的表征效果，我们希望能在有监督模型之后融合无监督信号，下面对比实验了Whitening、SimCSE等无监督方法。

arch	backbone	model	Chinese-STS-B (spearman)
SBERT	bert-base-chinese	SBERT-bert-chinese-finetune-ChineseSTS	0.7723
RoFormer-Sim	RoFormer-base-chinese	chinese_roformer-sim-char-ft_L-12_H-768_A-12	0.7827
SimBERT	bert-base-chinese	chinese_simbert_L-12_H-768_A-12	0.7098
SimBERT	chinese_simbert_L-12_H-768_A-12	SimBERT-base-chinese-SimCSE-cls-unsup	0.7562
SimBERT	chinese_simbert_L-12_H-768_A-12	SimBERT-base-chinese-SimCSE-first-last-avg-unsup	0.7264
BERT	bert-base-chinese	BERT-base-chinese-SimCSE-cls-unsup	0.6699
BERT	bert-base-chinese	BERT-base-chinese-SimCSE-cls-sup	0.7613
BERT	bert-base-chinese	BERT-base-chinese-mean_pooling	0.5473
BERT	bert-base-chinese	BERT-base-chinese-first_last_avg	0.5446
BERT	bert-base-chinese	BERT-base-chinese-first_last_avg-whiten(768)	0.6808
BERT	bert-base-chinese	BERT-base-chinese-sup-finetune-ChineseSTS	0.7755
CoSENT	bert-base-chinese	CoSENT-bert-base-chinese-first_last_avg	0.7942
CoSENT	hfl/chinese-macbert-base	CoSENT-macbert-base-chinese-first_last_avg	0.8051
CoSENT	hfl/chinese-macbert-base	CoSENT-macbert-base-chinese-first_last_avg-whiten(768)	0.7642
CoSENT	hfl/chinese-macbert-base	CoSENT-macbert-base-chinese-first_last_avg-whiten(384)	0.7708
CoSENT	hfl/chinese-macbert-base	CoSENT-macbert-base-chinese-first_last_avg-simcse	0.8133

从实验结果中可以看，后接whitening操作使模型效果降低了0.035，而接SimCSE模型效果提升0.008。

表明在监督模型后直接硬接无监督训练，提升不大，基于SimCSE无监督训练会有小幅提升。

5. Release Model

我们基于以上实验结果，按最优参数训练了文本表征的CoSENT模型，在中文匹配评测集上取得了SOTA效果，并具备s2s(sentence to sentence)和s2p(sentence to paraphrase)的文本相似度计算、相似文本检索能力。

训练参数

arch: CoSENT
backbone: nghuyong/ernie-3.0-base-zh
pooling: MEAN
temperature: 0.05
batch_size: 64
max_seq_length: 256

评测结果：

Arch	BackBone	Model	ATEC	BQ	LCQMC	PAWSX	STS-B	SOHU-dd	SOHU-dc	Avg	QPS
Word2Vec	word2vec	w2v-light-tencent-chinese	20.00	31.49	59.46	2.57	55.78	55.04	20.70	35.03	23769
SBERT	xlm-roberta-base	sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2	18.42	38.52	63.96	10.14	78.90	63.01	52.28	46.46	3138
Instructor	hfl/chinese-roberta-wwm-ext	moka-ai/m3e-base	41.27	63.81	74.87	12.20	76.96	75.83	60.55	57.93	2980
CoSENT	hfl/chinese-macbert-base	shibing624/text2vec-base-chinese	31.93	42.67	70.16	17.21	79.30	70.27	50.42	51.61	3008
CoSENT	hfl/chinese-lert-large	GanymedeNil/text2vec-large-chinese	32.61	44.59	69.30	14.51	79.44	73.01	59.04	53.12	2092
CoSENT	nghuyong/ernie-3.0-base-zh	shibing624/text2vec-base-chinese-sentence	43.37	61.43	73.48	38.90	78.25	70.60	53.08	59.87	3089
CoSENT	nghuyong/ernie-3.0-base-zh	shibing624/text2vec-base-chinese-paraphrase	44.89	63.58	74.24	40.90	78.93	76.70	63.30	63.08	3066

shibing624/text2vec-base-chinese模型，是用CoSENT方法训练，基于hfl/chinese-macbert-base在中文STS-B数据训练得到，并在中文STS-B测试集评估达到较好效果，模型文件已经上传HF model hub，中文通用语义匹配任务推荐使用
shibing624/text2vec-base-chinese-sentence模型，是用CoSENT方法训练，基于nghuyong/ernie-3.0-base-zh用人工挑选后的中文STS数据集训练得到，并在中文各NLI测试集评估达到较好效果，模型文件已经上传HF model hub，中文s2s语义匹配任务推荐使用
shibing624/text2vec-base-chinese-paraphrase模型，是用CoSENT方法训练，基于nghuyong/ernie-3.0-base-zh用人工挑选后的中文STS数据集，并加入了s2p数据，强化了其长文本的表征能力，并在中文各NLI测试集评估达到SOTA，模型文件已经上传HF model hub，中文s2p语义匹配任务推荐使用
为测评模型的鲁棒性，加入了未训练过的SOHU测试集，用于测试模型的泛化能力

6. 总结

在此工作中，我们分析了BERT句向量表示空间坍缩的原因，并分析了基于排序loss的句子表示CoSENT模型的优势。CoSENT在有监督训练的实验中表现出了优秀的性能，在中英文数据集上都超越了基线模型，表现出模型对句子表征的有效性。

目前，相关代码已经放Github上：shibing624/text2vec，欢迎大家使用。

参考文献

[1] Reimers, Nils, and Iryna Gurevych. “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks.” Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019.
[2] Li, Bohan, et al. “On the Sentence Embeddings from Pre-trained Language Models.” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.
[3] Gao, Jun, et al. “Representation Degeneration Problem in Training Natural Language Generation Models.” International Conference on Learning Representations. 2018.
[4] Wang, Lingxiao, et al. “Improving Neural Language Generation with Spectrum Control.” International Conference on Learning Representations. 2019.
[5] Conneau, Alexis, et al. “Supervised Learning of Universal Sentence Representations from Natural Language Inference Data.” Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017.
[6] Cer, Daniel, et al. “Universal Sentence Encoder for English.” Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2018.
[7] Wang, Shuohang, et al. “Cross-Thought for Sentence Encoder Pre-training.” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.
[8] Yang, Ziyi, et al. “Universal Sentence Representation Learning with Conditional Masked Language Model.” arXiv preprint arXiv:2012.14388 (2020).
[9] Lee, Haejun, et al. “SLM: Learning a Discourse Language Representation with Sentence Unshuffling.” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.
[10] Su, Jianlin, et al. “Whitening sentence representations for better semantics and faster retrieval.” arXiv preprint arXiv:2103.15316 (2021).
[11] Gao, Tianyu, Xingcheng Yao, and Danqi Chen. “SimCSE: Simple Contrastive Learning of Sentence Embeddings.” arXiv preprint arXiv:2104.08821 (2021).
[12] Wu, Xing, et al. “Conditional bert contextual augmentation.” International Conference on Computational Science. Springer, Cham, 2019.
[13] Zhou, Wangchunshu, et al. “BERT-based lexical substitution.” Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.
[14] He, Kaiming, et al. “Momentum contrast for unsupervised visual representation learning.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[15] Chen, Ting, et al. “A simple framework for contrastive learning of visual representations.” International conference on machine learning. PMLR, 2020.
[16] Zhang, Yan, et al. “An Unsupervised Sentence Embedding Method by Mutual Information Maximization.” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.
[17] Fang, Hongchao, et al. “Cert: Contrastive self-supervised learning for language understanding.” arXiv preprint arXiv:2005.12766 (2020).
[18] Carlsson, Fredrik, et al. “Semantic re-tuning with contrastive tension.” International Conference on Learning Representations. 2021.
[19] Giorgi, John M., et al. “Declutr: Deep contrastive learning for unsupervised textual representations.” arXiv preprint arXiv:2006.03659 (2020).
[20] Wu, Zhuofeng, et al. “CLEAR: Contrastive Learning for Sentence Representation.” arXiv preprint arXiv:2012.15466(2020).
[21] 苏剑林. (Su. 06, 2022). 《CoSENT（一）：比Sentence-BERT更有效的句向量方案》[Blog post]. Retrieved from https://kexue.fm/archives/8847

第N11周：seq2seq翻译实战-Pytorch复现计算机真好丸 pytorch 人工智能 python
文章目录一、前期准备1.搭建语言类2.文本处理函数3.文件读取函数二、Seq2Seq模型1.编码器（encoder）2.解码器（decoder）三、训练1.数据预处理2.训练函数3.评估四、评估与训练1.Loss图2.可视化注意力五、总结本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、前期准备from__future__importunicode_literals,print_fu
第N5周：Pytorch文本分类入门计算机真好丸 pytorch 分类人工智能
文章目录一、前期准备1.环境安装2.加载数据3.构建词典4.生成数据批次和迭代器二、准备模型1.定义模型2.定义实例三、训练模型1.拆分数据集并运行模型2.使用测试数据集评估模型本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、前期准备1.环境安装确保安装了torchtext与portalocker库2.加载数据importtorch#强制使用CPUdevice=torch.devi
第TR5周：Transformer实战：文本分类计算机真好丸 transformer 分类深度学习
文章目录1.准备环境1.1环境安装1.2加载数据2.数据预处理2.1构建词典2.2生成数据批次和迭代器2.3构建数据集3.模型构建3.1定义位置编码函数3.2定义Transformer模型3.3初始化模型3.4定义训练函数3.5定义评估函数4.训练模型4.1模型训练5.总结：本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.准备环境1.1环境安装这是一个使用PyTorch通过Tran
大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统_bert+lstm 2301_76348014 程序员深度学习大数据知识图谱
文章目录大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统一、项目概述二、系统实现基本流程三、项目工具所用的版本号四、所需要软件的安装和使用五、开发技术简介Django技术介绍Neo4j数据库Bootstrap4框架Echarts简介NavicatPremium15简介Layui简介Python语言介绍MySQL数据库深度学习六、核心理论贪心算法A
DeepSeek进阶开发与应用1：DeepSeek框架概述与基础应用 Evaporator Core #DeepSeek快速入门 DeepSeek进阶开发与应用 spring 自然语言处理
引言在当今的人工智能领域，深度学习技术已经成为了推动技术进步的核心动力之一。DeepSeek作为一个先进的深度学习框架，旨在为开发者和研究人员提供一个高效、灵活且易于扩展的平台，以便于他们能够快速地实现和部署各种深度学习模型。本文将深入探讨DeepSeek框架的核心架构、基础应用以及如何通过代码实现一个简单的深度学习模型。DeepSeek框架概述DeepSeek框架的设计理念是简洁而强大。它提供了
深度剖析DeepSeek本地部署：技术、实践与优化策略 Abossss AI 论文 python ai 人工智能
一、引言1.1研究背景与意义近年来，人工智能技术以迅猛之势蓬勃发展，成为推动各行业变革的核心力量。其中，大语言模型（LLMs）作为人工智能领域的关键技术，在自然语言处理、智能客服、内容创作等众多领域展现出了强大的应用潜力，引发了学术界和产业界的广泛关注。OpenAI的GPT系列模型凭借其出色的语言理解与生成能力，在全球范围内掀起了AI应用的热潮；Google的BERT模型则在自然语言理解任务中取得
AI驱动的可演化架构与前端开发效率 2401_89744464 人工智能架构前端
1.引言在当今快节奏的数字时代，软件系统需要具备强大的适应能力才能在瞬息万变的市场需求中保持竞争力。软件可演化架构的重要性日益凸显，它能够让软件系统在面对需求变更、技术升级以及市场波动时，能够快速、高效地进行调整和升级，避免因僵化的架构而导致的项目失败和资源浪费。然而，传统的软件架构往往面临着诸多挑战，例如维护成本高昂、迭代速度缓慢、难以适应新的技术和需求等。幸运的是，人工智能（AI）技术的快速发
DeepSeek+WPS/Office手把手教你玩转智能办公 herosunly DeepSeek从入门到精通 deepseek 大模型人工智能 office wps 智能办公
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法Q大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
使用Python实现深度学习模型：知识蒸馏与模型压缩 Echo_Wish Python 笔记从零开始学Python人工智能 Python算法 python 深度学习开发语言
在深度学习领域，模型的大小和计算复杂度常常是一个挑战。知识蒸馏（KnowledgeDistillation）和模型压缩（ModelCompression）是两种有效的技术，可以在保持模型性能的同时减少模型的大小和计算需求。本文将详细介绍如何使用Python实现这两种技术。目录引言知识蒸馏概述模型压缩概述实现步骤数据准备教师模型训练学生模型训练（知识蒸馏）模型压缩代码实现结论1.引言在实际应用中，深
深度学习框架探秘｜TensorFlow vs PyTorch：AI 框架的巅峰对决紫雾凌寒智启前沿：AI 洞察・创未来人工智能深度学习 tensorflow pytorch ai
在深度学习框架中，TensorFlow和PyTorch无疑是两大明星框架。前面两篇文章我们分别介绍了TensorFlow（点击查看）和PyTorch（点击查看）。它们引领着AI开发的潮流，吸引着无数开发者投身其中。但这两大框架究竟谁更胜一筹？是TensorFlow的全面与稳健，还是PyTorch的灵活与便捷？让我们一同深入剖析，探寻答案。在深度学习框架中，TensorFlow和PyTorch无疑是
DeepSeek R1 与 OpenAI O1：机器学习模型的巅峰对决学无止尽5 机器学习人工智能
我的个人主页我的专栏：人工智能领域、java-数据结构、Javase、C语言，希望能帮助到大家！！！点赞收藏❤一、引言在机器学习的广袤天地中，大型语言模型（LLM）无疑是最为璀璨的明珠。它们凭借卓越的语言理解与生成能力，正以前所未有的方式重塑着我们与信息交互的模式。DeepSeekR1和OpenAIO1作为其中的佼佼者，代表了当前技术的前沿水准，在架构设计、训练方法、性能表现以及应用场景等诸多层面
DeepSeek与ChatGPT的全面对比测试者家园人工智能 ChatGPT DeepSeek ChatGPT DeepSeek 人工智能质量效能
在人工智能（AI）领域，生成式预训练模型（GPT）已成为推动技术革新的核心力量。OpenAI的ChatGPT自发布以来，凭借其卓越的自然语言处理能力，迅速占据市场主导地位。然而，近期中国AI初创公司DeepSeek推出的R1模型，以其高效性和低成本，迅速引起全球关注。本文将深入探讨DeepSeek与ChatGPT的技术差异、性能表现以及各自的应用前景，旨在为读者提供全新的视角和启发。一、技术架构与
《AI对话秘籍：5个Prompt Engineering核心技巧让DeepSeek输出质量翻倍》 Athena-H Prompt Engineering 人工智能 prompt chatgpt gpt ai
引言随着自然语言处理技术的飞速发展，像ChatGPT这样的AI对话系统已经广泛应用于客服、教育、创作等多个领域。然而，如何高效地与这些语言模型进行交互，获得准确、相关且高质量的回复，成为了应用中的一个关键挑战。这时，PromptEngineering（提示词工程）便成为了一项必不可少的技能。PromptEngineering的核心目标是通过优化与模型的输入互动方式，让模型生成更加符合预期的输出。在
Python说课内容介绍 laocooon523857886 算法算法
一、明确课程目标1.课程目标的确定面向整个专业：Python课程作为计算机专业或相关专业中的一部分，需要对学生的编程能力、问题解决能力以及软件开发的基础技能进行培养。通过本课程，学生能够掌握Python编程的基本语法、面向对象编程、常见数据结构和算法。面向岗位：课程目标还需要结合市场需求和岗位要求。例如，数据分析、人工智能、Web开发等方向都需要具备Python编程能力。学生通过学习Python，
nlp技术 tqs_12345 人工智能自然语言处理
自然语言处理（NaturalLanguageProcessing,NLP）技术是一种计算机科学与人工智能的交叉领域，涉及机器对人类语言进行处理和理解的能力。以下是一些常见的NLP技术的示例：1.机器翻译：NLP技术可以帮助机器将一种语言翻译成另一种语言。例如，谷歌翻译使用NLP技术实现自动翻译，用户可以输入一段文本，然后谷歌翻译会自动将其翻译成其他语言。2.文本分类：NLP技术可以将文本分类到不同
景联文科技：以全面数据处理服务推动AI创新与产业智能化转型景联文科技人工智能
数据标注公司在人工智能领域扮演着重要角色，通过提供高质量的数据标注服务，帮助企业和组织训练和优化机器学习模型。从需求分析到数据交付，每一个步骤都需要严格把控，确保数据的质量和安全性。景联文科技是一家专业的数据采集与标注公司，致力于为客户提供高质量的数据处理服务，助力企业在人工智能（AI）领域的创新与发展。数据标注的四项基本流程：数据采集、数据清洗、数据标注、数据质检。数据采集数据采集是数据处理的第
《深入浅出多模态》（五）：多模态经典模型ALBEF GoAI 深入浅出多模态多模态大模型 LLM 深度学习人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：</
轻量级的注意力网络（LANMSFF）模型详解及代码复现清风AI 深度学习算法详解及代码复现深度学习人工智能神经网络 python 计算机视觉
定义与特点在深度学习领域，轻量化网络设计已成为一个重要的研究方向。LANMSFF模型作为一种新型的轻量级网络架构，在保持高性能的同时，显著降低了模型的复杂度。LANMSFF模型的核心特点可以概括为以下几个方面：轻量级设计：通过精心设计的网络结构和参数优化，在保持较高性能的同时，显著降低了模型的复杂度。注意力机制：引入了一种新的注意力机制，能够有效地捕捉图像中的关键特征，提高模型的表达能力。多尺度特
落实“双碳”行动，深兰科技推动分子能源技术在AI硬件产品领域的应用及产业化进程 AI周刊人工智能科技
10月21日，上海气候周分子能研究中心(筹)成立仪式在上海环境能源交易所举行。仪式上，深兰科技践行“双碳”目标，与上海东八能源技术有限公司签署分子能源AI应用产业化合作协议。根据协议，国际分子能量发电开拓者、上海气候周分子能研究中心(筹)总干事、首席科学家栾玉成博士团队创立的上海东八能源技术有限公司将与深兰科技共同推动具有全球创新颠覆式能源技术的分子能源发电项目成果，在人工智能硬件产品方面的产业化
Xsens惯性动捕技术优化人型机器人AI训练流程宋13810279720 动作捕捉机器人人工智能
人工智能与机器人技术的飞速发展让人型机器人逐渐从科幻概念转变为现实应用，成为未来智能生活的重要组成部分。为了实现人型机器人动作的精准与流畅，惯性动捕技术正逐步成为优化其AI训练流程的关键手段。惯性动捕技术是一种利用惯性传感器（如加速度计、陀螺仪等）捕捉人体运动数据的方法。相较于光学动捕技术，惯性动捕不受环境光线和空间限制，具有更高的便携性和灵活性。在人型机器人AI训练过程中，惯性动捕技术能够实时捕
TPAMI 2024 | SSR-2D: 从2D图像进行语义3D场景重建小白学视觉论文解读 IEEE TPAMI 深度学习顶刊论文论文解读 TPAMI
论文信息题目：SSR-2D:Semantic3DSceneReconstructionFrom2DImagesSSR-2D:从2D图像进行语义3D场景重建作者：JunwenHuang,AlexeyArtemov,YujinChen,ShuaifengZhi,KaiXu,andMatthiasNießner论文创新点首次提出了一种基于深度学习的方法，能够在不使用任何3D标注的情况下，从不完整的RGB
读算法简史：从美索不达米亚到人工智能时代15读后总结与感想兼导读躺柒人工智能算法导读总结 AI
1.基本信息算法简史：从美索不达米亚到人工智能时代克里斯·布利克利著中信出版集团股份有限公司,2024年9月出版1.1.读薄率书籍总字数18.6万字，笔记总字数51653字。读薄率51653÷186000≈27.77%1.2.读厚方向当我点击时，算法在想什么？算法霸权极简算法史：从数学到机器的故事算法的陷阱：超级平台、算法垄断与场景欺骗天才与算法：人脑与AI的数学思维算法图解1.3.笔记--章节对
spiking neural network概念学习 Zaгathustra 科研工作深度学习神经网络机器学习
我们认为，SNNs最大的优势在于其能够充分利用基于时空事件的信息。今天，我们有相当成熟的神经形态传感器，来记录环境实时的动态改变。这些动态感官数据可以与SNNs的时间处理能力相结合，以实现超低能耗的计算。在此类传感器中使用SNNs主要受限于缺乏适当的训练算法，从而可以有效地利用尖峰神经元的时间信息。实际上就精度而言，在大多数学习任务中SNNs的效果仍落后于第二代的深度学习。很明显，尖峰神经元可以实
深度学习（1)-简单神经网络示例 yyc_audio 深度学习人工智能
我们来看一个神经网络的具体实例：使用Python的Keras库来学习手写数字分类。在这个例子中，我们要解决的问题是，将手写数字的灰度图像（28像素×28像素）划分到10个类别中（从0到9）。我们将使用MNIST数据集，图2-1给出了MNIST数据集的一些样本。在机器学习中，分类问题中的某个类别叫作类（class），数据点叫作样本（sample），与某个样本对应的类叫作标签（label）。你不需要现
Python爬虫——网站基本信息 IT·小灰灰 python 爬虫开发语言网络
在智能时代，数据是新的石油。Python爬虫技术赋予了我们成为数据猎人的能力，让我们能够在网络的广袤土地上狩猎，为机器学习和人工智能的发展提供燃料目录一、介绍——Python二、介绍——Python爬虫1.请求库2.解析库3.数据存储4.多线程/多进程5.异步编程6.代理和反爬虫7.爬虫框架8.爬虫的法律和道德问题9.异常处理10.日志记录三、爬虫示例代码一、介绍——PythonPython是一种
Python 自动排班表格（代码分享）趣享先生 Python案例分享专栏 python 开发语言
✅作者简介：2022年博客新星第八。热爱国学的Java后端开发者，修心和技术同步精进。个人主页：JavaFans的博客个人信条：不迁怒，不贰过。小知识，大智慧。当前专栏：Java案例分享专栏✨特色专栏：国学周更-心性养成之路本文内容：Python自动排班表格（代码分享）前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录前言问题描述解决步骤1
理论一、大模型—概念伯牙碎琴大模型自然语言处理 ai
一、总述大模型通常指的是参数规模庞大、训练难度较高的人工智能模型。随着深度学习技术的发展，研究人员和企业越来越倾向于构建更大的模型，以提高模型的性能和泛化能力。这些大模型往往需要大量的数据和计算资源来训练，并且在实际应用中通常表现出色。大模型全称是大型语言模型（LLM，LargeLanguageModel），这个“大”主要指模型结构容量大，结构中的参数多，用于预训练大模型的数据量大。一个大模型可以
自动驾驶系列—颠覆未来驾驶：深入解析自动驾驶线控转向系统技术学步_技术自动驾驶自动驾驶人工智能机器学习线控系统
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
《一文吃透！NLTK与SpaCy，自然语言处理的神兵利器》人工智能深度学习
在人工智能的璀璨星空中，自然语言处理（NLP）无疑是最为耀眼的领域之一。它让机器能够理解、处理和生成人类语言，极大地推动了智能交互的发展。而在Python的NLP工具库中，NLTK和SpaCy就像两把锋利的宝剑，各自散发着独特的光芒。今天，就让我们深入探究这两款工具的使用技巧与优势，为你的NLP之旅增添强大助力。一、NLTK：自然语言处理的瑞士军刀NLTK（NaturalLanguageToolk
Flux架构：构建可预测的Web应用状态管理体系阿珊和她的猫架构前端
前端开发工程师、技术日更博主、已过CET6阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》蓝桥云课签约作者、上架课程《Vue.js和Egg.js开发企业级健康管理项目》、《带你从入门到实战全面掌握uni-app》前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

文本匹配模型实验报告-text2vec

文本匹配模型实验报告-text2vec

1. 背景

2. 研究现状和相关工作

2.1 句子表征学习

2.2 Sentence-BERT模型

Sentence-BERT模型为啥有效？

3. CoSENT模型介绍

3.1 基本思路

3.2 基于cos的排序损失函数

3.3 融合监督和无监督信号

4. 实验分析

4.1 英文匹配数据集

4.2 中文匹配数据集

4.3 BackBone选择的实验分析

4.4 Pooling策略的实验分析

4.5 Temperature超参的实验分析

4.6 Batch size超参的实验分析

4.7 融合无监督信号的实验分析

5. Release Model

6. 总结

参考文献

你可能感兴趣的:(深度学习,自然语言处理,人工智能)