汀、人工智能

2.特定领域知识图谱融合方案：文本匹配算法之预训练Simbert、ERNIE-Gram单塔模型等诸多模型【三】

知识图谱专栏简介：数据增强，智能标注，文本信息抽取（实体关系事件抽取）、知识融合算法方案、知识推理、模型优化、模型压缩技术等

专栏详细介绍：知识图谱专栏简介：数据增强，智能标注，文本信息抽取（实体关系事件抽取）、知识融合算法方案、知识推理、模型优化、模型压缩技术等

NLP知识图谱相关技术业务落地方案和码源，本专栏会持续更新包含知识图谱（知识融合、知识推理等）、NLP业务落地方案以及码源。
同时我也会整理总结出有价值的资料省去你大把时间，快速获取有价值信息进行科研or业务落地。

特定领域知识图谱融合方案：文本匹配算法之预训练模型SimBert、ERNIE-Gram

项目链接以及码源见文末

文本匹配任务在自然语言处理中是非常重要的基础任务之一，一般研究两段文本之间的关系。有很多应用场景；如信息检索、问答系统、智能对话、文本鉴别、智能推荐、文本数据去重、文本相似度计算、自然语言推理、问答系统、信息检索等，但文本匹配或者说自然语言处理仍然存在很多难点。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题，比如信息检索可以归结为搜索词和文档资源的匹配，问答系统可以归结为问题和候选答案的匹配，复述问题可以归结为两个同义句的匹配。

0.前言：特定领域知识图谱融合方案

本项目主要围绕着特定领域知识图谱(Domain-specific KnowledgeGraph:DKG)融合方案：文本匹配算法、知识融合学术界方案、知识融合业界落地方案、算法测评KG生产质量保障讲解了文本匹配算法的综述，从经典的传统模型到孪生神经网络“双塔模型”再到预训练模型以及有监督无监督联合模型，期间也涉及了近几年前沿的对比学习模型，之后提出了文本匹配技巧提升方案，最终给出了DKG的落地方案。这边主要以原理讲解和技术方案阐述为主，之后会慢慢把项目开源出来，一起共建KG，从知识抽取到知识融合、知识推理、质量评估等争取走通完整的流程。

0.1 前置参考项目

前置参考项目

1.特定领域知识图谱融合方案：技术知识前置【一】-文本匹配算法

https://blog.csdn.net/sinat_39620217/article/details/128718537

2.特定领域知识图谱融合方案：文本匹配算法Simnet、Simcse、Diffcse【二】

https://blog.csdn.net/sinat_39620217/article/details/128833057

3.特定领域知识图谱融合方案：文本匹配算法之预训练Simbert、ERNIE-Gram单塔模型等诸多模型【三】

https://blog.csdn.net/sinat_39620217/article/details/129026570

4.特定领域知识图谱融合方案：学以致用-问题匹配鲁棒性评测比赛验证【四】
https://blog.csdn.net/sinat_39620217/article/details/129026193

NLP知识图谱项目合集（信息抽取、文本分类、图神经网络、性能优化等）

https://blog.csdn.net/sinat_39620217/article/details/128805154

2023计算机领域顶会以及ACL自然语言处理（NLP）研究子方向汇总

https://blog.csdn.net/sinat_39620217/article/details/128897539

0.2 结论先看

仿真结果如下：

模型	dev acc
Simcse（无监督）	58.97%
Diffcse（无监督）	63.23%
bert-base-chinese	86.53%
bert-wwm-chinese	86.33%
bert-wwm-ext-chinese	86.05%
ernie-tiny	86.07%
roberta-wwm-ext	87.53%
rbt3	85.37%
rbtl3	85.17%
ERNIE-1.0-Base	89.34%
ERNIE-1.0-Base	89.34%
ERNIE-Gram-Base-Pointwise	90.58%

SimCSE 模型适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。
相比于 SimCSE 模型，DiffCSE模型会更关注语句之间的差异性，具有精确的向量表示能力。DiffCSE 模型同样适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。
明显看到有监督模型中ERNIE-Gram比之前所有模型性能的优秀

1.SimBERT（UniLM）

预训练模型按照训练方式或者网络结构可以分成三类：

一是以BERT[2]为代表的自编码（Auto-Encoding）语言模型，Autoencoding Language Modeling，自编码语言模型：通过上下文信息来预测当前被mask的token，代表有BERT、Word2Vec(CBOW)等.它使用MLM做预训练任务，自编码预训模型往往更擅长做判别类任务，或者叫做自然语言理解（Natural Language Understanding，NLU）任务，例如文本分类，NER等。

$p(x)=\prod_{x \in \text { Mask }} p(x \mid$ content $)$

缺点：由于训练中采用了[MASK]标记，导致预训练与微调阶段不一致的问题，且对于生成式问题的支持能力较差
优点：能够很好的编码上下文语义信息，在自然语言理解(NLU)相关的下游任务上表现突出

二是以GPT[3]为代表的自回归（Auto-Regressive）语言模型，Aotoregressive Lanuage Modeling，自回归语言模型：根据前面(或后面)出现的token来预测当前时刻的token，代表模型有ELMO、GTP等,它一般采用生成类任务做预训练，类似于我们写一篇文章，自回归语言模型更擅长做生成类任务（Natural Language Generating，NLG），例如文章生成等。

$\begin{aligned} & \text { forward: } p(x)=\prod_{t=1}^T p\left(x_t \mid x_{t}\right)\end{aligned}$

缺点：只能利用单向语义而不能同时利用上下文信息
优点：对自然语言生成任务(NLG)友好，符合生成式任务的生成过程

三是以encoder-decoder为基础模型架构的预训练模，例如MASS[4]，它通过编码器将输入句子编码成特征向量，然后通过解码器将该特征向量转化成输出文本序列。基于Encoder-Decoder的预训练模型的优点是它能够兼顾自编码语言模型和自回归语言模型：在它的编码器之后接一个分类层便可以制作一个判别类任务，而同时使用编码器和解码器便可以做生成类任务。

这里要介绍的统一语言模型（Unified Language Model，UniLM）[1]从网络结构上看，它的结构是和BERT相同的编码器的结构。但是从它的预训练任务上来看，它不仅可以像自编码语言模型那样利用掩码标志的上下文进行训练，还可以像自回归语言模型那样从左向右的进行训练。甚至可以像Encoder-Decoder架构的模型先对输入文本进行编码，再从左向右的生成序列。

UniLM是在微软研究院在BERT的基础上提出的预训练语言模型，被称为统一预训练语言模型。使用三种特殊的Mask的预训练目标，从而使得模型可以用于NLG，同时在NLU任务获得和BERT一样的效果
它可以完成单向、序列到序列和双向预测任务，可以说是结合了AR和AE两种语言模型的优点，UniLM在文本摘要、生成式问题回答等领域取得了SOTA的成绩

[1] Dong, Li, et al. “Unified language model pre-training for natural language understanding and generation.” Advances in Neural Information Processing Systems 32 (2019).

[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[3] Radford, A., Narasimhan, K., Salimans, T. and Sutskever, I., 2018. Improving language understanding by generative pre-training.

[4] Song, Kaitao, et al. "Mass: Masked sequence to sequence pre-training for language generation."arXiv preprint arXiv:1905.02450(2019).

1.1 UniLM 模型详解

原始论文：Unified Language Model Pre-training for Natural Language Understanding and Generation

刚介绍的三种不同的类型的预训练架构往往需要使用不同的预训练任务进行训练。但是这些任务都可以归纳为根据已知的内容预测未知的内容，不同的是哪些内容是我们已知的，哪些是需要预测的。UniLM最核心的内容将用来训练不同架构的任务都统一到了一种类似于掩码语言模型的框架上，然后通过一个变量掩码矩阵M（Mask Matrix）
来适配不同的任务。UniLM所有核心的内容可以概括为下图。

模型框架如上图所示，在预训练阶段，UniLM模型通过三种不同目标函数的语言模型(包括：双向语言模型，单向语言模型和序列到序列语言模型)，去共同学习一个Transformer网络；为了控制对将要预测的token可见到的上下文，使用了不同的self-attention mask来实现。即通过不同的掩码来控制预测单词的可见上下文词语数量，实现不同的模型表征.

1.1.1 模型输入

首先对于一个输入句子，UniLM采用了WordPiece的方式对其进行了分词。除了分词得到的token嵌入，UniLM中添加了位置嵌入（和BERT相同的方式）和用于区分文本对的两个段的段嵌入（Segment Embedding）。为了得到整句的特征向量，UniLM在句子的开始添加了[SOS]标志。为了分割不同的段，它向其中添加了[EOS]标志。具体例子可以参考图中的蓝色虚线框中的内容。包括token embedding，position embedding，segment embedding，同时segment embedding还可以作为模型采取何种训练方式(单向，双向，序列到序列)的一种标识

1.1.2 网络结构

如图1红色虚线框中的内容，UniLM使用了 $L$ 层Transformer的架构，为了区分使不同的预训练任务可以共享这个网络，UniLM在其中添加了掩码矩阵的运算符。具体的讲，我们假设输入文本表示为
$\left\{\boldsymbol{x}_i\right\}_{i=1}^{|x|}$ ，它经过嵌入层后得到第一层的输入 $\boldsymbol{H}^0=\left[\boldsymbol{x}_1, \cdots, \boldsymbol{x}_{|x|}\right]$ ，然后经过 $L$ 层Transformer后得到最终的特征向量，表示为 $\boldsymbol{H}^l=\text { Transformer }\left(\boldsymbol{H}^{l-1}\right), l \in[1, L]$ ,再抽象编码成 $\mathbf{H}_1=\left[\mathbf{h}_1^{\mathbf{l}}, \ldots, \mathbf{h}_{|\mathbf{x}|}^{\mathbf{1}}\right]$ 的不同层次的上下文表示。在每个 $\text{Transformer}_l$ 块中，使用多个self-attention heads来聚合前一层的输出向量。对于第 $l$ 个 $\text{Transformer}_l$ 层，self-attention head $\mathbf A_l$ 的输出通过以下方。不同于原始的Transformer，UniLM在其中添加了掩码矩阵，以第 $l$ 层为例，此时Transformer转化为式(1)到式(3)所示的形式。

$\begin{gathered}\boldsymbol{Q}_l=\boldsymbol{H}^{l-1} \boldsymbol{W}_l^Q \quad \boldsymbol{K}_l=\boldsymbol{H}^{l-1} \boldsymbol{W}_l^K \quad \boldsymbol{V}_l=\boldsymbol{H}^{l-1} \boldsymbol{W}_l^V \\ \boldsymbol{M}_{i j}= \begin{cases}0, & \text { allow to attend } \\ -\infty & \text { prevent from attending }\end{cases} \\ \boldsymbol{A}_l=\operatorname{softmax}\left(\frac{\boldsymbol{Q}_l \boldsymbol{K}_l^{\top}}{\sqrt{d_k}}+\boldsymbol{M}\right) \boldsymbol{V}_l\end{gathered}$

其中 $\mathbf{H}^{l-1} \in \mathbb{R}^{|x| \times d_h}$ 分别使用参数矩阵 $\boldsymbol{W}_l^Q, \boldsymbol{W}_l^K, \boldsymbol{W}_l^V$ 分别线性地投影到三元组Query，Key，Value中， $\in \mathbb{R}^{|x| \times |x| }$ 是我们前面多次提到过的用于控制预训练任务的掩码矩阵。通过根据掩码矩阵 $M$ 确定一对tokens是否可以相互attend，覆盖被编码的特征，让预测时只能关注到与特定任务相关的特征，从而实现了不同的预训练方式.

1.1.3 任务统一

UniLM共有4个预训练任务，除了图1中所示的三个语言模型外，还有一个经典的NSP任务，下面我们分别介绍它们。

双向语言模型：
- MASK完形填空任务，输入的是一个文本对 $SOS,x_1,x_2,Mask,x_4,EOS,x_5,MASK,x_7,EOS]$
- 双向语言模型是图1的最上面的任务，它和掩码语言模型一样就是利用上下文预测被掩码的部分。，与Bert模型一致，在预测被掩蔽token时，可以观察到所有的token，如上图所示，使用全0矩阵来作为掩码矩阵,模型需要根据所有的上下文分析，所以 $M$ 是一个0矩阵。
单向语言模型：
- MASK完形填空任务，输入的是一个单独的文本 $x_1,x_2,Mask,x_4]$
- 单向语言模型可以使从左向右也可以是从右向左，图1的例子是从左向右的，也就是GPT[3]中使用的掩码方式。在这种预测方式中，模型在预测第t时间片的内容时只能看到第t时间片之前的内容，因此 $M$ 是一个上三角全为 $-\infty$ 的上三角矩阵（图1中第二个掩码矩阵的阴影部分）。同理，当单向语言模型是从右向左时， $M$ 是一个下三角矩阵。在这种训练方式中，观测序列分为从左到右和从右向左两种，从左到右，即仅通过被掩蔽token的左侧所有本文来预测被掩蔽的token；从右到左，则是仅通过被掩蔽token的右侧所有本文来预测被掩蔽的token，如上图所示，使用上三角矩阵来作为掩码矩阵，阴影部分为，空白部分为0,
Seq-to-Seq语言模型：
- MASK完形填空任务，输入的是一个文本对 $SOS,x_1,x_2,Mask,x_4,EOS,x_5,MASK,x_7,EOS]$
- 如果被掩蔽token在第一个文本序列中，那么仅可以使用第一个文本序列中所有token，不能使用第二个文本序列的任何信息；如果被掩蔽token在第二个文本序列中，那么使用一个文本序列中所有token和第二个文本序列中被掩蔽token的左侧所有token预测被掩蔽token
- 如上图所示，在训练的时候，一个序列由[SOS]S_1[EOS]S_2[EOS]组成，其中S1是source segments，S2是target segments。随机mask两个segment其中的词，其中如果masked是source segment的词的话，则它可以attend to所有的source segment的tokens，如果masked的是target segment，则模型只能attend to所有的source tokens以及target segment中当前词和该词左边的所有tokens，这样模型可以隐形地学习到一个双向的encoder和单向decoder(类似transformer)

在Seq-to-Seq任务中，例如机器翻译，我们通常先通过编码器将输入句子编码成特征向量，然后通过解码器将这个特征向量解码成预测内容。UniLM的结构和传统的Encoder-Decoder模型的差异非常大，它仅有一个多层的Transformer构成。在进行预训练时，UniLM首先将两个句子拼接成一个序列，并通过[EOS]来分割句子，表示为：[SOS]S1[EOS]S2[EOS]。在编码时，我们需要知道输入句子的完整内容，因此不需要对输入文本进行覆盖。但是当进行解码时，解码器的部分便变成一个从左向右的单向语言模型。因此对于句子中的第1个片段（S1部分）对应的块矩阵，它是一个0矩阵（左上块矩阵），对于的句子第2个片段（S2部分）的对应的块矩阵，它是上三角矩阵的一部分（右上块矩阵）。因此我们可以得到图1中最下面的 $M$ 。可以看出，UniLM虽然采用了编码器的架构，但是在训练Seq-to-Seq语言模型时它也可以像经典的Encoder-to-Decoder那样关注到输入的全部特征以及输出的已生成的特征。

NSP：UniLM也像BERT一样添加了NSP作为预训练任务。对于双向语言模型(Bidirectional LM)，与Bert模型一样，也进行下一个句子预测。如果是第一段文本的下一段文本，则预测1；否则预测0

1.1.4 训练与微调

训练：在训练时，1/3的时间用来训练双向语言模型，1/3的时间用来训练单向语言模型，其中从左向右和从右向左各站一半，最后1/3用了训练Encoder-Decoder架构。

微调：对于NLU任务来说，我们可以直接将UniLM视作一个编码器，然后通过[SOS]标志得到整句的特征向量，再通过在特征向量后添加分类层得到预测的类别。对于NLG任务来说，我们可以像前面介绍的把句子拼接成序列“[SOS]S1[EOS]S2[EOS]”。其中S1是输入文本的全部内容。为了进行微调，我们会随机掩码掉目标句子S2的部分内容。同时我们可会掩码掉目标句子的[EOS]，我们的目的是让模型自己预测何时预测[EOS]从而停止预测，而不是预测一个我们提前设置好的长度。

网络设置：24层Transformer，1024个hidden size，16个attention heads
参数大小：340M
初始化：直接采用Bert-Large的参数初始化
激活函数：GELU，与bert一样
dropout比例：0.1
权重衰减因子：0.01
batch_size：330
混合训练方式：对于一个batch，1/3时间采用双向语言模型的目标，1/3的时间采用Seq2Seq语言模型目标，最后1/3平均分配给两种单向学习的语言模型，也就是left-to-right和right-to-left方式各占1/6时间
MASK方式：总体比例15%，其中80%的情况下直接用[MASK]替代，10%的情况下随机选择一个词替代，最后10%的情况用真实值。还有就是80%的情况是每次只mask一个词，另外20%的情况是mask掉bi-gram或者tri-gram

1.1.5 小结

UniLM和很多Encoder-Decoder架构的模型一样（例如MASS）像统一NLU和NLG任务，但是无疑UniLM的架构更加优雅。像MASS在做NLU任务时，它只会采用模型的Encoder部分，从而丢弃了Decoder部分的全部特征。UniLM有一个问题是在做机器翻译这样经典的Seq-to-Seq任务时，它的掩码机制导致它并没有使用表示[SOS]标志对应的全句特征，而是使用了输入句子的序列。这个方式可能缺乏了对整句特征的捕获，从而导致生成的内容缺乏对全局信息的把控。此外，UniLM在五个NLG数据集上的表现优于以前的最新模型：CNN/DailyMail和Gigaword文本摘要、SQuAD问题生成、CoQA生成问题回答和DSTC7基于对话生成，其优势总结如下：

三种不同的训练目标，网络参数共享
网络参数共享，使得模型避免了过拟合于某单一的语言模型，使得学习出来的模型更加具有普适性
采用了Seq2Seq语言模型，使得其在能够完成NLU任务的同时，也能够完成NLG任务

1.2 SimBert

1.2.1 融合检索和生成的SimBERT模型

基于UniLM思想、融检索与生成于一体的BERT模型。

权重下载：https://github.com/ZhuiyiTechnology/pretrained-models

UniLM的核心是通过特殊的Attention Mask来赋予模型具有Seq2Seq的能力。假如输入是“你想吃啥”，目标句子是“白切鸡”，那UNILM将这两个句子拼成一个：[CLS] 你想吃啥 [SEP] 白切鸡 [SEP]，然后接如图的Attention Mask：

换句话说，[CLS] 你想吃啥 [SEP]这几个token之间是双向的Attention，而白切鸡 [SEP]这几个token则是单向Attention，从而允许递归地预测白切鸡 [SEP]这几个token，所以它具备文本生成能力。

UNILM做Seq2Seq模型图示。输入部分内部可做双向Attention，输出部分只做单向Attention。

Seq2Seq只能说明UniLM具有NLG的能力，那前面为什么说它同时具备NLU和NLG能力呢？因为UniLM特殊的Attention Mask，所以[CLS] 你想吃啥 [SEP]这6个token只在它们之间相互做Attention，而跟白切鸡 [SEP]完全没关系，这就意味着，尽管后面拼接了白切鸡 [SEP]，但这不会影响到前6个编码向量。再说明白一点，那就是前6个编码向量等价于只有[CLS] 你想吃啥 [SEP]时的编码结果，如果[CLS]的向量代表着句向量，那么它就是你想吃啥的句向量，而不是加上白切鸡后的句向量。

由于这个特性，UniLM在输入的时候也随机加入一些[MASK]，这样输入部分就可以做MLM任务，输出部分就可以做Seq2Seq任务，MLM增强了NLU能力，而Seq2Seq增强了NLG能力，一举两得。

1.2.2 SimBert

SimBERT属于有监督训练，训练语料是自行收集到的相似句对，通过一句来预测另一句的相似句生成任务来构建Seq2Seq部分，然后前面也提到过[CLS]的向量事实上就代表着输入的句向量，所以可以同时用它来训练一个检索任务，如下图

假设SENT_a和SENT_b是一组相似句，那么在同一个batch中，把[CLS] SENT_a [SEP] SENT_b [SEP]和[CLS] SENT_b [SEP] SENT_a [SEP]都加入训练，做一个相似句的生成任务，这是Seq2Seq部分。

另一方面，把整个batch内的[CLS]向量都拿出来，得到一个bxd的句向量矩阵V（b是batch_size，d是hidden_size），然后对d维度做l2归一化，得到新的V，然后两两做内积，得到bxv的相似度矩阵VV^T，接着乘以一个scale（我们取了30），并mask掉对角线部分，最后每一行进行softmax，作为一个分类任务训练，每个样本的目标标签是它的相似句（至于自身已经被mask掉）。说白了，就是把batch内所有的非相似样本都当作负样本，借助softmax来增加相似样本的相似度，降低其余样本的相似度。

详细介绍请看：https://kexue.fm/archives/7427

部分结果展示：

>>> gen_synonyms(u'微信和支付宝哪个好？')

[
    u'微信和支付宝，哪个好?',
    u'微信和支付宝哪个好',
    u'支付宝和微信哪个好',
    u'支付宝和微信哪个好啊',
    u'微信和支付宝那个好用？',
    u'微信和支付宝哪个好用',
    u'支付宝和微信那个更好',
    u'支付宝和微信哪个好用',
    u'微信和支付宝用起来哪个好？',
    u'微信和支付宝选哪个好',
    u'微信好还是支付宝比较用',
    u'微信与支付宝哪个',
    u'支付宝和微信哪个好用一点？',
    u'支付宝好还是微信',
    u'微信支付宝究竟哪个好',
    u'支付宝和微信哪个实用性更好',
    u'好，支付宝和微信哪个更安全？',
    u'微信支付宝哪个好用？有什么区别',
    u'微信和支付宝有什么区别？谁比较好用',
    u'支付宝和微信哪个好玩'
]

>>> most_similar(u'怎么开初婚未育证明', 20)
[
    (u'开初婚未育证明怎么弄？', 0.9728098), 
    (u'初婚未育情况证明怎么开？', 0.9612292), 
    (u'到哪里开初婚未育证明？', 0.94987774), 
    (u'初婚未育证明在哪里开？', 0.9476072), 
    (u'男方也要开初婚证明吗?', 0.7712214), 
    (u'初婚证明除了村里开，单位可以开吗？', 0.63224965), 
    (u'生孩子怎么发', 0.40672967), 
    (u'是需要您到当地公安局开具变更证明的', 0.39978087), 
    (u'淘宝开店认证未通过怎么办', 0.39477515), 
    (u'您好，是需要当地公安局开具的变更证明的', 0.39288986), 
    (u'没有工作证明，怎么办信用卡', 0.37745982), 
    (u'未成年小孩还没办身份证怎么买高铁车票', 0.36504325), 
    (u'烟草证不给办，应该怎么办呢？', 0.35596085), 
    (u'怎么生孩子', 0.3493368), 
    (u'怎么开福利彩票站', 0.34158638), 
    (u'沈阳烟草证怎么办？好办不？', 0.33718678), 
    (u'男性不孕不育有哪些特征', 0.33530876), 
    (u'结婚证丢了一本怎么办离婚', 0.33166665), 
    (u'怎样到地税局开发票？', 0.33079252), 
    (u'男性不孕不育检查要注意什么？', 0.3274408)
]

1.2.3 SimBER训练预测

SimBERT的模型权重是以Google开源的BERT模型为基础，基于微软的UniLM思想设计了融检索与生成于一体的任务，来进一步微调后得到的模型，所以它同时具备相似问生成和相似句检索能力。

数据集使用的是LCQMC相关情况参考：https://aistudio.baidu.com/aistudio/projectdetail/5423713?contributionType=1

#数据准备：使用PaddleNLP内置数据集
from paddlenlp.datasets import load_dataset
train_ds, dev_ds, test_ds = load_dataset("lcqmc", splits=["train", "dev", "test"])

#保存数据集并查看
import json
with open("/home/aistudio/output/test.txt", "w+",encoding='UTF-8') as f:    #a :   写入文件，若文件不存在则会先创建再写入，但不会覆盖原文件，而是追加在文件末尾
    for result in dev_ds:
        line = json.dumps(result, ensure_ascii=False)  #对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False
        f.write(line + "\n")
#数据有上传一份也有内置读取，根据个人喜好自行选择

待预测数据集部分展示：

开初婚未育证明怎么弄？	初婚未育情况证明怎么开？	1
谁知道她是网络美女吗？	爱情这杯酒谁喝都会醉是什么歌	0
人和畜生的区别是什么？	人与畜生的区别是什么！	1
男孩喝女孩的尿的故事	怎样才知道是生男孩还是女孩	0
这种图片是用什么软件制作的？	这种图片制作是用什么软件呢？	1
这腰带是什么牌子	护腰带什么牌子好	0
什么牌子的空调最好！	什么牌子的空调扇最好	0

这里要注意数据格式。没有标签的

开初婚未育证明怎么弄？	初婚未育情况证明怎么开？	
谁知道她是网络美女吗？	爱情这杯酒谁喝都会醉是什么歌	
人和畜生的区别是什么？	人与畜生的区别是什么！	
男孩喝女孩的尿的故事	怎样才知道是生男孩还是女孩	
这种图片是用什么软件制作的？	这种图片制作是用什么软件呢？	
这腰带是什么牌子	护腰带什么牌子好	
什么牌子的空调最好！	什么牌子的空调扇最好

#模型预测
# %cd SimBERT
!export CUDA_VISIBLE_DEVICES=0
!python predict.py --input_file /home/aistudio/LCQMC/dev.txt

按照predict.py.py进行预测得到相似度,部分展示：

{'query': '开初婚未育证明怎么弄？', 'title': '初婚未育情况证明怎么开？', 'similarity': 0.9500292}
{'query': '谁知道她是网络美女吗？', 'title': '爱情这杯酒谁喝都会醉是什么歌', 'similarity': 0.24593769}
{'query': '人和畜生的区别是什么？', 'title': '人与畜生的区别是什么！', 'similarity': 0.9916624}
{'query': '男孩喝女孩的尿的故事', 'title': '怎样才知道是生男孩还是女孩', 'similarity': 0.3250241}
{'query': '这种图片是用什么软件制作的？', 'title': '这种图片制作是用什么软件呢？', 'similarity': 0.9774641}
{'query': '这腰带是什么牌子', 'title': '护腰带什么牌子好', 'similarity': 0.74771273}
{'query': '什么牌子的空调最好！', 'title': '什么牌子的空调扇最好', 'similarity': 0.83304036}

以阈值0.9以上为相似度判断，得到结果和标注答案一致1010100.

2.Sentence Transformers (ERNIE/BERT/RoBERTa/Electra)

随着深度学习的发展，模型参数的数量飞速增长。为了训练这些参数，需要更大的数据集来避免过拟合。然而，对于大部分NLP任务来说，构建大规模的标注数据集非常困难（成本过高），特别是对于句法和语义相关的任务。相比之下，大规模的未标注语料库的构建则相对容易。为了利用这些数据，我们可以先从其中学习到一个好的表示，再将这些表示应用到其他任务中。最近的研究表明，基于大规模未标注语料库的预训练模型（Pretrained Models, PTM) 在NLP任务上取得了很好的表现。

近年来，大量的研究表明基于大型语料库的预训练模型（Pretrained Models, PTM）可以学习通用的语言表示，有利于下游NLP任务，同时能够避免从零开始训练模型。随着计算能力的发展，深度模型的出现（即 Transformer）和训练技巧的增强使得 PTM 不断发展，由浅变深。

百度的预训练模型ERNIE经过海量的数据训练后，其特征抽取的工作已经做的非常好。借鉴迁移学习的思想，我们可以利用其在海量数据中学习的语义信息辅助小数据集（如本示例中的医疗文本数据集）上的任务。以 ERNIE 为代表的模型Fine-tune完成文本匹配任务。

使用预训练模型ERNIE完成文本匹配任务，大家可能会想到将query和title文本拼接，之后输入ERNIE中，取CLS特征（pooled_output），之后输出全连接层，进行二分类。如下图ERNIE用于句对分类任务的用法：

然而，以上用法的问题在于，ERNIE的模型参数非常庞大，导致计算量非常大，预测的速度也不够理想。从而达不到线上业务的要求。针对该问题，可以使用PaddleNLP工具搭建Sentence Transformer网络。

**Sentence Transformer采用了双塔（Siamese）的网络结构。Query和Title分别输入ERNIE，共享一个ERNIE参数，得到各自的token embedding特征。之后对token embedding进行pooling（此处教程使用mean pooling操作），之后输出分别记作u，v。之后将三个表征（u,v,|u-v|)拼接起来，进行二分类。网络结构如上图所示。同时，不仅可以使用ERNIR作为文本语义特征提取器，可以利用BERT/RoBerta/Electra等模型作为文本语义特征提取器
**

论文参考：Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks https://arxiv.org/abs/1908.10084

那么Sentence Transformer采用Siamese的网路结构，是如何提升预测速度呢？

Siamese的网络结构好处在于query和title分别输入同一套网络。如在信息搜索任务中，此时就可以将数据库中的title文本提前计算好对应sequence_output特征，保存在数据库中。当用户搜索query时，只需计算query的sequence_output特征与保存在数据库中的title sequence_output特征，通过一个简单的mean_pooling和全连接层进行二分类即可。从而大幅提升预测效率，同时也保障了模型性能。

关于匹配任务常用的Siamese网络结构可以参考：https://blog.csdn.net/thriving_fcl/article/details/73730552

2.1 模型简介

针对中文文本匹配问题，开源了一系列模型：

BERT(Bidirectional Encoder Representations from Transformers)中文模型，简写bert-base-chinese，其由12层Transformer网络组成。
ERNIE(Enhanced Representation through Knowledge Integration)，支持ERNIE 1.0中文模型（简写ernie-1.0）和ERNIE Tiny中文模型（简写ernie-tiny)。其中ernie由12层Transformer网络组成，ernie-tiny由3层Transformer网络组成。
RoBERTa(A Robustly Optimized BERT Pretraining Approach)，支持12层Transformer网络的roberta-wwm-ext。

在LQCMC数据集下各个模型评估：

模型	dev acc	test acc
bert-base-chinese	0.86537	0.84440
bert-wwm-chinese	0.86333	0.84128
bert-wwm-ext-chinese	0.86049	0.83848
ernie-1.0	0.87480	0.84760
ernie-tiny	0.86071	0.83352
roberta-wwm-ext	0.87526	0.84904
rbt3	0.85367	0.83464
rbtl3	0.85174	0.83744

2.2 模型训练

以中文文本匹配公开数据集LCQMC为示例数据集，可以运行下面的命令，在训练集（train.tsv）上进行模型训练，并在开发集（dev.tsv）验证

部分结果展示：

global step 7010, epoch: 8, batch: 479, loss: 0.06888, accu: 0.97227, speed: 1.40 step/s
global step 7020, epoch: 8, batch: 489, loss: 0.08377, accu: 0.97617, speed: 6.30 step/s
global step 7030, epoch: 8, batch: 499, loss: 0.07471, accu: 0.97630, speed: 6.32 step/s
global step 7040, epoch: 8, batch: 509, loss: 0.05239, accu: 0.97559, speed: 6.32 step/s
global step 7050, epoch: 8, batch: 519, loss: 0.04824, accu: 0.97539, speed: 6.30 step/s
global step 7060, epoch: 8, batch: 529, loss: 0.05198, accu: 0.97617, speed: 6.42 step/s
global step 7070, epoch: 8, batch: 539, loss: 0.07196, accu: 0.97651, speed: 6.42 step/s
global step 7080, epoch: 8, batch: 549, loss: 0.07003, accu: 0.97646, speed: 6.36 step/s
global step 7090, epoch: 8, batch: 559, loss: 0.10023, accu: 0.97587, speed: 6.34 step/s
global step 7100, epoch: 8, batch: 569, loss: 0.04805, accu: 0.97641, speed: 6.08 step/s
eval loss: 0.46545, accu: 0.87264
[2023-02-07 17:31:29,933] [    INFO] - tokenizer config file saved in ./checkpoints_ernie/model_7100/tokenizer_config.json
[2023-02-07 17:31:29,933] [    INFO] - Special tokens file saved in ./checkpoints_ernie/model_7100/special_tokens_map.json

代码示例中使用的预训练模型是ERNIE，如果想要使用其他预训练模型如BERT，RoBERTa，Electra等，只需更换model 和 tokenizer即可。

# 使用 ERNIE 预训练模型
# ernie-3.0-medium-zh
model = AutoModel.from_pretrained('ernie-3.0-medium-zh')
tokenizer = AutoTokenizer.from_pretrained('ernie-3.0-medium-zh')

# ernie-1.0
# model = AutoModel.from_pretrained('ernie-1.0-base-zh')
# tokenizer = AutoTokenizer.from_pretrained('ernie-1.0-base-zh')

# ernie-tiny
# model = AutoModel.Model.from_pretrained('ernie-tiny')
# tokenizer = AutoTokenizer.from_pretrained('ernie-tiny')


# 使用 BERT 预训练模型
# bert-base-chinese
# model = AutoModel.Model.from_pretrained('bert-base-chinese')
# tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')

# bert-wwm-chinese
# model = AutoModel.from_pretrained('bert-wwm-chinese')
# tokenizer = AutoTokenizer.from_pretrained('bert-wwm-chinese')

# bert-wwm-ext-chinese
# model = AutoModel.from_pretrained('bert-wwm-ext-chinese')
# tokenizer = AutoTokenizer.from_pretrained('bert-wwm-ext-chinese')


# 使用 RoBERTa 预训练模型
# roberta-wwm-ext
# model = AutoModel..from_pretrained('roberta-wwm-ext')
# tokenizer = AutoTokenizer.from_pretrained('roberta-wwm-ext')

# roberta-wwm-ext
# model = AutoModel.from_pretrained('roberta-wwm-ext-large')
# tokenizer = AutoTokenizer.from_pretrained('roberta-wwm-ext-large')

更多预训练模型，参考transformers

程序运行时将会自动进行训练，评估，测试。同时训练过程中会自动保存模型在指定的save_dir中。如：

checkpoints/
├── model_100
│   ├── model_config.json
│   ├── model_state.pdparams
│   ├── tokenizer_config.json
│   └── vocab.txt
└── ...

NOTE:

如需恢复模型训练，则可以设置init_from_ckpt，如init_from_ckpt=checkpoints/model_100/model_state.pdparams。
如需使用ernie-tiny模型，则需要提前先安装sentencepiece依赖，如pip install sentencepiece

#模型预测
!export CUDA_VISIBLE_DEVICES=0
!python predict.py --device gpu --params_path /home/aistudio/Fine-tune/checkpoints_ernie/model_7100/model_state.pdparams

输出结果：

Data: ['开初婚未育证明怎么弄？', '初婚未育情况证明怎么开？'] 	 Lable: similar
Data: ['谁知道她是网络美女吗？', '爱情这杯酒谁喝都会醉是什么歌'] 	 Lable: dissimilar
Data: ['人和畜生的区别是什么？', '人与畜生的区别是什么！'] 	 Lable: similar
Data: ['男孩喝女孩的尿的故事', '怎样才知道是生男孩还是女孩'] 	 Lable: dissimilar
Data: ['这种图片是用什么软件制作的？', '这种图片制作是用什么软件呢？'] 	 Lable: similar
Data: ['这腰带是什么牌子', '护腰带什么牌子好'] 	 Lable: dissimilar
Data: ['什么牌子的空调最好！', '什么牌子的空调扇最好'] 	 Lable: dissimilar

1010100和Simbert以及标注真实标签一致

修改代码api接口参考：https://www.paddlepaddle.org.cn/documentation/docs/zh/api/paddle/argmax_cn.html#argmax

2.3小结

基于双塔 Point-wise 范式的语义匹配模型 SimNet 和 Sentence Transformers, 这 2 种方案计算效率更高，适合对延时要求高、根据语义相似度进行粗排的应用场景。

关于Sentence Transformer更多信息参考www.SBERT.net以及论文：

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks (EMNLP 2019)
Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation (EMNLP 2020)
Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks (arXiv 2020)

3.预训练模型 ERNIE-Gram 的单塔文本匹配

文本匹配任务数据每一个样本通常由两个文本组成（query，title）。类别形式为 0 或 1，0 表示 query 与 title 不匹配； 1 表示匹配。

基于单塔 Point-wise 范式的语义匹配模型 ernie_matching: 模型精度高、计算复杂度高, 适合直接进行语义匹配 2 分类的应用场景。
基于单塔 Pair-wise 范式的语义匹配模型 ernie_matching: 模型精度高、计算复杂度高, 对文本相似度大小的序关系建模能力更强，适合将相似度特征作为上层排序模块输入特征的应用场景。
基于双塔 Point-Wise 范式的语义匹配模型这2 种方案计算效率更高，适合对延时要求高、根据语义相似度进行粗排的应用场景。

Pointwise：输入两个文本和一个标签，可看作为一个分类问题，即判断输入的两个文本是否匹配。
Pairwise：输入为三个文本，分别为Query以及对应的正样本和负样本，该训练方式考虑到了文本之间的相对顺序。

单塔/双塔

单塔：先将输入文本合并，然后输入到单一的神经网络模型。
双塔：对输入文本分别进行编码成固定长度的向量，通过文本的表示向量进行交互计算得到文本之间的关系。

本项目使用语义匹配数据集 LCQMC 作为训练集 , 基于 ERNIE-Gram 预训练模型热启训练并开源了单塔 Point-wise 语义匹配模型，用户可以直接基于这个模型对文本对进行语义匹配的 2 分类任务

代码结构说明

ernie_matching/
├── deply # 部署
|   └── python
|       └── predict.py # python 预测部署示例
├── export_model.py # 动态图参数导出静态图参数脚本
├── model.py # Point-wise & Pair-wise 匹配模型组网
├── data.py # Point-wise & Pair-wise 训练样本的转换逻辑 、Pair-wise 生成随机负例的逻辑
├── train_pointwise.py # Point-wise 单塔匹配模型训练脚本
├── train_pairwise.py # Pair-wise 单塔匹配模型训练脚本
├── predict_pointwise.py # Point-wise 单塔匹配模型预测脚本，输出文本对是否相似: 0、1 分类
├── predict_pairwise.py # Pair-wise 单塔匹配模型预测脚本，输出文本对的相似度打分
└── train.py # 模型训练评估

数据集简介：

LCQMC是百度知道领域的中文问题匹配数据集，目的是为了解决在中文领域大规模问题匹配数据集的缺失。该数据集从百度知道不同领域的用户问题中抽取构建数据。

3.1模型训练与预测

以中文文本匹配公开数据集 LCQMC 为示例数据集，可以运行下面的命令，在训练集（train.tsv）上进行单塔 Point-wise 模型训练，并在开发集（dev.tsv）验证。

%cd ERNIE_Gram
!unset CUDA_VISIBLE_DEVICES
!python -u -m paddle.distributed.launch --gpus "0" train_pointwise.py \
        --device gpu \
        --save_dir ./checkpoints \
        --batch_size 32 \
        --learning_rate 2E-5\
        --save_step 1000 \
        --eval_step 200 \
        --epochs 3


# save_dir：可选，保存训练模型的目录；默认保存在当前目录checkpoints文件夹下。
# max_seq_length：可选，ERNIE-Gram 模型使用的最大序列长度，最大不能超过512, 若出现显存不足，请适当调低这一参数；默认为128。
# batch_size：可选，批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。
# learning_rate：可选，Fine-tune的最大学习率；默认为5e-5。
# weight_decay：可选，控制正则项力度的参数，用于防止过拟合，默认为0.0。
# epochs: 训练轮次，默认为3。
# warmup_proption：可选，学习率warmup策略的比例，如果0.1，则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减，默认为0.0。
# init_from_ckpt：可选，模型参数路径，热启动模型训练；默认为None。
# seed：可选，随机种子，默认为1000.
# device: 选用什么设备进行训练，可选cpu或gpu。如使用gpu训练则参数gpus指定GPU卡号。

预测结果部分展示：

global step 3810, epoch: 1, batch: 3810, loss: 0.27187, accu: 0.90938, speed: 1.25 step/s
global step 3820, epoch: 1, batch: 3820, loss: 0.24648, accu: 0.92188, speed: 21.63 step/s
global step 3830, epoch: 1, batch: 3830, loss: 0.23190, accu: 0.92604, speed: 21.38 step/s
global step 3840, epoch: 1, batch: 3840, loss: 0.35609, accu: 0.91484, speed: 20.81 step/s
global step 3850, epoch: 1, batch: 3850, loss: 0.06531, accu: 0.91687, speed: 19.64 step/s
global step 3860, epoch: 1, batch: 3860, loss: 0.16462, accu: 0.91667, speed: 20.57 step/s
global step 3870, epoch: 1, batch: 3870, loss: 0.26173, accu: 0.91607, speed: 19.78 step/s
global step 3880, epoch: 1, batch: 3880, loss: 0.26429, accu: 0.91602, speed: 19.62 step/s
global step 3890, epoch: 1, batch: 3890, loss: 0.09031, accu: 0.91771, speed: 20.49 step/s
global step 3900, epoch: 1, batch: 3900, loss: 0.16542, accu: 0.91938, speed: 21.26 step/s
global step 3910, epoch: 1, batch: 3910, loss: 0.27632, accu: 0.92074, speed: 21.87 step/s
global step 3920, epoch: 1, batch: 3920, loss: 0.13577, accu: 0.92109, speed: 22.31 step/s
global step 3930, epoch: 1, batch: 3930, loss: 0.15333, accu: 0.91971, speed: 18.52 step/s
global step 3940, epoch: 1, batch: 3940, loss: 0.10362, accu: 0.92031, speed: 21.68 step/s
global step 3950, epoch: 1, batch: 3950, loss: 0.14692, accu: 0.92146, speed: 21.74 step/s
global step 3960, epoch: 1, batch: 3960, loss: 0.17472, accu: 0.92168, speed: 19.54 step/s
global step 3970, epoch: 1, batch: 3970, loss: 0.31994, accu: 0.91967, speed: 21.06 step/s
global step 3980, epoch: 1, batch: 3980, loss: 0.17073, accu: 0.91875, speed: 21.22 step/s
global step 3990, epoch: 1, batch: 3990, loss: 0.14955, accu: 0.91891, speed: 21.51 step/s
global step 4000, epoch: 1, batch: 4000, loss: 0.13987, accu: 0.91922, speed: 21.74 step/s
eval dev loss: 0.30795, accu: 0.87253

如果想要使用其他预训练模型如 ERNIE, BERT，RoBERTa，Electra等，只需更换model 和 tokenizer即可。


# 使用 ERNIE-3.0-medium-zh 预训练模型
model = AutoModel.from_pretrained('ernie-3.0-medium-zh')
tokenizer = AutoTokenizer.from_pretrained('ernie-3.0-medium-zh')



# 使用 ERNIE-Gram 预训练模型
model = AutoModel.from_pretrained('ernie-gram-zh')
tokenizer = AutoTokenizer.from_pretrained('ernie-gram-zh')

# 使用 ERNIE 预训练模型
# ernie-1.0
#model = AutoModel.from_pretrained('ernie-1.0-base-zh'))
#tokenizer = AutoTokenizer.from_pretrained('ernie-1.0-base-zh')

# ernie-tiny
# model = AutoModel.from_pretrained('ernie-tiny'))
# tokenizer = AutoTokenizer.from_pretrained('ernie-tiny')


# 使用 BERT 预训练模型
# bert-base-chinese
# model = AutoModel.from_pretrained('bert-base-chinese')
# tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')

# bert-wwm-chinese
# model = AutoModel.from_pretrained('bert-wwm-chinese')
# tokenizer = AutoTokenizer.from_pretrained('bert-wwm-chinese')

# bert-wwm-ext-chinese
# model = AutoModel.from_pretrained('bert-wwm-ext-chinese')
# tokenizer = AutoTokenizer.from_pretrained('bert-wwm-ext-chinese')


# 使用 RoBERTa 预训练模型
# roberta-wwm-ext
# model = AutoModel.from_pretrained('roberta-wwm-ext')
# tokenizer = AutoTokenizer.from_pretrained('roberta-wwm-ext')

# roberta-wwm-ext
# model = AutoModel.from_pretrained('roberta-wwm-ext-large')
# tokenizer = AutoTokenizer.from_pretrained('roberta-wwm-ext-large')

NOTE:

!unset CUDA_VISIBLE_DEVICES
!python -u -m paddle.distributed.launch --gpus "0" \
        predict_pointwise.py \
        --device gpu \
        --params_path "./checkpoints/model_4000/model_state.pdparams"\
        --batch_size 128 \
        --max_seq_length 64 \
        --input_file '/home/aistudio/LCQMC/test.tsv'

预测结果部分展示：

{'query': '这张图是哪儿', 'title': '这张图谁有', 'pred_label': 0}
{'query': '这是什么水果？', 'title': '这是什么水果。怎么吃？', 'pred_label': 1}
{'query': '下巴长痘痘疼是什么原因', 'title': '下巴长痘痘是什么原因？', 'pred_label': 1}
{'query': '世界上最痛苦的是什么', 'title': '世界上最痛苦的是什么？', 'pred_label': 1}
{'query': '北京的市花是什么？', 'title': '北京的市花是什么花？', 'pred_label': 1}
{'query': '这个小男孩叫什么？', 'title': '什么的捡鱼的小男孩', 'pred_label': 0}
{'query': '蓝牙耳机什么牌子最好的？', 'title': '什么牌子的蓝牙耳机最好用', 'pred_label': 1}
{'query': '湖南卫视我们约会吧中间的歌曲是什么', 'title': '我们约会吧约会成功歌曲是什么', 'pred_label': 0}
{'query': '孕妇能吃驴肉吗', 'title': '孕妇可以吃驴肉吗？', 'pred_label': 1}
{'query': '什么鞋子比较好', 'title': '配什么鞋子比较好…', 'pred_label': 1}
{'query': '怎么把词典下载到手机上啊', 'title': '怎么把牛津高阶英汉双解词典下载到手机词典上啊', 'pred_label': 0}
{'query': '话费充值哪里便宜', 'title': '哪里充值(话费)最便宜？', 'pred_label': 1}
{'query': '怎样下载歌曲到手机', 'title': '怎么往手机上下载歌曲', 'pred_label': 1}
{'query': '苹果手机丢了如何找回？', 'title': '苹果手机掉了怎么找回', 'pred_label': 1}
{'query': '考试怎么考高分？', 'title': '考试如何考高分', 'pred_label': 1}
{'query': '带凶兆是什么意思', 'title': '主凶兆是什么意思', 'pred_label': 1}
{'query': '浅蓝色牛仔裤配什么颜色的帆布鞋好看啊', 'title': '浅蓝色牛仔裤配什么颜色外套和鞋子好看', 'pred_label': 0}
{'query': '怎么才能赚大钱', 'title': '怎么样去赚大钱呢', 'pred_label': 1}
{'query': '王冕是哪个朝代的', 'title': '王冕是哪个朝代的啊', 'pred_label': 1}
{'query': '世界上真的有僵尸吗？', 'title': '这个世界上真的有僵尸吗', 'pred_label': 1}
{'query': '梦见小女孩哭', 'title': '梦见小女孩对我笑。', 'pred_label': 0}
{'query': '这是神马电影？说什的？', 'title': '这是神马电影？！', 'pred_label': 1}
{'query': '李易峰快乐大本营饭拍', 'title': '看李易峰上快乐大本营吻戏', 'pred_label': 0}

3.2 基于静态图部署预测

模型导出

使用动态图训练结束之后，可以使用静态图导出工具 export_model.py 将动态图参数导出成静态图参数。执行如下命令：

!python export_model.py --params_path checkpoints/model_4000/model_state.pdparams --output_path=./output
# 其中params_path是指动态图训练保存的参数路径，output_path是指静态图参数导出路径。

# 预测部署
# 导出静态图模型之后，可以基于静态图模型进行预测，deploy/python/predict.py 文件提供了静态图预测示例。执行如下命令：
!python deploy/predict.py --model_dir ./output

部分结果展示：

Data: {'query': '〈我是特种兵之火凤凰〉好看吗', 'title': '特种兵之火凤凰好看吗？'} 	 Label: similar
Data: {'query': '现在看电影用什么软件好', 'title': '现在下电影一般用什么软件'} 	 Label: similar
Data: {'query': '什么水取之不尽用之不竭是什么生肖', 'title': '什么水取之不尽用之不竭打一生肖'} 	 Label: similar
Data: {'query': '愤怒的小鸟哪里下载', 'title': '愤怒的小鸟在哪里下载'} 	 Label: similar
Data: {'query': '中国象棋大师网', 'title': '中国象棋大师'} 	 Label: dissimilar
Data: {'query': '怎么注册谷歌账号？', 'title': '谷歌账号怎样注册'} 	 Label: similar
Data: {'query': '哪里可以看点金胜手', 'title': '点金胜手哪里能看完'} 	 Label: similar
Data: {'query': '什么牌子的行车记录仪好，怎么选', 'title': '行车记录仪什么牌子好；选哪个？'} 	 Label: similar
Data: {'query': '芭比公主系列总共有哪些QUQ', 'title': '芭比公主系列动漫有哪些'} 	 Label: dissimilar
Data: {'query': '新疆省会哪里', 'title': '新疆省会是哪里？'} 	 Label: similar
Data: {'query': '今天星期几！', 'title': '今天星期几呢'} 	 Label: similar
Data: {'query': '蜂蛹怎么吃', 'title': '蜂蛹怎么养'} 	 Label: dissimilar
Data: {'query': '少年老成是什么生肖', 'title': '什么生肖是少年老成'} 	 Label: similar
Data: {'query': '有关爱国的歌曲', 'title': '爱国歌曲有哪些'} 	 Label: similar

3.3 小结

模型	dev acc
Simcse（无监督）	58.97%
Diffcse（无监督）	63.23%
bert-base-chinese	86.53%
bert-wwm-chinese	86.33%
bert-wwm-ext-chinese	86.05%
ernie-tiny	86.07%
roberta-wwm-ext	87.53%
rbt3	85.37%
rbtl3	85.17%
ERNIE-1.0-Base	89.34%
ERNIE-1.0-Base	89.34%
ERNIE-Gram-Base-Pointwise	90.58%

SimCSE 模型适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。
相比于 SimCSE 模型，DiffCSE模型会更关注语句之间的差异性，具有精确的向量表示能力。DiffCSE 模型同样适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。
明显看到有监督模型中ERNIE-Gram比之前所有模型性能的优秀

参考文章：https://aistudio.baidu.com/aistudio/projectdetail/5423713?contributionType=1

4.学以致用–千言问题匹配鲁棒性评测比赛验证

特定领域知识图谱融合方案：学以致用-问题匹配鲁棒性评测比赛验证

本项目主要讲述文本匹配算法的应用实践、并给出相应的优化方案介绍如：可解释学习等。最后文末介绍了知识融合学术界方案、知识融合业界落地方案、算法测评KG生产质量保障等，涉及对比学习和文本。

https://blog.csdn.net/sinat_39620217/article/details/129026193

5.特定领域知识图谱(Domain-specific KnowledgeGraph:DKG)融合方案(重点！)

在前面技术知识下可以看看后续的实际业务落地方案和学术方案

关于图神经网络的知识融合技术学习参考下面链接：PGL图学习项目合集&数据集分享&技术归纳业务落地技巧[系列十]

从入门知识到经典图算法以及进阶图算法等，自行查阅食用！

文章篇幅有限请参考专栏按需查阅：NLP知识图谱相关技术业务落地方案和码源

5.1特定领域知识图谱知识融合方案（实体对齐)：优酷领域知识图谱为例

方案链接：https://blog.csdn.net/sinat_39620217/article/details/128614951

5.2特定领域知识图谱知识融合方案（实体对齐)：文娱知识图谱构建之人物实体对齐

方案链接：https://blog.csdn.net/sinat_39620217/article/details/128673963

5.3特定领域知识图谱知识融合方案（实体对齐)：商品知识图谱技术实战

方案链接：https://blog.csdn.net/sinat_39620217/article/details/128674429

5.4特定领域知识图谱知识融合方案（实体对齐)：基于图神经网络的商品异构实体表征探索

方案链接：https://blog.csdn.net/sinat_39620217/article/details/128674929

5.5特定领域知识图谱知识融合方案（实体对齐)论文合集

方案链接：https://blog.csdn.net/sinat_39620217/article/details/128675199

论文资料链接：两份内容不相同，且按照序号从小到大重要性依次递减

知识图谱实体对齐资料论文参考(PDF)+实体对齐方案+特定领域知识图谱知识融合方案（实体对齐)

知识图谱实体对齐资料论文参考(CAJ)+实体对齐方案+特定领域知识图谱知识融合方案（实体对齐)

5.6知识融合算法测试方案（知识生产质量保障）

方案链接：https://blog.csdn.net/sinat_39620217/article/details/128675698

6. 总结

模型	dev acc
Simcse（无监督）	58.97%
Diffcse（无监督）	63.23%
bert-base-chinese	86.53%
bert-wwm-chinese	86.33%
bert-wwm-ext-chinese	86.05%
ernie-tiny	86.07%
roberta-wwm-ext	87.53%
rbt3	85.37%
rbtl3	85.17%
ERNIE-1.0-Base	89.34%
ERNIE-1.0-Base	89.34%
ERNIE-Gram-Base-Pointwise	90.58%

SimCSE 模型适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。
相比于 SimCSE 模型，DiffCSE模型会更关注语句之间的差异性，具有精确的向量表示能力。DiffCSE 模型同样适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。
明显看到有监督模型中ERNIE-Gram比之前所有模型性能的优秀

本项目链接：

特定领域知识图谱融合方案：文本匹配算法ERNIE-Gram单塔等诸多模型【三】：
https://aistudio.baidu.com/aistudio/projectdetail/5456683?contributionType=1&sUid=691158&shared=1&ts=1681821571224

项目参考链接：

UniLM详解：https://zhuanlan.zhihu.com/p/584193190

原论文：Unified Language Model Pre-training for Natural Language Understanding and Generation：https://arxiv.org/pdf/1905.03197.pdf

UniLM 模型详解：https://www.jianshu.com/p/22e3cc4842e1

苏神：融合检索和生成的SimBERT模型：https://kexue.fm/archives/7427

你可能感兴趣的:(知识图谱,人工智能,自然语言处理,知识融合,文本匹配算法)

Notepad++绿色版：便携高效的代码编辑器 FasterThanMind
本文还有配套的精品资源，点击获取简介：Notepad++是一款免费且无需安装的绿色版源代码编辑器，专为编程和文本处理设计。它支持多种编程语言的语法高亮、宏功能、增强的查找和替换、多文档界面、插件支持、编码转换、智能提示、个性化设置以及轻量级运行。Notepad++体积小、启动快，且对Windows平台具有良好的兼容性，适合在任何Windows系统计算机上使用，包括最新的Windows11。这款编辑
蓝桥杯Python赛道备赛——Day6：算术（二）（数学问题） SKY YEAM 蓝桥杯备赛蓝桥杯 python 职场和发展
本期博客是蓝桥杯备赛中算术（数学问题）的第二期，包括：快速幂算法、逆元（模意义下的倒数）、组合数计算和排列数计算。每一种数学问题都在给出定义的同时，给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法算术（二）（数学问题）一、快速幂算法二、逆元（模意义下的倒数）三、组合数计算四、排列数计算一、快速幂算法1.定义：快速计算大指数幂的算法。2.算法原理：二进
蓝桥杯Python赛道备赛——Day1：基础算法 SKY YEAM 蓝桥杯备赛蓝桥杯 python 算法
本博客就蓝桥杯中的基础算法（这一部分说是算法，但更是一些简单的操作）进行罗列，包括：枚举、模拟、前缀和、差分、二分查找、进制转换、贪心、位运算和双指针。每一个算法都在给出概念解释的同时，给出了示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法（2）PythonOOP（面向对象编程）基础算法（操作）一、枚举二、模拟三、前缀和四、差分五、二分查找六、进制转换七、贪心八、位运
工程化与框架系列（9）--前端监控体系一进制ᅟᅠ ‌‍‎‏ 前端工程化与框架前端
前端监控体系前端监控是现代Web应用不可或缺的组成部分，它帮助我们了解应用的运行状况、用户行为和潜在问题。本文将详细介绍如何构建一个完整的前端监控体系。监控体系概述小知识：前端监控体系通常包括性能监控、错误监控、用户行为分析和业务监控四大模块，通过这些数据可以全面了解应用的健康状况和用户体验。为什么需要前端监控在复杂的前端应用中，监控系统能够帮助我们：及时发现问题捕获JS运行时错误监控API请求异
蓝桥杯Python赛道备赛——Day7：动态规划（基础） SKY YEAM 蓝桥杯备赛蓝桥杯 python 动态规划
本博客就蓝桥杯中所涉及的动态规划基础问题进行讲解，包括：递推、记忆化搜索、最长公共子序列（LCS）和最长上升子序列（LIS）。每一种动态规划问题都在给出定义的同时，给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法动态规划（基础）一、递推（迭代法）二、记忆化搜索（递归+缓存）三、最长公共子序列（LCS）四、最长上升子序列（LIS）一、递推（迭代法）定义
量子计算+AI：未来AI Agent的计算范式 AI天才研究院计算 ChatGPT DeepSeek RL 强化学习 agent agi 推理模型智能驾驶
量子计算+AI：未来AIAgent的计算范式关键词：量子计算，人工智能，AIAgent，量子算法，量子机器学习，量子优化，量子数据处理摘要：量子计算和人工智能（AI）的结合正在改变AIAgent的计算范式。通过量子计算的超强算力和独特性质，AIAgent在数据处理、算法优化和决策能力方面展现出巨大潜力。本文将详细探讨量子计算与AI结合的核心概念、算法原理、系统架构，并通过实际案例展示量子AIAge
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
《量子门与AI神经元：计算世界的奇妙碰撞》程序猿阿伟人工智能量子计算
在当今科技飞速发展的时代，量子计算和人工智能作为前沿领域，正不断颠覆我们对计算和智能的认知。量子门操作和AI中的神经元计算过程，分别作为这两大领域的核心机制，看似处于不同维度，却有着千丝万缕的联系，它们之间的区别与关联，犹如一把钥匙，为我们打开了通往更高级计算与智能世界的大门。量子门操作是量子计算的基础，它利用量子力学的奇妙特性，如叠加和纠缠，对量子比特进行操控。量子比特，作为量子信息的基本单元，
自建智能算力中心 vs 第三方算力租赁：AI企业的算力博弈与最优解
人工智能的爆发式增长正在重塑全球产业格局。从ChatGPT到DeepSeek，从自动驾驶到智能医疗，AI模型的训练和推理需求呈现指数级增长。在这场技术革命中，算力已成为企业竞争的“命脉”。然而，面对动辄数亿元的硬件投入和复杂的运维挑战，AI企业正面临一个关键抉择：自建智能算力中心，还是选择第三方算力租赁？本文将从成本、效率、风险及适用场景等维度展开深度分析，为企业提供决策参考。一、成本对比：重资产
120.HarmonyOS NEXT 跑马灯组件详解(八)：最佳实践与使用指南 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT跑马灯组件详解(八)：最佳实践与使用指南效果演示1.组件使用规范1.1基本使用MarqueeSection({marqueeTextBuilder:()=>{Text('滚动文本内容')},marqueeAnimationModifie
LangChain使用Prompt02 科研小达人 langchain 前端
1.设置提示fromlangchain.promptsimportChatPromptTemplateprompt_template=ChatPromptTemplate.from_messages([("system","你是一位专业的翻译，能够将{input_language}翻译成{output_language}，并且输出文本会根据用户要求的任何语言风格进行调整。请只输出翻译后的文本，不要
还在为找图发愁？图生生AI以图生图，一键生成专属风格！图生生人工智能 ai AI作画图生生
你是否也遇到过这样的烦恼：想为文章配图，却找不到风格合适的图片？设计海报时，灵感枯竭，不知从何下手？看到喜欢的图片风格，却无法应用到自己的作品中？别担心，图生生AI生图来帮你！只需上传一张图片，AI就能自动生成相似风格的图片，让你轻松拥有专属图库！图生生AI生图是一款基于人工智能技术的图片生成工具，它能够深度学习和理解图片的风格、色彩、构图等元素，并以此为基础生成全新的图片。无论你是设计师、自媒体
C语言：哈希表 %KT% C/C++算法数据结构 c语言散列表开发语言
1、文章声明：本文是基于链地址法建立的哈希表。文章中若存在错误，欢迎各路大佬指正。本文涉及二级指针，链表等内容。该方面的知识点，可以参考文章：数据结构：单链表的相关操作-CSDN博客C语言：利用二级指针动态创建二维矩阵-CSDN博客2、哈希表的介绍：哈希表其实可以理解成一种映射，通过映射关系来存储数据，有点类似于Python中的字典。常见的如数组，链表等存储结构，他们查询数据都有一个特点，往往需要
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
程序化广告行业（27/89）：供应商筛选、比稿流程与广告透明化要点 lilye66 程序化广告 sqlserver 数据库 cloudera 大数据
程序化广告行业（27/89）：供应商筛选、比稿流程与广告透明化要点在数字化营销浪潮中，程序化广告已成为企业精准触达目标受众的重要手段。一直以来，我都期望和大家一同深入钻研技术领域知识，实现共同进步。今天，咱们继续剖析程序化广告行业，聚焦在供应商筛选、比稿流程以及广告透明化这些关键环节，帮助大家更好地理解这一行业的运作机制。供应商筛选与比稿流程详解供应商入库评估要点在程序化广告投放中，供应商的选择至
处理文本的原则 the only KIrsTEN 语音和文本处理(Python)
没有字符编码方案本身就是目的：它是一种启用计算机上有用的文本处理。•计算机预期支持的基本低级文本处理包括：使字符可见（包括连字、上下文形式等）渲染时断线（包括断字）修改外观，例如点大小、字距、下划线、倾斜和重量（轻，半，粗体等）确定“单词”和“句子”等单位在选择和突出显示文本等过程中与用户交互通过插入和删除接受键盘输入和编辑存储的文本比较操作中的文本，例如排序或确定排序顺序两串分析文本内容，例如拼
机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
Lec01-什么是安全？蛋蛋deべ忧桑安全
本文使用人工智能协助翻译，内容仅供参考，可能有错误或遗漏。如果你对内容或超链接有疑问，可以查看原文。参考资料地址：https://github.com/PKUFlyingPig/MIT6.16006.1600课程团队：HenryCorrigan-Gibbs,YaelKalai,BenKettle(TA),NickolaiZeldovich2022年秋季[!warning]免责声明本套笔记为正在进行
html重点知识总结 *goliter * html 前端
html重点知识一直在网上看过许多不同的前端资料，但是总觉的只是单单的阅读和记忆不能够真正的加深自己的知识理解，所以开始尝试自己在不查看其他一切资料的情况下对自己了解的知识做一个总结（顺序或许有点乱），如果之后发现有不足再来补充，我相信输出才是最好的输入！！！H5新增内容语义化标签：h5新增了一系列语义化标签，他们本质上和一般的div标签没有区别，但是在语义上有不同。header：专门指页面的顶部
利用deepseek AI制作视频的小白教程银行金融科技银行信息系统架构详解机器学习人工智能 deepseek
以下是基于DeepSeekAI的完整视频制作教程，涵盖从剧本到成片的全流程操作（附关键技巧）：一、前期准备（1天）1.分镜优化根据之前的分镜脚本，用Notion或Excel整理出AI友好型分镜表（示例）：画面描述关键词时长动态水墨展开成卷轴水墨山水、花瓣特效、东晋风格15秒Q版人物在曲水流觞放纸船全息投影、透明茶具、童声配音45秒2.素材预生成文本转图像：bash#用DeepSeekCoder生成
【day14】画流程图鹿鸣悠悠文旅行业知识学习流程图
绘制业务流程图是梳理和优化企业流程的重要工具，以下是零基础也能快速上手的指南，涵盖必备知识、绘制步骤和常见误区：一、画流程图前必须了解的3个核心概念流程图的本质不是“画图”，而是将复杂业务逻辑可视化的工具，核心在于逻辑清晰、角色明确。目标：让内外部人员快速理解流程中的关键环节、决策点、责任方。常见流程图类型类型适用场景示例工具符号基本流程图简单线性流程（如审批流程）矩形（步骤）、菱形（判断）跨职能
lxml学习笔记 weixin_33843409 python
问题1：有一个XML文件，如何解析问题2：解析后，如果查找、定位某个标签问题3：定位后如何操作标签，比如访问属性、文本内容等fromlxmlimportetree->导入模块，该库常用的XML处理功能都在lxml.etree中requests+lxml解析小from lxml import etree import requests page = 1 url = 'http://www.
如何用deepseek快速生成思维导图和流程图？ ProcessOn官方账号流程图
一起来看看md格式和mermaid格式，与deepseek的碰撞会产生怎样的魔法吧！1、md格式+deepseek，快速生成思维导图Markdown是一种轻量级的标记语言，旨在以易读易写的纯文本格式编写文档，并能够轻松转换为结构化的HTML（超文本标记语言）或其他格式。它最初由JohnGruber和AaronSwartz于2004年创建，因其简洁性和可读性而广受欢迎。操作方法：Step1：给dee
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
软件设计师之编译原理核心知识深度剖析：从词法到语法分析一杯年华@编程空间软考中级软考中级
软件设计师之编译原理核心知识深度剖析：从词法到语法分析在软件开发的知识体系中，编译原理是极为关键的一环，它就像一座桥梁，连接着人类可读的程序代码与计算机能够执行的机器指令。我写这篇博客的目的，是希望和大家一起学习进步，深入剖析编译原理中的词法分析和语法分析等核心知识，让这些复杂的概念变得通俗易懂，助力大家在软件设计领域更上一层楼。一、词法分析相关知识（一）正规表达式与正规集正规表达式是描述词法规则
Vue 过滤器深度解析与应用实践二川bro 前端 vue.js 前端 javascript
文章目录1.过滤器概述1.1核心概念1.2过滤器生命周期2.过滤器基础2.1过滤器定义2.2过滤器使用3.过滤器高级用法3.1链式调用3.2参数传递3.3动态过滤器4.过滤器应用场景4.1文本格式化4.2数字处理4.3数据过滤5.性能优化与调试5.1性能优化策略5.2调试技巧6.最佳实践建议6.1命名规范6.2代码组织7.常见问题与解决方案7.1问题列表7.2调试技巧8.扩展阅读1.过滤器概述1.
JS逆向案例-致远OA的前端密码加密逆向分析布啦啦李我的渗透笔记 python JS逆向 javascript逆向致远OA 密码爆破防范措施 js逆向
免责声明本文仅为技术研究与渗透测试思路分享，旨在帮助安全从业人员更好地理解相关技术原理和防御措施。任何个人或组织不得利用本文内容从事非法活动或攻击他人系统。如果任何人因违反法律法规或不当使用本文内容而导致任何法律后果，本文作者概不负责。请务必遵守法律法规，合理使用技术知识。一、致远OA的登录过程1.1实验版本致远A6+协同管理软件V8.0SP2用户名不变，密码加密，无验证码。1.2登录过程步骤操作
【H2O2 | 软件开发】什么是Promise？过期的H2O2 【H2O2】全栈面试题前端 javascript ecmascript6
目录前言开篇语准备工作正文概述三种状态创建和使用链式操作多对象处理语法糖回调地狱和优化结束语前言开篇语本系列为短篇，每次讲述少量知识点，无需一次性灌输太多的新知识点。该主题文章主要是围绕前端、全栈开发相关面试常见问题撰写的，希望对诸位有所帮助。如果您需要为面试八股文做准备，笔者建议重点关注加粗强调部分，它们是概念中的关键词。准备工作软件：【参考版本】VisualStudioCode系统版本：Win
HTML入门 Yeauty html
HTML的概述什么是HTML:HyperTextMarkupLanguage超文本标记语言超文本:比普通文本更加强大,能够定义许多文本样式标记语言:通过一组标签来对内容进行标记,并且修饰-标签:为什么要学习HTML它是网页设计的设计,基本上所有的网站都是用它开发的如何来学习HTMLHTML语法规范HTML是一个.html或者.htm结尾的文件HTML文件中是头和体两部分HTML是通过一组标签来对内
快速部署一个k8s集群懒人P Kubernetes 云原生 kubernetes 容器运维
部署单Master的K8s集群kubeadm方式文章目录部署单Master的K8s集群一，前置知识点1.1生产环境可部署Kubernetes集群的两种方式1.2准备环境1.3操作系统初始化配置【所有节点】二，安装Docker/kubeadm/kubelet（所有节点）2.1安装Docker。2.2添加阿里云YUM软件源。2.3安装kubeadm，kubelet和kubectl.三，部署Kubern
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情