zenRRan

综述 | 跨语言自然语言处理论文汇总

来自：程序媛驿站

跨语言自然语言处理笔记

作者：匿名侠 | 排版：葡萄媛

01 摘要

跨语言自然语言处理是当下研究的热点。其中，跨语言词向量（Cross-lingual Word Embedding）可以帮助比较词语在不同语言下的含义，同时也为模型在不同语言之间进行迁移提供了桥梁。[Ruder et al., 2017] 详细描述了跨语言词向量学习方法和分类体系，将跨语言词向量按照对齐方式分为了基于词对齐、基于句子对齐、基于文档对齐的方法。其中基于词对齐的方法是所有方法的核心和基础。在基于词对齐的方法中，又有基于平行语料的方法，基于无监督的方法等。近些年，无监督方法成为研究热点。本文主要记录一些跨语言词向量的相关论文。

02 单词语词向量

常用的单语词向量有 Word2Vec， GloVe， fastText 等。下面主要介绍一下 Word2Vec[Mikolovet al., 2013c,a]，Word2Vec 基于分布式假设（Distributional hypothesis）：拥有相似上下文（context）的词语通常拥有相似的含义。其算法分为 Skip-gram 和 Continuous Bag of Words（CBOW）。Skipgram 根据中心词预测周围的词， CBOW 根据周围的词预测中心的词语，如图1。

一种常见的方法为 Skip-gram + Negative Sampling。简单来说，该算法构造两个向量矩阵，一个 Embedding 矩阵，一个 Context 矩阵。利用 Skip-gram 来构建训练正例，使用 Negative sampling来构建负例，如图2。

训练完成以后（教程可参考The Illustrated Word2vec， Vector Semantics），每个词语对应两个向量，一个 Embedding 矩阵中的表示，一个 Context 矩阵中的表示，最终表示可以直接使用 Embedding 矩阵作为词向量，或者可以将两个矩阵相加得到词向量，或者可以将两个矩阵拼接得到词向量。

03 基于词语映射的方法

[Ruder et al., 2017] 将基于词映射的方法根据映射方法（mapping method）、种子词语的选择（seed lexicon）、映射的改进（refnement）、最近邻词语的检索方法（retrieval）进行了分类。下面简单介绍其中的一些经典工作。

[Mikolov et al., 2013b] 观察发现，不同语言的词向量在向量空间中有着相似的几何排列。如图3。

左图为英语，右图为西班牙语（利用 PCA 进行词向量的降维）。发现，不论是数字还是动物，英语和西班牙语词向量的分布非常相似。基于这一观察，提出了一种简单地线性映射的方法来完成源语言向量空间到目标语言向量空间的转换。该方法的目标在于学习一个从源语言到目标语言的线性映射矩阵（linear transformation matrix）

，首先从源语言中选择 n = 5000 个频率最高的词语以及其对应的

翻译作为种子词语，用于学习线性映射。使用随机梯度下降来最小化均方误差（mean squared error, MSE) 。学习好映射矩阵之后，将源语言映射到目标语言空间，根据 cosine similarity 来寻找翻译。

[Xing et al., 2015] 发现上述方法有几处不一致。词向量学习的时候使用的是内积（inner product），但是在选择词语的时候却是根据 cosine similarity，学习映射矩阵时，使用的是均方误差（mean square error），这些导致了几处不匹配。因此首先将词向量的长度限制为单位长度。这样相当于所有的向量都会在高维空间落在一个超球面上，如图4。这样就使得两个向量的内积和 cosine similarity 是一致的。然后将目标函数从以均方误差为目标修改为以 cosine similarity 为目标: 。之前的方法对映射矩阵是没有限制的，这里将映射矩阵限制为正交矩阵（Orthogonal transform），使得其满足，其实际求解是使用奇异值分解（SVD）来完成，。其中为源语言向量矩阵，为目标语言向量矩阵。实验证明，该方法的实际效果更好。[Xing et al., 2015, Ruder et al., 2017]。

04 基于无监督的方法

之前的方法都是依赖于平行语料的，接下来主要介绍一些无监督的工作，也是当前比较热门的方向。[Conneau et al., 2017] 提出了一种完全无监督的词级别的翻译（对齐）方法，首先使用对抗训练将两种语义空间对齐，然后使用迭代的方式来一步步更新学习到的映射矩阵，并提出了一种 CSLS方法来检索最近的翻译词语。如图5。

由于没有对齐信号，所以有一个基本的前提条件是两种语言的词汇处于同一内容空间（碎碎念：FAIR 的无监督机器翻译），这样两种语言的向量空间几何排列才是相似的，才有可能通过映射完成两个空间的对齐，不然是完全没有任何对齐信号的。首先使用对抗训练的方式使得判别器无法区分映射之后的源语言向量和目标语言向量，相当于要求将源语言映射到目标语言语义空间下。判别器的学习目标为尽可能区分映射后的源语言与目标语言：

映射矩阵的目标为尽可能使得判别器区分错误：

在得到映射矩阵以后，有一个迭代调整的过程，根据学习到的映射，选择互为最近邻的词语作为词典来学习映射，可以迭代这个过程。作者还提出了一种新的相似性度量方式，因为在高维空间中存在一种现象叫做 Hubness，即向量空间中存在密集区域，其中的一些点会是很多点的最近邻。之前的方式采用 cosine similarity 来选择最近邻，作者设计了一种 Cross-Domain Similarity Local Scaling(CSLS) 的度量方式：

其中，为和其 K 个目标语言最近邻的平均余弦距离。

基于上述工作， [Lample et al., 2017] 在没有对齐语料的情况下，仅使用单语语料来完成无监督机器翻译。该方法可以很好地泛化到其他语言，并且为有监督的方法提供了性能下限。其 baseline模型如 [Johnson et al., 2017]。首先使用上述无监督方法得到的翻译词典来初始化翻译模型。接着使用降噪自编码器训练，跨领域训练和对抗训练得到最终模型，如图6。

降噪自编码器部分，首先从数据集中采样一条数据 x，然后给输入数据引入噪音，

使用编码器对该噪音输入进行编码，接着使用解码器进行解码得到输出。其损失函数为：

其中为交叉熵损失。其中噪音模型有两种方式，一种是以一定的概率丢弃每个词语。第二种是打乱输入，但是在文中限制了新的位置距离原本的位置不能超过 k，如图7。

第二部分是跨领域训练，这部分是得到翻译模型的关键。利用到了 back translation，首先从语言中采样一个句子，使用当前翻译模型翻译到语言下，然后给加噪声，使用作为训练对来训练模型，其损失函数为：

第三部分为对抗训练部分，希望编码器可以将表示编码到一个语言无关的空间下，其中有一个判别器目前是区分两种语言:，部分要更新的参数是: ，编码器的目标是尽可能使得判别器无法区分：

这部分要更新的参数是，如图8。

对于选择模型的的超参，论文提出了代理准则（surrogate criterion），如公式1，即输入和重构的输入之间的 BLEU 分数。还有一些细节【decoder 如何判断当前生成的语种？在多语言翻译中，通常通过在解码端添加翻译方向的标志位来控制解码方向。但是在本文的假设中，只有非此即彼的两个语种，并且 encoder 对它们一视同仁的。因此，作者只是将两者的解码起始符 ~~加以区分，各自维护一个。~~

两个训练过程是如何共享同一套 Seq2Seq 框架的？作者所谓的“同一个 encoder 和 decoder”，其实是针对隐层部分而言的。每个语种有自己的embedding 层和 pre-softmax 层，在模型训练中进行 look-up 来获取各自的参数矩阵。此外，分成“源语言”和“目标语言“是为了便于描述，实际上两者并不区别。最终训练得到的模型，可以在这两种语言中做任意方向的翻译。（碎碎念：FAIR 的无监督机器翻译）】

[Lample et al., 2018] 指出了 [Lample et al., 2017, Artetxe et al., 2017] 几点特点：使用无监督方法推理出来的词典来初始化系统，使用了基于 Seq2Seq 的降噪自编码器模型，使用 back translation来将无监督问题转换为有监督问题。同时使用了对抗训练来将不同语言编码到同一空间。本文总结了无监督机器翻译的三个核心点。第一点，初始化，初始化可以帮助模型具有一定的先验知识。第二点，语言模型，根据大规模的单语语料可以学习到好的语言模型。第三点，迭代的反向翻译，该方法可以将无监督转换为有监督，可以完成翻译任务的学习。如图9。

对于初始化，本文使用源语言和目标语言的单语语料来共同学习 BPE，学习完成以后用来初始化编码器和解码器的向量查找表。对于语言模型，使用降噪自编码器来学习语言模型。对于反向翻译，使用迭代的反向翻译来完成翻译模型的学习。该模型同时共享了编码器和解码器的参数，期望学习到共享的语义空间表示。

05 基于虚拟双语语料库的方法

[Xiao and Guo, 2014] 利用 Wikitionary 作为两种语言之间的桥梁，构建了统一的双语词典。首先构建源语言词典，然后利用 Wikitionary 找到其所有的翻译。删除满足以下条件的翻译：一个源语言词语有多个目标语言翻译、一个目标语言词语有多个源语言翻译、源语言的目标语言翻译词语在目标语言数据集中没有出现。经过以上三步处理，可以得到一个一对一的双语词典。将源语言和目标语言建立统一的双语词表 V ，利用构建好的双语词典，在词表 V 中属于词典映射关系的两个词语将会被映射到相同的词向量空间。然后利用神经网络来学习词向量表示。其任务是一个二分类问题，输入是一个子句，通过替换正例中的词语来构建负例。最终会学习到统一双语词典的向量表示，以此作为双语空间的桥梁。其模型如图10。这种方法对齐词语有同一表示。

[Gouws and Søgaard, 2015] 构建了一种真实的虚拟双语语料库，混合了不同的语言。针对不同的任务可以定义不同的对应等价方法，例如根据翻译，可以定义英语 house 和法语 maison 是等价的，根据词性标注，可以定义英语 car 和法语 maison 都是名词是等价的。因此这里的对齐方式不一定是翻译，可以根据具体的任务来定义，然后利用这种对齐关系来构造双语伪语料。首先将源语言和目标语言数据混合打乱。对于统一语料库中一句话的每一个词语，如果存在于对齐关系中，以一定概率来替换为另一种语言的词语。通过该方法可以构建得到真实的双语语料库。例如根据翻译关系，原始句子 build the house 经过构建可以得到 build the maison，就是将 house 替换为了 maison。利用构建好的全部语料来使用 CBOW 算法学习词向量，由于替换以后的词语有相似的上下文，因此会得到相似的表示。对于那些没有对齐关系的词语，例如“我吃苹果”和“I eat apple”，吃和 eat没有对齐关系，但如果我和 I、苹果和 apple 有对齐关系，根据构造出来的语料“I 吃 apple”也可以完成吃和 eat 的隐式对齐。这种方法对齐词语有相似表示。

[Ammar et al., 2016] 提出了一种将上述方法扩展到多种语言上的方法 multiCluster。借助双语词典，将词语划分为多个集合，每个集合中是相同语义的词语。然后将所有语言的单语语料库拼接，对于其中的一句话，如果词语在集合中，那就替换为集合中其他语言的词语。得到新的多语语料库以后，使用 skip-gram 来训练得到词向量表示。

[Duong et al., 2016] 提出的方法与上述方法类似，区别在于，只在使用 CBOW 算法学习词向量的时候替换目标词语。而非预先利用词典构造多语语料库。在学习的时候会同时预测源语言目标词语及其对应的替换后的目标词语作为联合训练目标。除此以外，之前的方法都没有处理一词多义的问题，例如 bank 可能有两种意思：river bank 或者 fnancial bank，对应在意大利语中的翻译就是 sponda 和 banca。因此作者利用上下文词汇表示结合中心词汇表示的方式来选择最合适的翻译词语。通常来说，在 CBOW 算法中，会有两个矩阵，一个 context 矩阵 V ，一个 word 矩阵 U。作者指出，使用这种方式训练的词向量， V 矩阵更倾向于单语表示， U 矩阵更倾向于双语表示。其过程如图11。

06 基于预训练的方法

[Devlin et al., 2018] 提出了 Multilingual BERT，与单语 BERT 结构一样，使用共享的 Wordpiece 表示，使用了 104 中语言进行训练。训练时，无输入语言标记，也没有强制对齐的语料有相同的表示。[Pires et al., 2019] 分析了 Multilingual BERT 的多语言表征能力，得出了几点结论：
1.Multilingual BERT 的多语言表征能力不仅仅依赖于共享的词表，对于没有重叠（overlap）词汇语言的 zero-shot 任务，也可以完成的很好；语言越相似，效果越好；

2.对于语言顺序（主谓宾或者形容词名词）不同的语言，效果不是很好；Multilingual BERT 的表示同时包含了多种语言共有的表示，同时也包含了语言特定的表示，这一结论， [Wu and Dredze, 2019] 在语言分类任务中也指出，Multilingual BERT 由于需要完成语言模型任务，所以需要保持一定的语言特定的表示来在词表中选择特定语言词语。

[Lample and Conneau, 2019] 提出了基于多种语言预训练的模型 XLMs，首先从单语语料库中采样一些句子，对于资源稀少的语言可以增加数量，对于资源丰富的语言可以减少数量，将所有语言使用统一 BPE 进行表示。使用三种语言模型目标来完成学习。前两个是基于单语语料库的，最后一个是基于双语对齐数据的。第一种是 Causal Language Modeling (CLM)，根据之前的词语预测下一个词语。第二个是 Masked Language Modeling (MLM)，和 BERT 类似，但是使用一个词语流，而非句子对。第三种是 Translation Language Modeling (TLM)，可以随机 mask 掉其中一些两种语言中的一些词语，然后进行预测。其模型如图12。

07 多语言机器翻译

[Johnson et al., 2017] 使用一个模型来完成多种语言的机器翻译任务。唯一的不同是输入的开始需要拼接一个特殊的指示符，代表目标语言。例如 How are you? -> ¿Cómo estás? 需要修改为<2es> How are you? -> ¿Cómo estás?，代表该句将被翻译为西班牙语。另一个核心点在于使用共享的 Wordpiece，利用 BPE 来完成。模型在训练的时候，一个 mini-batch 中混合多个语言的平行数据。该模型的优点在于：简单，只需要修改输入数据就可以；可以提升资源稀缺数据的翻译效果；支持直接的 zero-shot 翻译任务。

[Escolano et al., 2019] 利用不同语言之间共有的词表来作为知识迁移的桥梁，提出了两种方法，progAdapt 和 progGrow。第一种方法 progAdapt 将一种语言对的翻译任务迁移到另一种翻译任务上，保留词表中共享的部分，添加新任务的词语，词表大小保持不变，并使用新任务的数据。第二种方法 progGrow 利用递增的方式来学习一个多语言的机器翻译模型，将新语言的词表添加到旧词表上，并使用新旧任务一起的数据。如图13。

[Pires et al., 2019] 指出 [Johnson et al., 2017, Escolano et al., 2019] 的问题在于当语言的词表有显著的不同时，例如中文，词表会变得很大。因此提出了一种方法，每一种语言有自己的特定的编码器和解码器，编码器和解码器之间不共享参数。对于一个翻译对 X-Y，会完成自编码任务（X-X， Y-Y）和翻译任务（X-Y， Y-X），同时会要求编码器得到的两种表示相近。新来一种语言以后 Z，假设目前有 Z-X 的平行语料，只需要添加 Z 语言的编码器，然后固定住 X 语言的解码器参数来进行训练，这个过程只更新 Z 编码器的参数。如图14。

[Kim et al., 2019] 也认为，训练一个共享的多语言机器翻译模型一方面需要语言之间相关，以此来构建一个共享的词表，另一方面当增加一种语言时，如果该语言的词汇不在现有此表中，词表需要更新，模型需要重新训练。因此在多语言机器翻译或者迁移学习的设定下，距离较远的语言词表不匹配（vocabulary mismatch）是一个急需解决的问题。因此提出了一种在向量空间完成隐式翻译的方法，本质上是使用了跨语言词向量。当需要添加一种新的语言 t 时，首先训练语言 t 的单语词向量，然后将已经训练好的机器翻译模型的词向量参数矩阵取出，在两者之间学习一个线性映射W，用于将新的语言 t 转换到模型的语义空间下，该方法不需要重新更新词表或者重新训练模型，由于在向量空间完成了隐式对齐，当新的语言句子输入以后，会首先通过 W 矩阵来把单语向量空间映射到模型的语义空间，然后接着训练。这种方法虽然确实没有显式的两个词表对齐、增加、替换的过程。但实际上在学习完映射矩阵 W 以后，将新语言的词向量经过映射替换到训练好的模型中，实际上已经隐式的完成了词表的替换，这个映射过后的向量参数矩阵也会随着训练来更新。除此以外，新的语言和原来的语言可能语序不同，因此在训练原机器翻译模型时，会在输入端通过随机插入、删除，交换来引入一些噪音。例如 Ich arbeite hier 通过交换以后变为 Ich hier arbeite。同时由于新语言往往是低资源语言，这里没有使用 back translation 来构建新的语料。而是原来语言数据和新语言数据词表重合的部分保留，其他替换为 unk 来构建伪语料。例如德语数据 Hallo,John!会变为巴斯克语数据 ,John! 保留了共有部分 John。

[Vázquez et al., 2019] 利用一个语言共享的自注意力机制（attention bridge）来将不同语言编码到同一空间。不同语言的编码器和解码器不共享参数，在使用 LSTM 得到特定语言的表示以后，使用共享的 attention bridge 得到语言无关表示，用来初始化解码器的初始状态。

08 相关论文

[Liu et al., 2019] 利用一种共享-私有（Shared-Private）词向量来建模源语言词向量和目标语言词向量之间的关系，以及减少模型参数量。其核心想法在于，词向量的一部分是语言无关的，是共享的，另一部分是语言相关的，是私有的。并提出了三种共享关系，相似词语表示( )、相同词形( )、不相关( )。如图15。利用 fast-align 首先根据一定的阈值找到语义对齐的词语。具体实现时，拿源语言词向量矩阵来举例，该矩阵由三个部分构成，，分别代表了三种共享关系词语的表示，每个词语只属于其中一种关系，并按照上述顺序的优先级来排序。其中每一种共享关系由共享部分和私有部分组成，例如 lm 部分，，其中代表语言和目标语言共有的，代表源语言私有的。整个实现由矩阵拼接完成。

[Kumar et al., 2019] 利用资源丰富的语言来辅助资源稀少语言的问题生成任务，该任务输入句子，输出问题。并构建了一个新的印度语的问题生成数据集 HiQuAD。其具体做法为：首先使用降噪自编码器（DAE）和反向翻译（back translation）来完成模型的预训练，然后在监督学习部分，分别使用各自数据进行训练。其模型在编码器部分和解码器部分会共享部分参数。其模型如图16。

[Duan et al., 2019, Shen et al., 2018] 利用知识蒸馏结合机器翻译来完成跨语言句子摘要任务。其核心想法为使用现有句子摘要数据集训练教师模型，为跨语言句子摘要模型提供监督信号。同时还利用目标输入句作为中间桥梁，来利用两个方向的注意力权重来指导生成。其基本执行流程如图17。

参考文献

Waleed Ammar, George Mulcaire, Yulia Tsvetkov, Guillaume Lample, Chris Dyer, and Noah ASmith. Massively multilingual word embeddings. arXiv preprint arXiv:1602.01925, 2016. Mikel Artetxe, Gorka Labaka, Eneko Agirre, and Kyunghyun Cho. Unsupervised neural machine translation. arXiv preprint arXiv:1710.11041, 2017. Alexis Conneau, Guillaume Lample, Marc’Aurelio Ranzato, Ludovic Denoyer, and Hervé Jégou.Word translation without parallel data. arXiv preprint arXiv:1710.04087, 2017. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018. Xiangyu Duan, Mingming Yin, Min Zhang, Boxing Chen, and Weihua Luo. Zero-shot cross-lingual abstractive sentence summarization through teaching generation and attention. In Proceedings of the 57th Conference of the Association for Computational Linguistics, pages 3162–3172, Florence,Italy, July 2019. Association for Computational Linguistics. URL https://www.aclweb.org/ anthology/P19-1305. Long Duong, Hiroshi Kanayama, Tengfei Ma, Steven Bird, and Trevor Cohn. Learning crosslingual word embeddings without bilingual corpora. arXiv preprint arXiv:1606.09403, 2016. Carlos Escolano, Marta R Costa-Jussà, and José AR Fonollosa. From bilingual to multilingual neural machine translation by incremental training. arXiv preprint arXiv:1907.00735, 2019. Stephan Gouws and Anders Søgaard. Simple task-specifc bilingual word embeddings. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1386–1390, 2015. Melvin Johnson, Mike Schuster, Quoc V Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fernanda Viégas, Martin Wattenberg, Greg Corrado, et al. Google’ s multilingual neural machine translation system: Enabling zero-shot translation. Transactions of the Association for Computational Linguistics, 5:339–351, 2017. Yunsu Kim, Yingbo Gao, and Hermann Ney. Eﬀective cross-lingual transfer of neural machine translation models without shared vocabularies. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 1246–1257, Florence, Italy, July 2019. Association for Computational Linguistics. URL https://www.aclweb.org/anthology/P19-1120. Vishwajeet Kumar, Nitish Joshi, Arijit Mukherjee, Ganesh Ramakrishnan, and Preethi Jyothi. Cross-lingual training for automatic question generation. arXiv preprint arXiv:1906.02525, 2019. Guillaume Lample and Alexis Conneau. Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291, 2019. Guillaume Lample, Alexis Conneau, Ludovic Denoyer, and Marc’Aurelio Ranzato. Unsupervised machine translation using monolingual corpora only. arXiv preprint arXiv:1711.00043, 2017. Guillaume Lample, Myle Ott, Alexis Conneau, Ludovic Denoyer, and Marc’Aurelio Ranzato.Phrase-based & neural unsupervised machine translation. arXiv preprint arXiv:1804.07755, 2018. Xuebo Liu, Derek F. Wong, Yang Liu, Lidia S. Chao, Tong Xiao, and Jingbo Zhu. Shared-private bilingual word embeddings for neural machine translation. In Proceedings of the 57th Conference of the Association for Computational Linguistics, pages 3613–3622, Florence, Italy, July 2019. Association for Computational Linguistics. URL https://www.aclweb.org/anthology/P19-1352. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeﬀrey Dean. Efcient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013a. Tomas Mikolov, Quoc V Le, and Ilya Sutskever. Exploiting similarities among languages for machine translation. arXiv preprint arXiv:1309.4168, 2013b. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeﬀ Dean. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, pages 3111–3119, 2013c. Telmo Pires, Eva Schlinger, and Dan Garrette. How multilingual is multilingual BERT? In Proceedings of the 57th Conference of the Association for Computational Linguistics, pages 4996–5001, Florence, Italy, July 2019. Association for Computational Linguistics. URL https: //www.aclweb.org/anthology/P19-1493. Sebastian Ruder, Ivan Vulić, and Anders Søgaard. A survey of cross-lingual word embedding models. arXiv preprint arXiv:1706.04902, 2017. Shi-qi Shen, Yun Chen, Cheng Yang, Zhi-yuan Liu, and Mao-song Sun. Zero-shot cross-lingual neural headline generation. IEEE/ACM Transactions on Audio, Speech and Language Processing(TASLP), 26(12):2319–2327, 2018 Raúl Vázquez, Alessandro Raganato, Jörg Tiedemann, and Mathias Creutz. Multilingual NMT with a language-independent attention bridge. In Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019), pages 33–39, Florence, Italy, August 2019. Association for Computational Linguistics. URL https://www.aclweb.org/anthology/W19-4305. Shijie Wu and Mark Dredze. Beto, bentz, becas: The surprising cross-lingual eﬀectiveness of bert.arXiv preprint arXiv:1904.09077, 2019. Min Xiao and Yuhong Guo. Distributed word representation learning for cross-lingual dependency parsing. In Proceedings of the Eighteenth Conference on Computational Natural Language Learning, pages 119–129, 2014. Chao Xing, Dong Wang, Chao Liu, and Yiye Lin. Normalized word embedding and orthogonal transform for bilingual word translation. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1006–1011, 2015.

添加个人微信，备注：昵称-学校（公司）-方向，即可获得

1. 快速学习深度学习五件套资料

2. 进入高手如云DL&NLP交流群

记得备注呦

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
圣诞节后的人气又回来了？好丽友、特斯拉们的生意却不好做| 每周热点汇总饭Sir看天下
新的一年来了大家好，今天是2022年12月26日，星期一，农历十二月初四。这个月，相信我们很多人都遇到了身体不适的情况，饭Sir上周也因为发烧不得不停更了一周，这几天才刚刚恢复，好在这一切最后都能过去。疫情之外，一些好消息也逐渐到来，例如北京等多座大城市在年底的圣诞节期间又恢复了生机，一些迹象也在预示着久违的热闹春节要回来了。但另一方面，明年不确定的经济形势又带来一些不利的消息，不禁让人有些担心。
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
4款毕业论文参考文献格式生成器（附加详细步骤）小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在撰写毕业论文时，参考文献的格式规范是至关重要的。为了帮助学生和学者们更高效地生成符合要求的参考文献格式，本文将详细介绍四款推荐的参考文献格式生成器，并提供详细的使用步骤。1.千笔-AIPassPaper千笔-AIPassPaper是一款先进的AI辅助论文写作工具，不仅能够自动生成大纲、开题报告，还能一键生成参考文献。AI论文，免费大纲，10分钟3万字https://www.aipaperpass
AI论文写作推荐哪个好？分享5款AI论文写作带数据图表网站小猪包333 写论文人工智能深度学习计算机视觉
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款推荐的AI论文写作工具，包括千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文写作助手，旨在帮助用户快速生成高质量的论文内容。AI论文，免费大纲，10分钟3万字https:
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
pyhon+ffmpeg 常用音视频处理命令不再游移 ffmpeg 音视频 python
FFmpeg是多媒体领域的万能工具。只要涉及音视频领域的处理，基本上没有它做不了的事情！通俗点讲，从视频录制、视频编辑再到播放，它都能做！前段时间做了个短视频自动化脚本项目，需要自动处理音视频（包括一些合成、拼接、转场、调色等等），当时做的时候找各种命令还是很痛苦的，因此对用到的所有处理命令做了个汇总，方便以后使用。目录一、获取音频时长二、获取视频信息三、获取视频时长四、多个视频合并五、视频提取视
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
毕业论文附录一般都写什么?大学生写论文是干嘛用的写个原创论文人工智能深度学习 AI写作 chatgpt 论文阅读
毕业论文的附录通常包含一些在正文中不便于展示或详细阐述的内容，但对理解论文整体又具有重要意义的资料。具体来说，附录可能包含以下内容：AI论文，免费大纲，10分钟3万字，查重高于15%退费，支持数据图表！！AIPaperPass-AI论文写作指导平台AIPaperPass是AI原创论文写作平台，免费千字大纲，5分钟生成3万字初稿，提供答辩汇报ppt、开题报告、任务书等，40篇真实中英文知网参考文献，
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
《拖延心理学》（一）你为什么会拖延？|木盒笔记纯se蓝调
《拖延心理学》是帮助你向拖延症宣战的一本书，作者简·博克和莱诺拉·袁是全球知名的拖延症治疗专家。大概每个人或多或少总会有一点拖延症的行为。比如明天要叫论文了，今天你还没有写好，你一边在焦虑症怎么办，一边又拿着手机漫无目的的刷新闻；比如你想了很久准备减肥，但是迟迟又没有行动，想着今天晚上少吃一点吧、明天我就开始运动。今天分析的笔记来告诉你“你为什么会拖延？”，解读人杨坚。有人说拖延就像巨大的泥沼，让
2024年华为杯数学建模研赛C题思路代码+论文助攻 DS数模 2024华为杯数学建模华为 2024华为杯 2024研究生数学建模 2024研赛
2024年华为杯研究生数学建模竞赛（以下简研赛）将于9月21日上午8时正式开始。下文包含：2024研赛思路解析、研赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛C君将会第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考论文等多项资料，帮助大家取得好成绩。2024年研赛将于9月21日上午8时正式开始这里有些资料，大家可以看看：【2024最全国赛研赛数模资料包】C君珍贵
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
番茄畅听邀请码汇总一览(2024六个邀请码扭亏)常见的获取收益凌风导师
听书app是今年的一个流行趋势，番茄畅听听书还可以赚钱规范：目前在网络上有很多违规的邀请码番茄畅听邀请码：4593357008、4425504881或4510119158，它的主要特点是提供海量的小说和广播节目，同时也具备一些社交互动的功能。在番茄畅听中，填写邀请码是一种常见的获取收益的方式。没错，就是4425504881！妇女节快要到来,番茄畅听邀请码邀请码是【4593357008】【44255
【Kubernetes】常见面试题汇总（十一） summer.335 Kubernetes kubernetes 容器云原生
目录33.简述Kubernetes外部如何访问集群内的服务？34.简述Kubernetesingress？35.简述Kubernetes镜像的下载策略？33.简述Kubernetes外部如何访问集群内的服务？（1）对于Kubernetes，集群外的客户端默认情况，无法通过Pod的IP地址或者Service的虚拟IP地址：虚拟端口号进行访问。（2）通常可以通过以下方式进行访问Kubernetes集群
驾校预约学习系统的设计与实现小蒜学长毕业设计学习
摘要伴随着信息技术与互联网技术的不断发展，人们进到了一个新的信息化时代，传统管理技术性没法高效率、容易地管理信息内容。为了实现时代的发展必须，提升管理高效率，各种各样管理管理体系应时而生，各个领域陆续进到信息内容管理时期。驾校预约学习系统管理系统的实现是信息内容时代浪潮时代的产物之一。一切系统都要遵循系统设计的最基本全过程，系统也是如此。它还要通过市场调查、需求分析报告、汇总设计、详尽设计、编号和
2021年化工自动化控制仪表考试及化工自动化控制仪表考试技巧女王219 安全生产模拟考试一点通安全生产一点通题库
题库来源：安全生产模拟考试一点通公众号小程序化工自动化控制仪表考试参考答案及化工自动化控制仪表考试试题解析是安全生产模拟考试一点通题库老师及化工自动化控制仪表操作证已考过的学员汇总，相对有效帮助化工自动化控制仪表考试技巧学员顺利通过考试。1、【单选题】辐射传热()任何介质做媒介。（A）A、不需要B、需要C、有时需要2、【单选题】同一密度的液体深度越深,压强()。（B）A、越小B、越大C、基本不变3
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台网顺技术团队成品程序项目 java vue.js 汽车课程设计 spring boot
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

综述 | 跨语言自然语言处理论文汇总

你可能感兴趣的:(综述 | 跨语言自然语言处理论文汇总)