hitrjj

【AI视野·今日NLP 自然语言处理论文速览第七期】Tue, 15 Jun 2021

AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 15 Jun 2021
Totally 79 papers
上期速览✈更多精彩请移步主页

Daily Computation and Language Papers

Biomedical Entity Linking via Contrastive Context Matching
Authors Shogo Ujiie, Hayate Iso, Eiji Aramaki
我们介绍了生物医学实体链接的对比学习框架，它仅使用两个资源小型字典和大量原始生物医学物品。具体而言，我们通过字典匹配从生包文章中构建培训实例，并使用它们培训具有对比学习的上下文意识的实体链接模型。我们通过最近的邻近搜索预测推理时间的归一化生物医学实体。结果发现，通过使用实体的上下文，生物机基本上优于现有技术的状态，尤其是在低资源设置中。

Evaluating Various Tokenizers for Arabic Text Classification
Authors Zaid Alyafeai, Maged S. Al shaibani, Mustafa Ghaleb, Irfan Ahmad
任何NLP管道的第一步是学习Word矢量表示。但是，给定大型语料库，代表所有单词都不有效。在文献中，许多令牌化算法已经出现通过创建子字来解决这个问题，这反过来限制了任何文本语料库中的词汇量。然而，这种算法大多是语言不可知的，缺乏捕获有意义的令牌的适当方式。更不用说在实践中评估这种技术的难度。在本文中，我们向阿拉伯语推出了三种新的令牌化算法，并使用无监督评估将它们与其他三个基线进行比较。除此之外，我们还通过在三个任务中进行比较，这些算法在三个任务中评估，这些任务是情感分析，新闻分类和诗歌分类。我们的实验表明，这种令牌化算法的性能取决于数据集的大小，任务类型，以及数据集中存在的形态量。

Modeling Profanity and Hate Speech in Social Media with Semantic Subspaces
Authors Vanessa Hahn, Dana Ruiter, Thomas Kleinbauer, Dietrich Klakow
由于任务的主观性质以及现有基层的产生的引导不相容，仇恨言语和亵渎检测患有数据稀疏性，特别是英语以外的语言。在这项研究中，我们在单词和句子表示中识别亵渎子空间，并在零拍摄设置中探讨了各种类似和遥远目标任务的泛化功能。这是单一的德国和交叉的方式，以密切相关的英语，远远相关的法国和非相关阿拉伯任务。我们观察到，在类似和遥远的目标任务和所有语言中，基于子空间的表示比零拍摄设置中的标准BERT表示更有效地传输，F1 10.9和F1 42.9之间的改进在所有测试的单格式和交叉的基线上语言情景。

An Empirical Survey of Data Augmentation for Limited Data Learning in NLP
Authors Jiaao Chen, Derek Tam, Colin Raffel, Mohit Bansal, Diyi Yang
NLP通过使用神经模型和大型标记数据集在过去十年中取得了巨大进展。对丰富数据的依赖可防止NLP模型应用于低资源设置或新的任务，其中需要重大数量的文本数据，需要大量的时间，金钱或专业知识。最近，已经探索了数据增强方法作为提高NLP中数据效率的手段。迄今为止，在有限标记的数据设置中，没有系统的数据增强数据增强概述，使得难以理解哪种方法在哪些设置中工作。在本文中，我们在有限标记的数据设置中提供了对NLP数据增强的近期进展的实证调查，总结了包括令牌级别增强，句子级增强，对冲增强以及隐藏的空间增强以及进行实验的方法的景观11数据集涵盖主题新闻分类，推理任务，释义任务和单句任务。根据结果，我们得出几个结论来帮助从业者在不同的环境中选择适当的增强，并讨论NLP中有限数据学习的当前挑战和未来方向。

Grammar Equations
Authors Bob Coecke, Vincent Wang
示意性地讲，语法计算等预群组织在单词之间提供导线，以便阐明它们的交互，这使得可以验证短语和句子的语法正确性。在本文中，我们还提供了单词中的布线。这将使我们能够识别我们期望等于或密切相关的语法结构。因此，我们的工作为新的语法理论铺平了道路，提供了新的语法真理。我们为Nogo定理提供了一个Nogo定理，因为我们的布线对于预购的长单套管没有意义，语法结石通常采取的形式。相反，它们需要图表或等效，免费的蒙诺式类别。

HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
Authors Wei Ning Hsu, Benjamin Bolte, Yao Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed
语音表示学习的自我监督方法受到三个独特问题的挑战1在每个输入话语中有多种声音单元，2在预训练阶段期间没有输入声音单元的词典，3个声音单元具有可变长度，没有明确分割。为了处理这三个问题，我们提出了隐藏的单位BERT HUBERT方法，用于自我监督的语音表示学习，它利用离线聚类步骤来为伯特预测损失提供对齐的目标标签。我们的方法的关键成分仅在遮蔽区域上应用预测损失，这迫使模型在连续输入上学习组合的声学和语言模型。 Hubert主要依赖于无监督聚类步骤的一致性，而不是指定的集群标签的内在质量。从一个简单的K表示100个集群的老师，并使用两种迭代的聚类，休伯特模型匹配或改善艺术品Wav2Vec 2.0在Librispeech 960h和Libli光线60,000h的最终性能，10min，1h，10h ，100h和960h微调子集。使用1B参数型号，HUBERT最多可显示为更具挑战性的DEV其他和测试其他评估子集。

Determinantal Beam Search
Authors Clara Meister, Martina Forster, Ryan Cotterell
光束搜索是一种用于解码神经序列模型的策略。该算法可以自然地被视为子集优化问题，尽管相应的集合功能不反映候选之间的相互作用的算法。经验上，这导致通常表现出高重叠，例如，串可能仅不同单个单词。然而，在使用案例中，呼叫多种解决方案，通常需要多样化或代表集。为了解决这个问题，我们提出了梁搜索的重新调整，我们呼叫决定梁搜索。决定性光束搜索具有与决定性点处理DPP的自然关系，在固有地编码集合交互的集合上的模型。通过将光束搜索的迭代作为一系列次定颗粒的最大化问题，我们可以将算法转换为不同的子集选择过程。在一个案例研究中，我们使用String子序列内核明确鼓励从序列模型生成的文本中的n克覆盖范围。我们观察到，我们的算法在语言生成背景下对其他不同的集合生成策略提供竞争性能，同时提供更普遍的方法来优化多样性。

SemEval-2021 Task 11: NLPContributionGraph -- Structuring Scholarly NLP Contributions for a Research Knowledge Graph
Authors Jennifer D Souza, S ren Auer, Ted Pedersen
目前学术出版物的自然语言表达与其结构化语义内容建模之间存在差距，以实现智能内容搜索。随着每年呈指数增长的研究，通过语义结构内容运行的搜索功能是引人注目的。 Semeval 2021共享任务NLPContributiveGraph A.k.a.NK.A.NCG任务任务参与者开发自动化系统，这些系统开发从英语语言中的NLP学术文章结构的自动化系统。作为Semeval系列中的第一个，该任务在NLP学术文章中释放了三级信息粒度，即在句子级别，短语级别和短语中按照知识图形kg建设组织的短语。句子级别注释包括一些关于文章贡献的句子。短语级别注释是贡献句子的科学术语和谓词短语。最后，三元组构成了研究概述kg。对于共享任务，预计参与系统将自动分类贡献句，从句子中提取科学术语和关系，并将其作为KG三元组织。

Meaning Representation of Numeric Fused-Heads in UCCA
Authors Ruixiang Cui, Daniel Hershcovich
我们展示了隐式UCCA解析器不会始终如一地地址数值融合头NFHS，这可能导致不一致的注释，培训数据不足或建模限制。并显示涉及哪些因素。我们认为这一现象很重要，因为它在文本中普遍存在，并且对于正确的推断至关重要。仔细的设计和细粒度的NFHS意义代表框架的注释将有利于机器翻译，自然语言推理和问题的下游任务，特别是当他们需要数字推理时，作为恢复和分类它们。我们正在通过其他意义陈述来调查这种现象，例如AMR。我们鼓励研究人员在意义演示和计算语言学中，以解决未来的研究中这种现象。

Cognitive-aware Short-text Understanding for Inferring Professions
Authors Sayna Esmailzadeh, Saeid Hosseini, Mohammad Reza Kangavari, Wen Hua
利用短文本内容来估计微博作者的占用在许多应用中具有显着的收益。然而挑战比比皆是。首先短暂的文本内容具有过多的词汇噪声，使推理问题具有挑战性。其次，认知语义不明显，重要的语言功能在短文本内容中是潜伏的。第三，很难测量认知短文本语义与各种职业的特征之间的相关性。我们认为，需要多方面认知功能来正确将短文本内容与特定工作联系起来，并发现适合职业的人。为此，我们设计了一方面的小说框架，可以一方面可以推断短文本内容和利用认知功能，另一方面，融合各种采用的新型算法，如曲线拟合，支持向量和升压模块更好预测作者的职业。最终估计模块通过相干重量制造R W树，以调谐推断过程中的最佳结果。我们在现实生活中进行全面的实验。实验结果表明，与其他竞争对手相比，我们的认知多方面模型可以在职业估算程序中实现更高的性能，在那里忽略用户的上下文语义是不可避免的。

Posthoc Verification and the Fallibility of the Ground Truth
Authors Yifan Ding, Nicholas Botzer, Tim Weninger
分类器通常利用预注释数据集，其中通过通常由人类注释标签制成的所持式测试集上的预定定义度量来评估模型。这些评估中使用的指标与明确的地面真理标签的可用性相关联，这些度量通常不允许不精确的匹配。这些嘈杂的地面真理标签和严格的评估指标可能会损害评估结果的有效性和现实。在目前的工作中，我们讨论了这些问题，并对EL任务的实体进行了系统的Posthoc验证实验。与传统方法不同，询问注释者提供免费表格注释，我们要求注释者在事实之后验证注释的正确性，Posthoc。与预注释评估相比，根据POSTHOC评估方法，艺术EL模型的状态非常好。 POSTHOC验证还允许验证地面真理数据集。令人惊讶的是，我们发现来自EL模型的预测具有比地面真理相似或更高的验证率。我们讨论了这些调查结果和未来评估的建议。

THG: Transformer with Hyperbolic Geometry
Authors Zhe Liu, Yibin Xu
变压器模型架构最近在深度学习中成为一个不可或缺的主食，以跨一系列任务的效力。最近，已经提出了X前模型的激增，其改进了原始变压器架构。然而，大多数这些变体只会在自我注意的二次时间和内存复杂度周围进行更改，即查询与键之间的点产品。更重要的是，它们仅在欧几里德空间中计算。在这项工作中，我们提出了一种具有双曲性几何THG模型的新型变压器，这取得了欧几里德空间和双曲线空间的优势。 THG在输入序列上应用于输入序列的线性变换，以获取查询和密钥，具有所提出的双曲线线性。序列标签任务的广泛实验，机器阅读理解任务和分类任务展示了我们模型的有效性和概括性。它还证明了THG可以减轻过度装备。

Using Integrated Gradients to explain Linguistic Acceptability learnt by BERT
Authors Anmol Nayak, Hari Prasad Timmapathini
通过利用其建筑中的多头自我关注机制，伯特一直是语言理解的突破。据我们所知，这项工作是第一个利用层集成梯度归因归因的归因，以解释伯特语言可接受性可接受性Cola基准数据集的语料库学习的语言可接受性标准。我们对5种不同类别的句子的实验导致以下有趣的发现1个用于语言上可接受的LA句的1个LIGAS与语言上不可接受的Lua句子相比，有一个特定的面包细则解析为La和Lua句子的组分解析树CPT较大的LIGAS，3横跨我们观察到的不同类别的句子大约88到100个正确的分类句子有积极的利纳，表明与模型的预测置信度强烈的积极关系，4左右的被错误分类的句子有阳性利加斯，如果LIGAS在模型的丢失函数中参数化，那么我们认为可以成为正确的句子。

Is it a click bait? Let's predict using Machine Learning
Authors Sohom Ghosh
在这个数字化时代，新闻读者倾向于在线阅读新闻。这是因为，在线媒体立即提供对各种内容的访问。因此，人们不必等待明天的报纸知道今天发生的事情。随着这些美德，在线新闻也有一些恶习。一个这样的副主象是社交媒体的存在，与新闻文章有关的推文，其唯一目的是引起用户的注意，而不是指导他们阅读实际内容。此类帖子称为ClickBait。该项目的目的是制定一个能够预测社交媒体发布与新文章相关的可能性的系统，往往是点击。

Self-Guided Contrastive Learning for BERT Sentence Representations
Authors Taeuk Kim, Kang Min Yoo, Sang goo Lee
虽然BERT及其变种已经重塑了NLP景观，但仍然尚不清楚如何最好地从这种预训练的变压器中获得陈腐嵌入。在这项工作中，我们提出了一种对比的学习方法，利用自我指导来提高BERT句子表示的质量。我们的方法精细曲调在自我监督的时尚中倾斜，不依赖于数据增强，并使通常的CLS令牌嵌入为句子向量。此外，我们重新设计了对比学习目标NT Xent并将其应用于句子代表学习。我们展示了广泛的实验，即我们的方法比不同句子相关任务的竞争基础更有效。我们还显示它在推理和强大的域移位时是有效的。

Learning to Bridge Metric Spaces: Few-shot Joint Learning of Intent Detection and Slot Filling
Authors Yutai Hou, Yongkui Lai, Cheng Chen, Wanxiang Che, Ting Liu
在本文中，我们调查了对话语言理解的几个射击联合学习。大多数现有的几次拍摄模型每次都会学习单个任务，只有几个例子。但是，对话语言理解包含两个密切相关的任务，即意图检测和插槽填充，并且通常会受益于共同学习两个任务。这次要求新的几次射门学习技术能够从几个例子中捕获任务关系并共同学习多个任务。为此，我们提出了一种基于相似性的少量射击学习方案，命名为对比的原型合并网络conprom，它学会在丰富的域上桥接Intent和插槽的公制空间，然后将桥接度量空间调整为特定的少量拍摄域。两个公共数据集的实验，剪辑和少带，表明我们的模型显着优于一个和五次拍摄设置中的强基线。

MathBERT: A Pre-trained Language Model for General NLP Tasks in Mathematics Education
Authors Jia Tracy Shen, Michiharu Yamashita, Ethan Prihar, Neil Heffernan, Xintao Wu, Dongwon Lee
由于BERT模型的转移学习性质，研究人员通过进一步预先训练了巨大的域特定语料库上的原始伯特来实现比碱基硼的性能更好。由于经常包含数学方程和符号的数学文本的特殊性，原始BERT模型在一般英语上下文上进行了培训，不会符合数学教育中的NLP任务。因此，我们提出Mathbert，这是一个预先培训的大型数学语料库，包括预先追逐毕业的数学内容来解决数学特定的任务。此外，我们还生成了定制的数学词汇，以预先使用Mathbert进行培训，并将性能与原始BERT词汇训练的Mathbert进行比较。我们在数学教育中选择了三项重要任务，如知识组件，自动分级和知识跟踪预测，以评估Mathbert的性能。我们的实验表明，Mathbert优于2 9余量的基础硼。在某些情况下，Mathbert预先培训数学词汇比Mathbert由原始培训更好

Neighborhood Rough Set based Multi-document Summarization
Authors Nidhika Yadav
本研究论文提出了一种基于新的邻域粗糙集的监督多文件文本摘要MDT方法，分析和影响MDTS摘要结果。这里，基于粗糙的基于LER算法使用邻域粗糙集改进，该粗糙集本身是一种名为邻域内流的新型组合，以进行功效和效率的评估。在本文中，我们将申请和评估拟议的多文件摘要征区，在这里证明在实验上优于基于MDTS的基础流动技术。

Probing Pre-Trained Language Models for Disease Knowledge
Authors Israa Alghanmi, Luis Espinosa Anke, Steven Schockaert
Proginbert的预培训语言模型在医学自然语言推理等任务中取得了令人印象深刻的结果。乍一看，这可能表明这些模型能够进行医学推理任务，例如将症状映射到疾病。但是，我们发现Mednli等标准基准含有相对较少的例子，需要这种形式的推理。为了更好地了解现有语言模型的医疗推理能力，本文介绍了疾病知识评估的新基准。为了构建该基准，我们向每个正相关的Mednli举例说明所需的医学推理类型。然后，我们通过以普遍的方式损坏这些积极的例子来创造消极的例子。此外，我们确定每种疾病的训练测试分裂，确保无法从培训数据中吸取有关测试疾病的知识，并且我们可以通过培养假设的制定来避免人工制品的配方。这导致了许多二进制分类问题，一种用于每种类型的推理和每种疾病。在拟议的基准上分析临床生物医学领域的预训练模型，我们发现其性能大大降低。

Cascaded Span Extraction and Response Generation for Document-Grounded Dialog
Authors Nico Daheim, David Thulke, Christian Dugast, Hermann Ney
本文总结了我们对第一个DiveDoc共享任务的两个子任务的条目，该任务集中在目标导向文档接地对话框中的代理响应预测任务。任务被分成预测地处理代理转向并基于对话框和接地文档生成代理响应的文档中的跨度的两个子任务。在第一个SubTask中，我们将一组有效的跨度集合到DataSet中定义的那些，使用Biaffine分类器来模型跨度，最后使用不同模型的集合。对于第二个子任务，我们使用级联模型，该模型将预测跨度而不是完整文档的响应预测。通过这些方法，与基线相比，我们对两个子特设有重大改进。

Contemporary Amharic Corpus: Automatically Morpho-Syntactically Tagged Amharic Corpus
Authors Andargachew Mekonnen Gezmu, Binyam Ephrem Seyoum, Michael Gasser, Andreas N rnberger
我们介绍了当代Amharic语料库，它被自动标记为Morpho句法信息。从不同领域的25,199个文件中收集文本，牌匾约2400万个拼音。由于它部分是Web语料库，因此我们进行了一些自动拼写错误校正。我们还修改了现有的形态分析仪，Hornmorpho，将其用于自动标记。

Mitigating Biases in Toxic Language Detection through Invariant Rationalization
Authors Yung Sung Chuang, Mingye Gao, Hongyin Luo, James Glass, Hung yi Lee, Yun Nung Chen, Shang Wen Li
自动检测有毒语言在保护社交媒体用户，尤其是少数群体，从口头滥用中起着重要作用。然而，在大多数毒性检测的训练数据集中存在对某些属性（包括性别，种族和方言）的偏见。偏见使学习模型不公平，甚至可以加剧人民的边缘化。考虑到，用于一般自然语言理解任务的当前脱叠方法无法有效地减轻毒性探测器中的偏差，我们建议使用不变的合理化INVRAT，这是一个由理由发生器和预测因子组成的游戏理论框架，从而排除某些杂散的相关性句法模式例如，身份提及，方言到毒性标签。我们经验证明，我们的方法在词汇和方言属性中产生的误差率低于之前的脱叠方法。

Is Einstein more agreeable and less neurotic than Hitler? A computational exploration of the emotional and personality profiles of historical persons
Authors Arthur M. Jacobs, Annette Kinder
分布式语义模型的最新进展DSM提供了估算虚构和真实人的人格特质的新方法。在这个探索性研究中，我们应用了Jacobs 2019中开发的算法的扩展版本，以计算了来自艺术，政治或科学域名的100名历史人员的吸引力分数，情绪人物和Big5个性特征，其名称相当独特，例如爱因斯坦， Kahlo，毕加索。我们比较了四项研究中的静态Word2VEC和动态BERT语言模型表示产生的结果。结果表明，基于DSM的个性概况和点方法的潜在和局限性，以进一步发展这种方法，成为数据科学，心理学或计算和神经认知诗歌Jacobs的有用工具，2015年。

English to Bangla Machine Translation Using Recurrent Neural Network
Authors Shaykh Siddique, Tahmid Ahmed, Md. Rifayet Azam Talukder, Md. Mohsin Uddin
经常性神经网络在机器翻译中的应用在自然语言处理中增加。除其他语言之外，Bangla语言还包含大量的词汇。将英语改进到Bangla Machine翻译将是对Bangla语言处理的重要贡献。本文介绍了孟加拉机器翻译系统的英语建筑。该系统已经用编码器解码器经常性神经网络实现。该模型使用基于知识的上下文向量来为英语和孟加拉语言映射。这里测量基于激活功能的模型的性能。编码器层中的线性激活函数和解码器层中的Tanh激活函数实现了最佳性能。从GRU和LSTM层的执行，GRU比LSTM更好。注意层和Softmax和Sigmoid激活功能颁布。模型的方法在交叉熵损耗度量方面优于前一个艺术系统状态。读者可以轻松找出英语的机器的结构，以及本文的有效激活功能。

Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation
Authors Xiang Lin, Simeng Han, Shafiq Joty
高级大规模神经语言模型导致了许多语言生成任务的成功。然而，最常用的训练目标，最大似然估计MLE已经出现问题，其中训练有素的模型喜欢使用暗沉和重复的短语。在这项工作中，我们介绍了Scalegrad，直接修改了损失功能的梯度，以弥补标准MLE目标的退化问题。通过直接操纵梯度信息，ScaleGrad使模型学会使用新颖的令牌。经验结果表明，我们的方法不仅在开放的发电中的有效性，而且在导向的生成任务中。凭借架构的简单性，我们的方法可以作为一般培训目标，适用于大多数神经文本生成任务。

Automatic Document Sketching: Generating Drafts from Analogous Texts
Authors Zeqiu Wu, Michel Galley, Chris Brockett, Yizhe Zhang, Bill Dolan
大型预培训的语言模型的出现使得能够对如何在文档中添加或更改句子进行高质量的预测。然而，文本生成所固有的高分支因子阻碍了即使是最强语言模型的能力，以便在更全局或文档级别提供有用的编辑建议。我们介绍了一项新任务，文件素描，涉及为作家发行整个文件，以审查和修改。这些草稿由一组文件构建，这些文件构建，在形式中与潜在可重复使用的潜在可重复使用的文本的大块分开，同时在内容发散。为了支持这项任务，我们介绍了基于Wikipedia的类似文件数据集，并调查了弱监督方法的应用，包括使用基于变压器的专家混合物，以及加强学习。我们通过自动化和人类评估方法报告实验，并讨论这些模型的相对优点。

SAS: Self-Augmented Strategy for Language Model Pre-training
Authors Yifei Xu, Jingqiao Zhang, Ru He, Liangzhu Ge, Chao Yang, Cheng Yang, Ying Nian Wu
用于预培训语言模型的自我监督学习方法的核心包括适当的数据增强和相应的预训练任务S的设计。语言模型中的大多数数据增强都是独立的上下文。 Electra最近提出的最近的大型上下文化增强需要一个单独的发电机，这导致额外的计算成本以及在相对于其他模型组件S的发电机的能力调整其发电机的能力时的挑战。我们提出了一种自增强的策略SAS，它使用单一前进通过模型来增加下一个时代的模型训练的输入数据。基本上我们的策略消除了一个单独的发电机网络，只使用一个网络来生成数据增强，并承担两个预训练，并共同承担RTD任务，这自然避免了调整发电机的能力以及减少了计算的挑战成本。此外，我们的SAS是一项普遍的策略，使得它可以无缝地纳入最近或将来的许多新技术，例如韦伯特模型最近提出的解开注意机制。我们的实验表明，我们的SAS能够以相同或更少的计算成本在胶水任务中优于胶水任务中的电力和其他状态。

A Mutual Information Maximization Approach for the Spurious Solution Problem in Weakly Supervised Question Answering
Authors Zhihong Shao, Lifeng Shang, Qun Liu, Minlie Huang
弱监督的问题应答通常只有最终答案作为监督信号，而无法提供答案的正确解决方案。这种设置产生了虚假的解决方案问题可能存在许多巧妙的解决方案，可巧合得出正确的答案，但是对这种解决方案的培训可以伤害模型性能，例如，产生错误的解决方案或答案。例如，对于作为下降的离散推理任务，可能存在许多方程来导出数字答案，并且通常只有其中一个是正确的。以前的学习方法大多过滤出用启发式或使用模型信心的虚假解决方案，但没有明确利用问题与其解决方案之间的语义相关性。在本文中，为了缓解虚假的解决方案问题，我们建议通过最大化问题答案对和预测解决方案之间的相互信息来明确利用此类语义相关性。关于四个问题的广泛实验，回答数据集表明，我们的方法在任务性能方面显着优于先前的学习方法，并且在培训模型方面更有效地产生正确的解决方案。

End-to-end Neural Diarization: From Transformer to Conformer
Authors Yi Chieh Liu, Eunjung Han, Chul Lee, Andreas Stolcke
我们提出了一个新的端部到底神经深度延迟系统，该系统是基于Conformer的，是最近提出的神经结构，这些神经结构结合了卷积映射和变压器来模拟了语音中的本地和全球依赖性。首先表明数据增强和卷积子采样层增强了基于变压器的原始自定义延伸，然后符合者在基于变压器的eend上提供了额外的增益。但是，我们注意到基于符合管理器的eend不会概括为基于变压器的模型模拟到真实对话数据。这导致我们在反映扬声器之间的时间统计数据的情况下量化模拟数据和真实扬声器行为之间的不匹配，并调查其与日记误差的相关性。通过在eend培训中混合模拟和实际数据，我们进一步减轻了不匹配，基于适得的eend在基线SA eend系统上实现了24个错误，以及在两个扬声器Callhome数据上获得最佳增强变压器的系统的10个改进。

Why Can You Lay Off Heads? Investigating How BERT Heads Transfer
Authors Ting Rui Chiang, Yun Nung Chen
广泛使用的伯特家族模型的巨大尺寸导致了近期模型蒸馏的努力。蒸馏的主要目标是创建任务不可知的预训练模型，可以在下游任务上进行微调，而无需正常调整其全尺寸版本。尽管蒸馏进展，但在蒸馏中可以创建任务无关症模型的程度并没有得到很好的研究。此外，转移学习的机制也不适合调查。因此，这项工作侧重于分析蒸馏时可接受的扣除，以引导未来的蒸馏程序。具体而言，我们首先使用Michel等人提出的主要重要性估计来检查变压器头的贪污头。 2019年，然后检查预训练的任务和下游任务之间重要头的一致性。因此，在蒸馏模型时，可以从结果中推导出预训练的任务上的性能的可接受推导，我们进一步比较了在微调之前和之后修剪模型的行为。我们的研究为未来关于BERT Family Model蒸馏的未来方向提供了指导。

GPT3-to-plan: Extracting plans from text using GPT-3
Authors Alberto Olmo, Sarath Sreedharan, Subbarao Kambhampati
包括金融和银行在内的许多基本行业的业务通常是需要执行重复的连续任务的特点。尽管对业务有关心，但工作流程很少完全自动化甚至正式指定，尽管可能存在许多用于公司员工的本程序的自然语言文档。计划提取方法为我们提供从计划工作流程的自然语言描述中提取结构计划的可能性，然后可以通过自动化系统利用。在本文中，我们调查了广义语言模型直接从这些文本执行此类提取的效用。此类模型已被证明在多种转换任务中非常有效，我们的初始结果似乎也指向其在计划提取的背景下的效力。特别地，我们表明GPT 3能够产生与本领域技术提取方法的许多当前状态相当的计划提取结果。

Toward Diverse Precondition Generation
Authors Heeyoung Kwon, Nathanael Chambers, Niranjan Balasubramanian
语言理解必须识别话语中事件之间的逻辑连接，但由于其致辞性质，核心事件通常是未持久的。本文通过生成先决条件事件填写这些缺失的事件。先决一代可以作为序列问题的序列给出给定目标事件，生成可能的前提。然而，在大多数真实的世界场景中，一个事件可以有几个先决条件，需要各种各样的代表标准SEQ2SEQ方法。我们提出DIP，一个不同的先决条件系统，可以产生独特和多样化的前提。 DIP使用生成过程，其中三个组件是事件采样器，候选生成器和后处理器。事件采样器提供候选生成器用于集中生成的控制代码触发器。与其他有条件生成系统不同，DIP会自动生成控制代码，而无需对不同示例的培训。对基线的分析表明，DIP显着提高了前提条件的多样性，同时也产生了更多的先决条件。

Schema-Guided Paradigm for Zero-Shot Dialog
Authors Shikib Mehri, Maxine Eskenazi
开发灵活地调整对话系统以解释任务和域名的机制是对话研究中的主要挑战。神经模型从培训数据隐式记住任务特定的对话策略。我们认为这种隐含的记忆排除了零射击传输学习。为此，我们利用模式引导范例，其中明确向模型明确提供任务特定的对话策略。我们介绍了Schema Peponent Model Sam和STAR语料库的改进的架构表示。 SAM在零拍摄设置中获得显着改进，在现有工作中，22 F1分数改进。这些结果验证了对话框中零拍摄概括性的可行性。还提出了消融实验以证明SAM的功效。

GenSF: Simultaneous Adaptation of Generative Pre-trained Models and Slot Filling
Authors Shikib Mehri, Maxine Eskenazi
在转移学习中，必须在预训练模型和下游任务之间实现强烈的对齐。通过提出任务特定的预培训目标来完成此目的，这使得牺牲了转移学习范例的固有可扩展性。我们通过同时修改预训练的模型和下游任务的配方来实现强烈的对准，这更有效并保留转移学习的可扩展性。我们展示了Gensf生成的插槽填充，它利用了用于插槽填充的生成预培训的开放域对话框模型。 Gensf 1通过将电感偏差结合到任务的电感偏差，并通过重新填充槽填充以更好地利用预先培训的模型S功能来适应下游任务。 Gensf实现了最先进的第两个插槽填充数据集，其中有很大的射击和零拍摄设置。我们在零射槽填充中达到了9 F1分数改进。这突出了预训练模型与下游任务之间的强对准的值。

Shape of Elephant: Study of Macro Properties of Word Embeddings Spaces
Authors Alexey Tikhonov
预训练的单词表示成为许多NLP任务中的关键组成部分。但是，嵌入词的全球几何形状仍然明白。在本文中，我们证明典型的单词嵌入云作为具有可解释顶点的高维简单云，并提出了一种简单但有效的方法，用于枚举这些顶点。我们表明该方法可以检测和描述手套和FastText空间的单纯x的顶点。

SASICM A Multi-Task Benchmark For Subtext Recognition
Authors Hua Yan, Weikang Xiao, Feng Han, Jian Zhao, Furao Shen
子文本是一种深度语义，可以在一个或多个回合的表达式转换之后获得。作为表达一个意图的流行方式，值得研究。在本文中，我们试图使计算机通过机器学习来理解是否存在子文本。我们构建一个中国数据集，其源数据来自流行的社交媒体。微博，网易音乐，志愿和毕尔比利。此外，我们还构建一个名为SASICM的基线模型，以处理子文本识别。 SASICMG的F1得分，其预热模型是手套，高达64.37，比比基于BERT的模型高3.97，平均传统方法高于3.97，包括支持向量机，Logistic回归分类器，最大熵分类器，天真贝叶斯分类器和决策树和2.39高于现有技术的，包括Marin和BTM。 Sasicmbert的F1得分为伯爵是伯特的，是65.12，比Sasicmg高0.75。 SASICMG和SASICMBERT的精度率分别为71.16和70.76，可与此前提到的其他方法的竞争者竞争。

Common Sense Beyond English: Evaluating and Improving Multilingual Language Models for Commonsense Reasoning
Authors Bill Yuchen Lin, Seyeon Lee, Xiaoyang Qiao, Xiang Ren
迄今为止，致辞推理研究已经限于英语。我们的目标是评估和改进流行的多语言语言模型ML LMS，以帮助推进英语超越CSR的致辞。我们收集米奇语料库，由11种不同语言组成的561K句，可用于分析和改善ML LMS。我们提出米奇探测器，一种语言不可知的探测任务，用于公平地评估不同语言的流行毫升LMS的常见意义。此外，我们还通过将英文版本转换为15种语言来创建两个新的数据集，X CSQA和X Codah，以便我们可以评估流行的ML LMS，用于交叉舌致致辞推理。为了提高英语的表现，我们提出了一种简单但有效的方法多语言对比预训练MCP。它显着增强了句子表示，在两种基准上产生了大的性能增益。

Cross-sentence Neural Language Models for Conversational Speech Recognition
Authors Shih Hsuan Chiu, Tien Hong Lo, Berlin Chen
自动语音识别ASR中的一个重要研究方向围绕开发有效方法，以重新绘制ASR系统的输出假设，更复杂的语言模型LMS进一步提升。目前的主流思路ASR N最佳假设Reranking是基于经常性的神经网络RNN或其变体，具有在一系列ASR任务中的传统N GRAM LMS上的性能优势。在诸如长的对话之类的真实场景中，连续句子的序列可以共同包含诸如局部相干性，词汇夹带和邻接对的充分的对话级别信息，然而仍有缺乏缺陷。鉴于此，我们首先将ASR N最佳重新划分为预测问题，提出了一种有效的跨句神经LM方法，通过考虑其先例句子中的使用来重新划分即将到来的句子的ASR N最佳假设。此外，我们还以无监视的方式探索以更好的ASR性能提取跨句子历史的特定全局主题信息。在AMI对话基准语料库上进行的广泛实验表明了我们的方法的有效性和可行性与若干艺术Reranking方法的若干状态相比。

Sentiment Analysis of Covid-19 Tweets using Evolutionary Classification-Based LSTM Model
Authors Arunava Kumar Chakraborty, Sourav Das, Anup Kumar Kolya
随着Covid的19日迅速爆发，日复一日地迅速爆发，也影响了百万的生命，许多国家宣布完全锁定以检查其强度。在这个锁定期间，社交媒体平台表格在世界各地传播有关这个大流行的信息的重要作用，因为人们常常通过社交网络表达自己的感受。考虑到这种灾难性的情况，我们开发了一种实验方法来分析Twitter上人们的反应，即直接或间接地基于这种大流行。本文代表了对Coronavirus或Covid上的大量推文的情绪分析19.起初，我们通过进化分类分析了与Covid 19流行相关的主题的公众情绪的趋势。然后我们根据他们的班级计算了收集的推文的情感评级。最后，我们使用两种类型的额定推文培训了长期短期网络，以预测Covid 19数据的情绪，并获得84.46的总体精度。

InfoBehavior: Self-supervised Representation Learning for Ultra-long Behavior Sequence via Hierarchical Grouping
Authors Runshi Liu, Pengda Qin, Yuhong Li, Weigao Wen, Dong Li, Kefeng Deng, Qiang Wu
电子商务公司必须面对出售潜在危险产品的异常卖方。通常，可以通过共同考虑产品内容例如，标题和图像和卖方行为来识别风险。这项工作侧重于行为特征提取，因为行为序列可以通过反映卖方的运营习惯来为风险发现提供有价值的线索。传统的特色提取技术严重依赖于领域专家，并适应新任务。在本文中，我们提出了一个自我监督的方法信息vior，以自动从超长原始行为序列中提取有意义的表示，而不是昂贵的特征选择过程。 InfoBehavior利用双向变压器作为特征编码器，因为它的模拟长期依赖性的优异功能很高。然而，商品GPU是棘手的，因为变压器所需的时间和记忆在序列长度的增加随着序列的增加而产生二次。因此，我们提出了一种分层分组策略，以聚合超长原始行为序列到长度加工的高水平嵌入序列。此外，我们介绍了两种类型的借口任务。序列相关借口任务定义了基于对比的培训目的，以正确选择掩蔽粗粒细粒细纹行为序列，反对其他令人置信的行为序列域相关借口任务设计了分类培训目的，以正确预测域特定的异常行为统计结果。我们表明，来自预训练的信息性的行为表示可以直接使用或集成来自其他侧面信息的功能，以支持各种下游任务。实验结果表明，信息性能显着提高了产品风险管理和知识产权保护的性能。

Memory-efficient Transformers via Top-$k$ Attention
Authors Ankit Gupta, Guy Dar, Shaya Goodman, David Ciprut, Jonathan Berant
在变压器中的点产品注意力的成功之后，最近已经提出了许多近似来解决其与输入长度的二次复杂性。虽然这些变体是内存和计算效率，但是不可能直接使用使用vanilla注意训练的流行的预培训语言模型，而无需昂贵的纠正阶段。在这项工作中，我们提出了一种简单但高度准确的Vanilla注意近似。我们处理块中的查询，以及每个查询，将顶部K分数与键进行计算。我们的方法提供了几个优点，其内存使用情况是线性的输入大小，类似于线性注意变体，如执行者和RFA B，这是一个替代品的替代品，不需要任何纠正的预训练，而且它可以在将它们铸造到熟悉的查询键值框架之后，还会导致馈线前向层中的显着内存节省。我们评估在长距离竞技场基准上的多头注意层的顶部K近似值的质量，以及在多个QA数据集上的T5和UnifiedQA的馈送前向层。我们展示了我们的方法导致准确性与多种设置中的Vanilla注意几乎相同，包括从划伤，微调和零射击推断的培训。

Don't Rule Out Monolingual Speakers: A Method For Crowdsourcing Machine Translation Data
Authors Rajat Bhatnagar, Ananya Ganesh, Katharina Kann
高性能机翻译MT系统可以帮助克服语言障碍，同时使每个人都可以通过他们选择的语言进行通信和使用语言技术。然而，这种系统需要大量的训练句，并且翻译者可能很难找到和昂贵。在这里，我们为MT提供了一个数据收集策略，相比之下，它便宜且简单，因为它不需要双语扬声器。基于人类对动作的特殊关注的洞察力，我们使用图形交换格式GIF作为枢轴来收集单声道注释器的平行句子。我们使用我们的策略来收集印地文，泰米尔和英语的数据。作为基线，我们还使用图像作为枢轴收集数据。我们通过手动评估句子对的子集和通过在收集的数据上的FINETUNING MBART来评估句子对的子集进行内在评估。我们发现通过GIF收集的句子确实具有更高的质量。

Can Transformer Language Models Predict Psychometric Properties?
Authors Antonio Laverghetta Jr., Animesh Nighojkar, Jamshidbek Mirzakhalov, John Licato
基于变压器的语言模型LMS继续推进NLP基准任务的最新状态，包括旨在模仿人类灵感的致辞能力的任务。为了更好地了解LMS的程度来说，可以说是有一定的语言推理技能，研究人员开始调整精神仪器领域的工具和概念。但是，在多大程度上可以在多大程度上流入另一个方向，即可以使用LMS用于预测测试项目的心理学特性，当那些物品给予人类参与者时，我们收集来自众多人体参与者和LMS变压器的反应和非基于语言能力的广泛诊断测试的变压器。然后，我们使用响应来计算诊断测试中项目的标准心理学属性，分别使用人为响应和LM响应。然后，我们确定这两套预测匹配的程度。我们发现基于变压器的LMS在某些类别中预测了变压器的LMS，但在其他类别中始终不良，因此在人类和LM推理之间的基本相似性和差异中提供了新的洞察力。

Evaluating Entity Disambiguation and the Role of Popularity in Retrieval-Based NLP
Authors Anthony Chen, Pallavi Gudipati, Shayne Longpre, Xiao Ling, Sameer Singh
检索是开放域NLP任务的核心组件。在开放域任务中，多个实体可以共享一个名称，使歧义为尚未探讨的问题。我们提出了一种评估基准，用于评估这些检索者的实体歧义能力，我们称之为模棱两可检索琥珀集。我们将琥珀色设置为作为与这些实体查询共享名称的实体集合。通过为多园名称覆盖一组实体，Amber套件作为实体歧义的具有挑战性的测试。我们为三个流行的开放域任务创建琥珀色集检查，插槽填充和问题应答，并评估多种检索器。我们发现，检索者展示了流行度偏见，显着在对共享名称的RARER实体上表现出色，例如，它们是在同名下检索错误的疑问文件的可能性的两倍。这些关于琥珀色集的实验显示了他们作为评估工具的实用性，并突出了流行检索系统的弱点。

Prompting Contrastive Explanations for Commonsense Reasoning Tasks
Authors Bhargavi Paranjape, Julian Michael, Marjan Ghazvininejad, Luke Zettlemoyer, Hannaneh Hajishirzi
许多型号推理NLP任务涉及根据经常隐含的知识选择一个或多个可能的一个或多个可能的答案或提示。大型预用语言模型PLM可以在这些任务中实现近人类性能，同时提供他们使用的潜在推理的少数人可解释证据。在这项工作中，我们展示了如何使用这些相同的型号来生成受人类解释的对比性质的提升的这些证据，我们使用PLMS完成解释，提示根据所需的关键属性S对比替代方案，以证明正确的答案，花生通常咸，而葡萄干是甜蜜的。与以前的非对比替代品相比，调节模型决策提高了两个致辞推理基准的性能。这些解释也被人类判断，更为重要的是解决任务，并促进一种评估解释忠诚的新方法。

A Pseudo Label-wise Attention Network for Automatic ICD Coding
Authors Yifan Wu, Min Zeng, Ying Yu, Min Li
自动国际疾病分类ICD编码被定义为一种文本多标签分类问题，这很难，因为标签数量非常大，标签的分布不平衡。标签明智的注意机制广泛用于自动ICD编码，因为它可以为不同ICD代码为全电子医疗记录EMR中的每个单词分配权重。然而，标签明智的注意机制是计算冗余和昂贵的。在本文中，我们提出了一个伪标签明智的注意机制来解决这个问题。代替计算不同ICD代码的不同关注模式，伪标签明智的注意机制自动合并类似的ICD代码并仅计算类似ICD代码的一个注意模式，这大大压缩了注意力模式并提高了预测的准确性。此外，我们应用更方便和有效的方法来获得ICD矢量，因此我们的模型可以通过计算EMR矢量和ICD矢量之间的相似性来预测新的ICD代码。广泛的实验表明了我们模型的卓越性能。在Public Mimic III数据集和私人Xiangya数据集上，我们的型号分别实现了0.575和0.796的微型F1，这优于其他竞争模型。此外，我们验证了我们模型预测新的ICD代码的能力。案例研究表明，伪标签如何明智的关注工作，并展示了伪标签明智的关注机制的有效性。

Machine Translation into Low-resource Language Varieties
Authors Sachin Kumar, Antonios Anastasopoulos, Shuly Wintner, Yulia Tsvetkov
最先进的机器翻译MT系统通常接受过培训以产生标准目标语言，然而，许多语言都有多种各种区域品种，方言，社会，非本土品种，不同于标准语言。这些品种通常是低资源，因此不包括当代NLP解决方案，包括在内的NLP解决方案。我们提出了一般的框架来快速调整MT系统，以产生靠近但与标准目标语言不同的语言品种，不使用并行源品种数据。这还包括将MT系统的适配到低资源类型相关的目标语言。我们尝试适应英语俄罗斯MT系统，以生成乌克兰和白俄罗斯人，英语挪威Bokm L系统生成Nynorsk，以及一个英语阿拉伯语系统，以产生四种阿拉伯语方言，获得对竞争基础的显着改进。

Predicting the Ordering of Characters in Japanese Historical Documents
Authors Alex Lamb, Tarin Clanuwat, Siyu Han, Mikel Bober Irizar, Asanobu Kitamoto
日本是一个独特的国家，具有独特的文化遗产，这反映在数十亿历史文件中被保存。然而，1900年日本书写系统的变化使这些文件无法访问公众。一项重大的研究项目一直是使这些历史文件可访问和可理解。越来越多的研究专注于角色识别任务和图像上的角色的位置，但研究较少的研究专注于如何预测字符的顺序排序。这是因为古典日语中的序列与现代日语非常不同。将字符排入序列对于使文档文本轻松读取和可搜索是很重要的。另外，它是数据上任何类型的自然语言处理的必要步骤。机器翻译，语言建模和Word Embeddings。我们探讨了使用简单的手工制作规则预测字符的顺序排序的任务的一些方法，使用具有自适应阈值的手工制作规则，另一个使用与教师强制培训的深频序列模型。我们提供了对这些技术的定量和定性比较以及它们独特的贸易问题。我们最好的执行系统的准确性为98.65，在我们的数据集中的49本书中具有完美的准确性，这表明该技术能够预测许多任务足够好的人物的顺序。

Exploiting Parallel Corpora to Improve Multilingual Embedding based Document and Sentence Alignment
Authors Dilan Sachintha, Lakmali Piyarathna, Charith Rajitha, Surangika Ranathunga
多语言句子表示对低资源语言构成了很大的优势，这些语言没有足够的数据来构建自己的单晶模型。这些多语言句子表示通过少数关于文档和句子对齐的研究被分开利用。但是，大多数低资源语言都在这些预训练模型中表示。因此，在低资源语言的背景下，使用其他数据源，这些模型必须为手头的任务进行微调。本文介绍了一种加权机制，它利用可用的小规模并行语料库来提高文档和句子对齐的多语言句子表示的性能。实验是关于两种低资源语言，僧伽罗大序和泰米尔的实验。结果新创建的僧伽拉英语，泰米尔英语和Sinhala Tamil表明，这种新的加权机制显着提高了文档和句子对齐。该数据集以及源代码公开发布。

Every Bite Is an Experience: Key Point Analysis of Business Reviews
Authors Roy Bar Haim, Lilach Eden, Yoav Kantor, Roni Friedman, Noam Slonim
以前的审查摘要摘要侧重于测量审查产品或业务的主要方面的情绪，或创建文本摘要。这些方法仅提供基于数据方面的情绪摘要的局部视图缺乏足够的解释或对方面评级的理由，而文本摘要不量化每个元素的重要性，并且不太适合表示冲突视图。最近，已提出关键点分析KPA作为概括框架，提供数据中主要点的文本和定量摘要。我们通过引入集体关键点挖掘来调整KPA来审查数据，以便更好的关键点提取将情感分析集成到KPA，识别良好的关键点候选，以便审查摘要，并利用大量可用性审核及其元数据。我们凭经验展示了这些KPA的这些新颖的延伸显着提高了其性能。我们证明可以在没有任何域特定注释的情况下实现有希望的结果，而人类监督会导致进一步改善。

Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation
Authors Yang Feng, Shuhao Gu, Dengji Guo, Zhengxin Yang, Chenze Shao
虽然教师强迫已成为神经机翻译的主要培训范式，但它通常只能在过去的信息上进行预测，因此缺乏未来的全球规划。为了解决这个问题，我们在训练期间将另一个被称为Seer解码器的解码器介绍到编码器解码器框架中，这涉及目标预测中的未来信息。同时，我们强制传统的解码器通过知识蒸馏模拟Seer解码器的行为。以这种方式，在测试时，传统的解码器可以在没有参加的情况下像Seer解码器一样执行。实验结果对中文英文，英语德语和英语罗马尼亚语翻译任务显示我们的方法可以显着优于竞争力的基线，并在更大的数据集中实现更大的改进。此外，实验还证明了知识蒸馏，与对手学习和L2正规化相比，从Seer解码器转移到传统解码器的最佳方式。

A Sentence-level Hierarchical BERT Model for Document Classification with Limited Labelled Data
Authors Jinghui Lu, Maeve Henchion, Ivan Bacher, Brian Mac Namee
具有有限标记数据的深度学习模型是许多NLP任务的有吸引力的情况，包括文档分类。虽然最近的伯特出现了，但深入学习语言模型可以在文档分类中实现合理的良好性能，少数标签实例，缺乏证据效用，在长文件分类上应用伯特模型。这项工作引入了一个长文本特定模型的分层BERT模型HBM，它学习文本的句子级别功能，并在具有有限标记数据的场景中运行良好。各种评估实验已经证明，HBM可以在文档分类中实现更高的性能，而不是仅具有50到200个标记的实例，特别是当文件长时间。此外，作为HBM的额外福利，通过学习的HBM识别的突出句子是基于用户学习的标记文档的解释。

Incorporating External POS Tagger for Punctuation Restoration
Authors Ning Shi, Wei Wang, Boxin Wang, Jinfeng Li, Xiangyu Liu, Zhouhan Lin
标点符号恢复是自动语音识别中的一个重要的后处理步骤。在其他类型的外部信息中，部分语音POS标记器提供信息标签，建议每个输入令牌的句法角色，这些角色已被证明对标点符号恢复任务有益。在这项工作中，我们将外部POS标记器融入了外部POS标记器并将其预测的标签融入现有语言模型以提供句法信息。此外，我们提出序列边界采样SBS以更有效地学习标点符号作为序列标记任务。实验结果表明，我们的方法可以始终如一地获得性能收益并在公共IWSLT基准上实现新的技术状态。进一步的消融研究说明了大型预训练的语言模型和外部POS标签都采取基本部分来提高模型的性能。

Improving Unsupervised Dialogue Topic Segmentation with Utterance-Pair Coherence Scoring
Authors Linzi Xing, Giuseppe Carenini
对话主题分段在几个对话建模问题中至关重要。然而，流行无监督的方法仅利用表面特征来评估话语之间的局部连贯性。在这项工作中，我们通过利用来自话语对一致性评分任务的监管信号来解决这些限制。首先，我们展示了一个简单而有效的策略，为发话机对一致性评分产生培训语料库。然后，我们用所获得的训练组件训练基于伯伯的神经话语对一致性模型。最后，这种模型用于测量话语之间的局部相关性，作为分割推断的基础。英汉三个公共数据集的实验证明我们的提案优于最先进的基线。

Explaining the Deep Natural Language Processing by Mining Textual Interpretable Features
Authors Francesco Ventura, Salvatore Greco, Daniele Apiletti, Tania Cerquitelli
尽管最先进的深层自然语言模型提供了高精度。 LSTM，BERT，它们在现实生活中的应用程序仍然受到广泛限制，因为它们表现得像一个黑匣子到最终用户。因此，可解释性迅速成为基于深度学习方法的未来一代数据驱动系统的基本要求。已经完成了几次努力实现准确性和可解释性之间存在的差距。然而，对深度自然语言模型量身定制的稳健和专业的XAI可解释的人工智能解决方案仍然缺失。我们提出了一个名为EBANO的新框架，它提供了创新的预测本地和基于级的模型全球解释策略，用于黑色盒子深度自然语言模型。鉴于深度NLP模型和文本输入数据，T EBANO提供了一种目标，人类可读，域名对自动决策过程背后的原因的具体评估。具体地，框架提取了一种可解释的特征，挖掘模型的内部知识。然后，它通过利用在局部水平的新规范化扰动影响和全球绝对影响和全球相对影响指标在局部层面的新规范化扰动期间来定量预测过程中的每个特征的影响。通过微调BERT模型执行的情绪分析任务和II通过LSTM模型执行的毒性评估任务，证明了使用T EBANO获得的局部和全球解释的有效性和质量。

Neural Combinatory Constituency Parsing
Authors Zhousi Chen, Longtu Zhang, Aizhan Imankulova, Mamoru Komachi
我们提出了两种快速的神经组合模型，用于组件解析二进制和多分支。我们的模型将自下而上的解析过程分解为1个标签，标签和二进制方向或块的分类，以及基于计算的方向或块的2个矢量组成。这些模型具有理论亚二次复杂性和经验线性复杂性。二元型号在Penn TreeBank上实现了92.54的F1得分，在1327.2星座SEC时加速。具有XLNET的模型都提供了近的英语艺术精度的近的状态。在Penn TreeBank，Chinesbank和Keyaki TreeBank日语的培训和推理过程中观察到语言的句法分支趋势和对语言的头脑。

Assessing Multilingual Fairness in Pre-trained Multimodal Representations
Authors Jialu Wang, Yang Liu, Xin Eric Wang
最近预先培训的多模式模型，例如剪辑，对其朝着图像和自然语言的特殊能力引起了注意力。英语中的文本表示可以理想地转移到多种语言，并支持对不同语言的有前下游多模态任务。然而，前面的视觉和语言学习的先前公平话语主要侧重于单机的代表性偏见，并且很少审查这种多模式设置中的多语种公平性的原理，其中一种语言等同于一组个人和图像，为桥接不同语言提供通用接地。

Study of sampling methods in sentiment analysis of imbalanced data
Authors Zeeshan Ali Sayyed
这项工作调查了采样方法对两种不同高度不平衡数据集的情感分析。一个数据集包含来自烹饪平台的在线用户评论杰密，另一个数据集包含给计划的父母身份组织的评论。在这两个数据集中，感兴趣的课程很少见。单词n克作为来自这些数据集的特征。首先应用基于信息增益的特征选择技术，以将特征的数量减少到可管理空间。然后应用许多不同的采样方法来减轻分析的类别不平衡问题。

Direct Simultaneous Speech-to-Text Translation Assisted by Synchronized Streaming ASR
Authors Junkun Chen, Mingbo Ma, Renjie Zheng, Liang Huang
与文本翻译的同时语音在许多情况下广泛有用。传统的级联方法使用流媒体ASR的流水线，然后同时发布，但遭受误差传播和额外延迟。为了缓解这些问题，最近的努力试图将源语音直接转换为目标文本，但由于两个单独任务的组合，这是更加困难的。我们提出了一种新的范例，具有级联和结束到最终方法的优点。关键的想法是使用两个单独的，但同步的解码器，并分别直接发表语音来文本转换ST，以及ASR指导的中介结果，但未将其作为输入作为输入。在培训时间期间，我们使用多任务学习与共享编码器共同了解这两个任务。在Mustc DataSet上的ES实验证明我们的提出技术在类似水平的延迟达到了更好的翻译质量。

Modeling Language Usage and Listener Engagement in Podcasts
Authors Sravana Reddy, Marina Lazarova, Yongze Yu, Rosie Jones
虽然有丰富的播客创造者对如何用听众讨论的方式进行播客创造者，但对播客进行了很少的数据驱动分析，这些播客与听众参与有关语言风格的播客。在本文中，我们调查各种因素词汇量多样性，独特性，情感和语法，以及其他与参与相关的相关性，根据创作者书面描述和音频的成绩单。我们构建具有不同文本表示的模型，并显示所识别的功能是高度预测的参与。我们的分析测试了关于高参与播客中的风格元素的流行智慧，证实了一些方面，并在其他方面添加了新的视角。

Leveraging Pre-trained Language Model for Speech Sentiment Analysis
Authors Suwon Shon, Pablo Brusco, Jing Pan, Kyu J. Han, Shinji Watanabe
在本文中，我们探讨了预先培训的语言模型的使用，以学习语音情绪分析的书面文本的情绪信息。首先，我们调查了预先训练的语言模型如何在采用自动语音识别ASR和基于转录人的情绪分别的2步管道方法中有用。其次，我们提出了一种基于伪标签的半监督培训策略，使用语言模型结束结束语音情绪方法，利用大型但未标记的语音数据集进行培训。虽然口语和书面文本具有不同的语言特征，但它们可以在了解情绪中相互补充。因此，所提出的系统不仅可以在语音信号中模拟声学特性来承受语音信号的特定信息，而是学习潜在信息以在文本表示中携带情绪。在这些实验中，我们展示了所提出的方法与没有语言模型的系统相比，提高F1分数一致。此外，我们还表明，建议的框架可以通过利用大量数据而没有人为情感注释的大量数据来减少65人，并在人类情绪注释的低资源条件下提升性能。

Visualization Techniques to Enhance Automated Event Extraction
Authors Sophia Henn, Abigail Sticha, Timothy Burley, Ernesto Verdeja, Paul Brenner
复杂数据的鲁棒可视化对于有效使用NLP进行事件分类至关重要，因为数据量大，文本的高维结构使得数据挑战简洁地总结。特别是在事件提取任务中，可视化可以帮助理解和说明机器学习工具产生洞察力的文本关系。通过我们的案例研究，旨在使用NLP识别来自新闻文章的国家LED大规模杀戮的潜在触发，我们展示了可视化如何在对原始数据的探索性分析到机器学习培训分析以及最终推理验证的探索性分析。

Sample-efficient Linguistic Generalizations through Program Synthesis: Experiments with Phonology Problems
Authors Saujas Vaduguru, Aalok Sathe, Monojit Choudhury, Dipti Misra Sharma
神经模型Excel从大量数据中提取统计模式，但努力从几个例子中学习语言的模式或理由。在本文中，我们可以询问我们是否可以从使用程序合成中浏览这个问题的几个例子，学习明确的规则。我们开发一个合成模型，以在域特定语言中将音韵规则学习。我们测试模型通过来自语言学奥林匹克语言的新数据集，这是一种需要强大的语言推理能力的具有挑战性的任务的挑战性的训练示例的能力。除了高度样本的高效之外，我们的方法还生成人类可读程序，并允许控制读取计划的概括性。

Model Explainability in Deep Learning Based Natural Language Processing
Authors Shafie Gholizadeh, Nengfeng Zhou
机器学习ML模型解释性得到了不断的关注，特别是在与模型风险和法规有关的地区。在本文中，我们审查和比较了一些流行的ML模型解释性方法，尤其是与自然语言处理NLP模型相关的模式。然后，我们将其中一个NLP可解释性方法层应用于NLP分类模型中的一个NLP可解释性方法。我们使用LRP方法在实例中导出每个单词的相关性得分，这是一个本地解释性。然后将相关性分数聚合在一起以实现模型的全局变量重要性。通过案例研究，我们还展示了如何将本地解释方法应用于假正和假阴性实例以发现NLP模型的弱点。这些分析可以帮助我们更好地了解NLP模型，并降低了由于NLP模型的黑匣子性质而降低风险。由于NLP模型的特殊自然，我们还确定了一些常见问题，并讨论了如何解释性分析可以作为控制在培训模式后检测这些问题的控制。

A Semi-supervised Multi-task Learning Approach to Classify Customer Contact Intents
Authors Li Dong, Matthew C. Spencer, Amir Biagi
在客户支持领域，了解客户意图是一个重要的步骤。机器学习在这种类型的意图分类中起着至关重要的作用。实际上，典型的是从客户支持代表CSR上收集关于意图预测的CSRS的确认，尽管它可能不必要地促使CSR为MIS分类案件分配现有或新意图。除了没有意图标签的确认案例外，还有一些没有人为策策的病例。该数据构成对未标记的多牌底片的阳性为模型开发创造了独特的挑战。为此，我们提出了一个半监督的多任务学习范式。在本手稿中，我们在E Commerce网站上分享我们在构建基于文本的意图分类模型方面的经验。通过利用负面情况，域和任务在客户联系文本上的亚伯特自适应掠夺亚伯特，通过利用负片情况，通过在客户联系文本上自适应掠夺亚伯特，提高了模型来提高性能。在评估中，与基线Fineetuned MultiClass分类Albert模型相比，最终模型将平均AUC ROC提升了近20分。

MexPub: Deep Transfer Learning for Metadata Extraction from German Publications
Authors Zeyd Boukhers, Nada Beili, Timo Hartmann, Prantik Goswami, Muhammad Arslan Zafar
从科学论文中提取元数据可以在NLP中被认为是由于现有技术的高精度。但是，这不适用于德国科学出版物，具有各种风格和布局。与遵循标准和简单布局的大多数英语科学出版物，德国出版物中元数据的订单，内容，位置和大小在出版物之间大大变化。这种品种使传统的NLP方法无法准确地从这些出版物中提取元数据。在本文中，我们通过将文档视为图像，提出了一种用不同布局和样式从PDF文档中提取元数据的方法。我们使用了在Coco DataSet上培训的Mask R CNN，并使用PublayNet数据集进行了FineTuned，该数据集由具有五个基本类的200k PDF快照组成。文字，图等。我们在我们提出的合成数据集中优化了模型，该模型由30K文章快照组成，以提取九个模式i.作者，标题等。我们的合成数据集是在德语和英语中的语言中的内容生成的，并从德国出版物获得的有限挑战模板。我们的方法实现了大约90的平均精度，其验证了其能力从各种PDF文档中精确提取元数据，具有具有挑战性的模板。

MOLEMAN: Mention-Only Linking of Entities with a Mention Annotation Network
Authors Nicholas FitzGerald, Jan A. Botha, Daniel Gillick, Daniel M. Bikel, Tom Kwiatkowski, Andrew McCallum
我们呈现了一个基于实例的实例到实体链接方法。与代表每个实体的最先前的实体检索系统相比，我们构建了一个上下文化提到的编码器，该编码器学习，该编码器比不同实体的提及放置在向量空间中相同的同一实体的相似提及。这种方法允许所有实体提及作为推断作为类原型涉及从训练集中的全套标记实体提到检索并应用最近的提及邻居的实体标签。我们的模型培训了大型多语种语料库，提到了来自维基百科超链接的对成对的，并执行最近的邻居推断，以7亿提到的索引。它更简单地训练，提供更多可解释的预测，并且优于两个多语言实体链接基准的所有其他系统。

Understanding Information Spreading Mechanisms During COVID-19 Pandemic by Analyzing the Impact of Tweet Text and User Features for Retweet Prediction
Authors Pervaiz Iqbal Khan, Imran Razzak, Andreas Dengel, Sheraz Ahmed
Covid 19影响了世界经济和几乎所有人的日常生活例程。它是社交媒体平台上的热门话题，如Twitter，Facebook等。这些社交媒体平台使用户能够与其他能够重新查找此信息的其他用户共享信息，从而导致这些信息传播。 Twitter S Retweet功能允许用户使用其他用户共享现有内容而不更改原始内容。社交媒体平台的分析有助于检测流体中的紧急情况，导致采取预防措施。一种这样的分析是预测给定Covid 19相关推文的转发的数量。最近，CIKM为Covid 19的转发预测挑战组织了专注于使用数字功能的Covid 19推文。然而，我们的假设是，推文文本可能在准确的转发预测中发挥重要作用。在本文中，我们将Covid 19相关转发预测的数字和文本特征组合。为此目的，我们提出了两个基于CNN和RNN的模型，并在公开可用的TweetScov19数据集中评估这些模型的性能，使用七个不同的评估指标。我们的评估结果表明，将Tweet文本与数字功能相结合，显着提高了转发预测的性能。

i-Pulse: A NLP based novel approach for employee engagement in logistics organization
Authors Rachit Garg, Arvind W Kiwelekar, Laxman D Netak, Akshay Ghodake
虽然大多数物流和货运代理组织，以某种方式声称有核心价值。员工的参与是一种巨大的结构，影响公司核心环境价值的几乎所有部分。关于公司与员工参与的关系很少的理论知识。基于研究文献，本文旨在通过实施深入自然语言处理概念，为物流组织的员工参与界面提供一种新的洞察方法。启用了人工智能的解决方案名为智能脉冲I脉冲可以评估数百和数千个脉冲调查评论，并提供可操作的洞察力和员工反馈的主持人。我的脉搏允许利益相关者在他们组织中以新的方式思考，帮助他们对员工参与，保留和效率产生强大的影响。这项研究对研究人员和从业者来说是相应的兴趣。

Constraining Linear-chain CRFs to Regular Languages
Authors Sean Papay, Roman Klinger, Sebastian Pad
在结构化预测中，模型的主要挑战是代表其输出结构内的相互依赖性。对于输出被构造为序列的常见情况，线性链条条件随机字段CRF是广泛使用的模型类，可以在输出序列中学习本地依赖性。但是，CRF S Markov假设使得这些模型无法捕获非函数依赖关系，标准CRF无法尊重输出标签上的全局ARITE约束等数据的非识别限制。我们通过将可能的输出结构的空间指定为常规语言MATHCAL L来展示CRF的概率，该CRFS可以强制执行广泛的约束，包括非参录数据。由此产生的常规约束CRF Regcrf具有与标准CRF相同的正式属性，但为所有标签序列分配零概率，而不是Mathcal L.值得注意的是，Regccrfs可以在训练期间纳入其约束，而相关模型在解码期间只强制实施约束。我们证明，受限制的培训永远不会比约束解码更差，并且使用合成数据显示它在实践中可以基本上更好。此外，我们通过将Regccrf掺入了用于语义角色标记的深度神经模型来证明对下游任务的实际效益，超过最新的原始数据标准数据集。

Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
Authors Hidetaka Kamigaito, Katsuhiko Hayashi
在知识图形嵌入中，软MAX交叉熵与负采样损耗功能之间的理论关系尚未研究。这使得难以将两种不同损失功能的结果进行公平比较。我们试图通过使用BREGMAN发散来解决这个问题来提供对Softmax交叉熵和负采样损耗功能的统一解释。在这种解释下，我们可以导出公平比较的理论调查结果。 FB15K 237和WN18RR数据集上的实验结果表明，理论发现在实际设置中是有效的。

Pre-Trained Models: Past, Present and Future
Authors Han Xu, Zhang Zhengyan, Ding Ning, Gu Yuxian, Liu Xiao, Huo Yuqi, Qiu Jiezhong, Zhang Liang, Han Wentao, Huang Minlie, Jin Qin, Lan Yanyan, Liu Yang, Liu Zhiyuan, Lu Zhiwu, Qiu Xipeng, Song Ruihua, Tang Jie, Wen Ji Rong, Yuan Jinhui, Zhao Wayne Xin, Zhu Jun
大规模预训练的型号PTM，如BERT和GPT，最近取得了巨大的成功，成为人工智能AI领域的里程碑。由于先进的预培训目标和巨大的模型参数，大规模的PTM可以有效地捕获来自大规模标记和未标记的数据的知识。通过将知识存储成巨大参数和对特定任务的微调，在巨大参数中隐含地编码的丰富知识可以使各种下游任务受益，这已经通过实验验证和实证分析广泛地证明。现在是AI社区的共识，采用PTMS作为下游任务的骨干，而不是从头开始学习模型。在本文中，我们深入了解前培训的历史，特别是与转移学习和自我监督学习的特殊关系，揭示了PTMS在AI开发谱中的关键地位。此外，我们全面审查了PTM的最新突破。这些突破是通过计算能力的激增和数据的增加，朝着设计有效架构的四个重要方向，利用丰富的背景，提高计算效率和进行解释和理论分析。最后，我们讨论了一系列公开问题和研究方向的PTM，希望我们的观点可以激发和推进PTM的未来研究。

Thinking Like Transformers
Authors Gail Weiss, Yoav Goldberg, Eran Yahav
什么是变压器后面的计算模型，其中经常性神经网络在有限状态机中具有直接平行线，允许在架构变体或训练模型周围进行清晰的讨论和思考，变压器没有如此熟悉的平行。在本文中，我们旨在改变该模型，提出以编程语言的形式提出变压器编码器的计算模型。我们将变压器编码器注意的基本组件映射到简单的基元，向前馈送到简单的基元，我们形成了一个编程语言的受限访问序列处理语言锉刀。我们展示RASP如何用于编程解决方案，可以通过变压器可以想到的任务，以及如何培训变压器以模仿RASP解决方案。特别是，我们提供针对直方图，排序和Dyck语言的RASP程序。我们进一步使用我们的模型在所需的层数和注意力头的数量方面，分析RASP程序意味着在变压器中编码任务所需的最大头部和层数，所以关注头部的难度涉及所需的最大数量。最后，我们了解我们的抽象中获得的洞察力如何用于解释最近有效的现象。

Contrastive Attention for Automatic Chest X-ray Report Generation
Authors Fenglin Liu, Changchang Yin, Xian Wu, Shen Ge, Ping Zhang, Xu Sun
最近，胸部X射线报告生成，旨在自动生成给定的胸部X射线图像的描述，已获得越来越多的研究兴趣。胸部X射线报告生成的关键挑战是准确捕获和描述异常区域。在大多数情况下，普通区域主导整个胸部X射线图像，并且这些普通区域的相应描述主导了最终报告。由于这种数据偏差，基于学习的模型可能无法参加异常区域。在这项工作中，有效地捕获和描述异常区域，我们提出了对比的关注CA模型。 CA模型而不是仅专注于电流输入图像，而是将电流输入图像与正常图像进行比较以蒸馏到对比信息。所获得的对比信息可以更好地代表异常区域的视觉特征。根据公共IU X射线和模拟CXR数据集的实验，将我们的CA融入了几种现有型号可以在大多数指标上提升他们的性能。此外，根据分析，CA型号可以帮助现有的模型更好地参加异常区域，并提供对可解释诊断至关重要的更准确的描述。具体而言，我们在两个公共数据集上实现了最先进的结果。

Exploring and Distilling Posterior and Prior Knowledge for Radiology Report Generation
Authors Fenglin Liu, Xian Wu, Shen Ge, Wei Fan, Yuexian Zou
自动生成放射学报告可以改善诊断放射学的当前临床实践。一方面，它可以缓解放射科学家，另一方面，它可以提醒异常的放射科医师，避免误诊和错过诊断。然而，由于严重的视觉和文本数据偏差，该任务仍然是数据驱动神经网络的具有挑战性的作业。为此，我们提出了一个后脑和先验的知识探索和蒸馏方法，以模仿放射科学家的工作模式，谁将首先检查异常区域并将疾病主题标签分配给异常区域，然后依赖于之前的年份医学知识和先前的工作经验积累编写报告。因此，PPKED包括三个模块后续知识探索器戳，现有知识探险者PRKE和多领域知识蒸馏器MKD。详细说明，Poke探讨了后视知识，它为缓解视觉数据偏见探讨了明确的异常视觉区域探讨了从先前医学知识图中探讨了先前医学知识图的先验知识，并提前放射学报告了减轻文本数据偏差的工作经验。 MKD蒸馏出探索知识以产生最终报告。在模拟CXR和IU XRAY数据集上进行评估，我们的方法能够在这两个数据集上倾销前一个最先进的最新状态。

GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio
Authors Guoguo Chen, Shuzhou Chai, Guanbo Wang, Jiayu Du, Wei Qiang Zhang, Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, Mingjie Jin, Sanjeev Khudanpur, Shinji Watanabe, Shuaijiang Zhao, Wei Zou, Xiangang Li, Xuchen Yao, Yongqing Wang, Yujun Wang, Zhao You, Zhiyong Yan
本文介绍了Gigashech，一种不断发展的多域英语语音识别语料库，适用于监督培训的10,000小时的高质量标记音频，以及适用于SEMI监督和无监督培训的40,000小时的总音频。首先从AudioBooks，Podcasts和YouTube收集约40,000小时的转录音频，涵盖读取和自发的讲话方式，以及艺术，科学，体育等的各种主题，提出了新的强制对准和分割管道。创建适用于语音识别培训的句子段，并过滤出低质量转录的段。对于系统培训，Gigasheapeech提供了五个不同尺寸的四子集，10h，250h，1000h，2500h和10000h。对于我们10,000小时的XL训练子集，我们在过滤验证阶段，以及所有其他较小的训练子集，我们将其盖住4个错误率。另一方面，DEV和测试评估集通过专业人体转录进行了重新加工，以确保高转录质量。为流行的语音识别工具包提供基线系统，即雅典娜，Espnet，Kaldi和Pika。

Case Study on Detecting COVID-19 Health-Related Misinformation in Social Media
Authors Mir Mehedi A. Pritom, Rosana Montanez Rodriguez, Asad Ali Khan, Sebastian A. Nugroho, Esra a Alrashydah, Beatrice N. Ruiz, Anthony Rios
Covid 19 Pandemic已经产生了公共卫生官员，称为infodemation的误读。随着社会疏散和家庭命令生效，许多人转向社交媒体进行社交。这种社交媒体使用的增加使其成为扩散错误信息的主要车辆。本文提出了一种在跨学科方法后检测社交媒体中的Covid 19健康相关错误信息的机制。利用社会心理学作为基础和现有的错误信息框架，我们使用应用的机器学习技术定义了包含在Misinformation检测机构中的错误信息主题和相关关键字。接下来，使用Twitter DataSet，我们使用艺术机器学习分类器的多个状态探讨了所提出的方法的性能。我们的方法显示有前途的结果在分类健康相关误报与真正信息中，最多可以使用Uni Gram基于Tweets和决策树分类器的特征来实现最多78个准确性。我们还提供关于替代衡量事件和伦理考虑的替代方案的建议。

Engineering Knowledge Graph from Patent Database
Authors L Siddharth, Lucienne T.M. Blessing, Kristin L. Wood, Jianxi Luo
我们提出了一个大型，可扩展的工程知识图表，包括在专利数据库中发现的现实世界工程事实的实体，关系，实体三元组。我们根据专利文献中的索赔的句法和词汇属性来应用一组规则，以提取事实。我们在每个专利文献中聚合这些事实，并在专利数据库中集成聚合的事实集，以获得工程知识图。这些知识图表预计支持各种工程任务中的推理，推理和回忆。与工程文献中的先前使用的知识图和语义网络相比，知识图具有更大的尺寸和覆盖范围。

Break-It-Fix-It: Unsupervised Learning for Program Repair
Authors Michihiro Yasunaga, Percy Liang
我们考虑给予评论家的修复任务，例如，评估输入的质量的编译器，目标是培训一个转换错误示例的修复器，例如，具有语法错误的代码为一个良好的代码。，没有错误的代码。现有作品通过损坏使用启发式的良好的例子，创建由糟糕的对成对组成的培训数据，例如，丢弃令牌。然而，在这种合成生成的数据上培训的固定器不易于易于易于对错误输入的实际分布。要弥补这一差距，我们提出了一种新的培训方法，突破它，它有两个关键的想法，我使用批评者检查真正的错误输入上的固定器S输出，并为培训数据添加良好的固定输出，以及II我们训练一个断路器，从好的代码产生现实的坏代码。基于这些想法，我们在使用它们时迭代地更新断路器和修复器，以便生成更多配对数据。我们评估两种代码修复数据集Github Python，我们介绍了使用AST解析错误和Deepfix的目标是修复Python代码的新数据集，其中目标是使用编译器错误修复C代码。 BIFI优于现有的方法，在Deepfix 5.6上获得GitHub Python 28.5和71.7的90.5修复精度。值得注意的是，BIFI不需要任何标记的数据，我们希望它将是无监督学习各种维修任务的强大起点。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(NLP,Transformer,Papers,自然语言处理,词向量,聊天机器人,NLP,NLPer)

目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
第二十一篇：伦理/道德Ethics flying_1314 NLP ethics 伦理/道德隐私偏见双重用途
目录什么是伦理/道德？我们为什么要关心？为什么道德很难？学习成果大纲反对NLP道德检查的论据我们应该审查科学吗？H5N1透明度不是更好吗？AIvs.Cybersecurity核心NLP伦理概念偏见词嵌入中的偏差双重用途OpenAIGPT-2隐私GDPRAOL搜索数据泄露小组讨论提示自动刑期预测自动简历处理语言社区分类打包带走~什么是伦理/道德？我们应该如何生活——苏格拉底•正确的做法是什么？•为什
如何使用Langchain加载AZLyrics网页到可用文档格式 dgay_hua langchain python
##技术背景介绍在处理歌词数据时，尤其是从网页上获取歌词文本内容，用于自然语言处理或文本分析是常见的需求。AZLyrics是一个提供歌词的主要平台，为我们提供了大量的歌词数据。如果我们可以将这些网页内容自动加载到结构化的文档格式中，将极大地提升我们处理和分析歌词的效率。##核心原理解析Langchain提供了一种简单的方式来将网页内容转换为可用的文档格式。通过使用其文档加载器（DocumentLo
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
大语言模型微调和大语言模型应用的区别？ AI Echoes 人工智能深度学习 deepseek 机器学习算法
大语言模型微调和大语言模型应用的区别？关键要点微调大型语言模型（LLM）是调整预训练模型以适应特定任务或领域的过程，研究表明这能显著提升性能。大型语言模型应用是指将LLM用于实际问题解决或任务执行，如聊天机器人或文本生成。微调和应用的不同在于：微调是准备阶段，应用是最终使用；使用微调模型通常在特定领域表现更好，而预训练模型更适合通用任务。什么是微调大型语言模型？微调大型语言模型是指取一个已经预训练
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
自然语言处理（5）—— 中文分词隐私无忧人工智能 #自然语言处理自然语言处理中文分词人工智能
中文分词的基本原理及实现1.什么是词2.基本原理3.发展趋势：多数场景无需显式分词信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。汉语词汇是语言中能够独立运用的最小的语言单位，是语言中的原子结构。由于中文缺乏类似英文的空格分隔，分词的准确性直接影响后续任务（如机器翻译、情感分析）的效果。因此，对中文进行分词就显得至关重要。中文分词（Chine
Python预训练模型实现俄语音频转文字啥都鼓捣的小yao 人工智能 python 音视频人工智能
Python预训练模型实现俄语音频转文字使用CommonVoice8.0、Golos和MultilingualTEDx的训练和验证分割对俄语的facebook/wav2vec2-xls-r-1b进行了微调。使用此模型时，请确保您的语音输入以16kHz采样。我们只需要装好三个功能包，写好你的文件路径即可使用！importtorchimportlibrosafromtransformersimport
如何使用JSON输出解析器解析语言模型的输出 vaidfl json 语言模型 easyui python
在现代AI应用中，让语言模型返回结构化的数据是一个重要的能力，特别是在需要进一步处理或集成的时候。本文将深入探讨如何利用JsonOutputParser来解析语言模型的JSON输出。技术背景介绍随着语言模型的普及，许多应用场景需要从自然语言处理任务中获取结构化的输出。针对这一需求，输出解析器应运而生，它能够帮助我们定义JSON模式，通过提示语言模型生成符合该模式的输出，并将其解析为JSON格式。核
使用LocalAI进行文本嵌入的实战指南 bavDHAUO python
技术背景介绍文本嵌入是一种将文本片段转换为高维向量的技术，可以用于自然语言处理任务中的相似性计算、信息检索等应用。LocalAI提供了一种本地化的嵌入解决方案，允许开发者在本地环境中运行和测试嵌入模型。通过在本地部署LocalAI服务，您可以避免依赖外部API，享受更快的响应速度和更好的数据隐私。核心原理解析LocalAIEmbedding类主要负责与本地运行的LocalAI服务通信，进行文本嵌入
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

【AI视野·今日NLP 自然语言处理论文速览 第七期】Tue, 15 Jun 2021

Daily Computation and Language Papers

你可能感兴趣的:(NLP,Transformer,Papers,自然语言处理,词向量,聊天机器人,NLP,NLPer)

【AI视野·今日NLP 自然语言处理论文速览第七期】Tue, 15 Jun 2021