zenRRan

分类整理 | ICLR 2021 投稿中值得一读的NLP相关论文

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要15分钟

跟随小博主，每天进步一丢丢

本文转载自公众号：香侬科技

我们从 ICLR 2021开放投稿的3000篇论文中，粗略筛选了近100篇与自然语言处理领域中也许值得一读的论文，供大家查阅。

理论、模型与经验性分析：38篇
问答与阅读理解：4篇
知识图谱：4篇
文本生成：9篇
机器翻译：7篇
对抗攻击：4篇
文本分类：2篇
信息抽取：4篇
可解释性：1篇
模型压缩与集成：4篇
数据增强：2篇
向量表示：12篇
其他：5篇

注，由于论文过多，故直接使用谷歌翻译机翻了论文部分摘要作为文章主旨的参考（结果表明，NMT仍然有极大发展空间），对于过于离谱的翻译转为人工校对。之后我们会陆续选取部分文章进行详细介绍，其中的不便还望读者谅解。

理论、模型与经验性分析

论文标题：Isotropy in the Contextual Embedding Space: Clusters and Manifolds

论文链接：https://openreview.net/forum?id=xYGNO86OWDH

论文摘要：近年来，诸如BERT和ERNIE的深度语言模型的上下文嵌入空间的几何特性引起了相当大的关注。对上下文嵌入的研究表明，强烈的各向异性空间使得大多数矢量都落在一个狭窄的圆锥体中，从而导致较高的余弦相似度。在本文中，我们认为从不同但更具建设性的角度来看，各向同性确实存在于空间中。我们在上下文嵌入空间中识别孤立的簇和低维流形，并介绍工具进行定性和定量分析。

论文标题：Hopfield Networks is All You Need

论文链接：https://openreview.net/forum?id=tL89RnzIiCd

论文摘要：我们介绍了具有连续状态和相应更新规则的现代Hopfield网络。新的Hopfield网络可以按指数形式（按维度）存储许多模式，一次更新即可收敛，并且检索误差呈指数形式。

论文标题：VECO: Variable Encoder-Decoder Pretraining for Cross-Lingual Understanding and Generation

论文链接：https://openreview.net/forum?id=YjNv-hzM8BE

论文摘要：本文提出可变的编码器-解码器预训练方法，将Transformer的三个主要模块分开，对不同的预训练任务加以组合，然后再对下游任务微调。不但可以节约参数，还能取得较好的效果。

论文标题：AlgebraNets

论文链接：https://openreview.net/forum?id=guEuB3FPcd

论文摘要：常规的神经网络由实值加权和激活以及实值算子组成。我们提出了AlgebraNets，这是一种一般范式，可以用其他方式从其他关联代数中替换权重和运算符来代替实际价值权重和运算符。

论文标题：EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets

论文链接：https://openreview.net/forum?id=I-VfjSBzi36

论文摘要：在本文中，我们提出了EarlyBERT，这是用于大规模语言模型预训练和微调的有效训练框架。EarlyBERT会在早期阶段识别结构化的中奖彩票，然后使用经过修剪的网络进行有效训练。

论文标题：Variational Information Bottleneck for Effective Low-Resource Fine-Tuning

论文链接：https://openreview.net/forum?id=kvhzKz-_DMF

论文摘要：我们建议在对低资源目标任务进行微调时使用变分信息瓶颈（VIB）来抑制不相关的功能，并表明我们的方法成功地减少了过拟合。此外，我们表明，我们的VIB模型发现的句子表示形式对自然语言推理数据集中的偏倚更为鲁棒，从而获得了对域外数据集的更好概括。

论文标题：Transformers are Deep Infinite-Dimensional Non-Mercer Binary Kernel Machines

论文链接：https://openreview.net/forum?id=AVKFuhH1Fo4

论文摘要：在本文中，我们提出了一个新的视角，以了解Transformer的工作方式。尤其是，我们证明了可以将Transformer操作的核心点积注意力描述为一对Banach空间上的核学习方法。特别是，Transformer的内核具有无限的特征尺寸。在此过程中，我们将标准内核学习问题概括为所谓的“二进制”内核学习问题，其中数据来自两个输入域，并且为每个跨域对定义了一个响应。

论文标题：Pretrain Knowledge-Aware Language Models

论文链接：https://openreview.net/forum?id=OAdGsaptOXy

论文摘要：在本文中，我们将知识意识纳入语言模型预训练中，而无需更改Transformer架构，插入明确的知识层或添加语义信息的外部存储。相反，我们只是通过实体扩展的标记器在预训练中向Transformer的输入简单地表示实体的存在。在输出处，还有一个额外的实体预测任务。

论文标题：Structured Prediction as Translation between Augmented Natural Languages

论文链接：https://openreview.net/forum?id=US-TP-xnXI

论文摘要：我们提出了一个新的框架，即增强自然语言之间的翻译（TANL），以解决许多结构化预测语言任务，包括联合实体和关系提取，嵌套命名实体识别，关系分类，语义角色标签，事件提取，共指解析和对话状态跟踪。

论文标题：Information-theoretic Vocabularization via Optimal Transport

论文链接：https://openreview.net/forum?id=1fLunL_hDj_

论文摘要：我们发现信息理论功能与NLP任务（例如具有给定词汇的机器翻译）的性能之间存在令人兴奋的关系。通过这种观察，我们将找到具有适当大小的最佳令牌词典作为最佳传输问题。然后，我们提出info-VOT，这是一种简单有效的解决方案，无需对下游任务进行全面且昂贵的试用训练。

论文标题：Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning

论文链接：https://openreview.net/forum?id=n1HD8M6WGn

论文摘要：在本文中，我们的主要贡献是进一步了解EncoderFusion。我们发现编码器嵌入层比其他中间编码器层更重要。此外，最上层的解码器层始终在NLP任务中更加关注编码器嵌入层。基于此观察，我们通过仅融合softmax层的编码器嵌入层，提出了一种简单的融合方法SurfaceFusion。

论文标题：On Position Embeddings in BERT

论文链接：https://openreview.net/forum?id=onxoVA9FxMw

论文摘要：我们提出了在向量空间中捕获单词距离的PE的三个预期特性：平移不变性，单调性和对称性。这些属性可以正式捕获PE的行为，并允许我们以有原则的方式重新解释正弦PE。对七个PE（及其组合）进行分类和跨度预测的经验评估表明，可完全学习的绝对PE在分类中表现更好，而相对PE在跨度预测中表现更好。

论文标题：MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab Pretraining

论文链接：https://openreview.net/forum?id=sxZvLS2ZPfH

论文摘要：我们首先提出一种新颖的方法，借助中文分词（CWS）和子词标记化来形成中文BERT的词汇。然后，我们提出了三种版本的多词汇量预训练（MVP），以提高模型的表达能力。

论文标题：Progressively Stacking 2.0: A multi-stage layerwise training method for BERT training speedup

论文链接：https://openreview.net/forum?id=2LiGI26kRdt

论文摘要：我们提出了一种有效的多阶段分层训练（MSLT）方法，以减少BERT的训练时间。我们将整个训练过程分解为几个阶段。训练从只有几个编码器层的小模型开始，然后我们通过添加新的编码器层来逐渐增加模型的深度。在每个阶段，我们只训练最顶层（在输出层附近）几个新添加的编码器层。该方法可以大大减少训练时间，而不会明显降低性能。

论文标题：Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search

论文链接：https://openreview.net/forum?id=tqc8n6oHCtZ

论文摘要：我们训练一个大型Transformer，称为“长度自适应Transformer”，并将其用于各种推理场景而无需重新训练。为此，我们使用LengthDrop训练Transformer，它随机确定每一层序列的长度。然后，我们使用多目标进化搜索来找到长度配置，该长度配置可在任何给定的计算预算下最大化准确性并最小化计算复杂性。

论文标题：On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and Strong Baselines

论文链接：https://openreview.net/forum?id=nzpLWnVAyah

论文摘要：确定了观察到BERT微调不稳定的两个潜在原因：灾难性的遗忘和微调数据集的小规模。在本文中，我们证明了这两种假设都无法解释微调的不稳定性。我们分析了BERT，RoBERTa和ALBERT，并根据GLUE基准对常用数据集进行了微调，并表明观察到的不稳定性是由导致梯度消失的优化困难引起的。此外，我们表明，下游任务性能的剩余差异可以归因于泛化差异，其中具有相同训练损失的微调模型表现出明显不同的测试性能。

论文标题：Learning Better Structured Representations Using Low-rank Adaptive Label Smoothing

论文链接：https://openreview.net/forum?id=5NsEIflpbSv

论文摘要：我们提出了低阶自适应标签平滑（LORAS）：一种简单而新颖的方法，用于对学习的软目标进行训练，该方法可以概括标签平滑并适应结构化预测任务中标签空间的潜在结构。具体来说，我们评估了我们针对面向任务的语义解析任务的方法，并表明，与适当的普通标签平滑相比，仅通过使用适当平滑的软目标进行训练，就可以将模型的准确性提高多达2％，并将校准错误减少55％平滑。

论文标题：Multi-Head Attention: Collaborate Instead of Concatenate

论文链接：https://openreview.net/forum?id=bK-rJMKrOsm

论文摘要：注意层广泛用于自然语言处理（NLP）中，并开始影响计算机视觉体系结构。但是，它们遭受过度参数化的困扰。我们提出了一个协作的多头关注层，该层使学习者能够学习共享的预测。我们的方案减少了注意层中的参数数量，并且可以用作任何Transformer体系结构中的替代品。

论文标题：Sequence-Level Features: How GRU and LSTM Cells Capture N-grams

论文链接：https://openreview.net/forum?id=Au1gNqq4brw

论文摘要：现代的递归神经网络（RNN），如门控递归单元（GRU）和长短期记忆（LSTM），已在涉及顺序数据的实践中证明了令人印象深刻的结果。我们提出了一项研究，通过数学扩展和展开隐藏状态来理解GRU / LSTM单元捕获的基本特征。具体而言，我们表明在某些温和的假设下，Cell的基本成分将由类似于N-gram的序列级特征组成。基于这样的发现，我们还发现，用近似的隐藏状态表示替换标准单元并不一定会降低情感分析和语言建模任务的性能。

论文标题：You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling

论文链接：https://openreview.net/forum?id=7K0UUL9y9lE

论文摘要：我们表明，基于局部敏感哈希（LSH）的伯努利抽样注意机制，将二次复杂度降低为线性。我们通过将自我注意力视为与伯努利随机变量相关联的单个标记的总和来绕过二次成本，原则上可以通过单个散列一次对其进行采样（尽管实际上，此数字可能是一个小常数）。这导致一种有效的抽样方案来估计自我注意力，该方案依赖于LSH的特定修改（基于在GPU架构上部署的可行性）。我们在GLUE基准上以标准的512序列长度评估了我们提出的算法，并且我们的方法与标准的预训练Transformer相比具有可比甚至更好的性能。为了评估我们的方法是否确实可以处理更长的序列，我们在长序列（4096）语言模型预训练上进行了实验，并获得了一致的结果，作为标准的自我注意，同时观察到了相当大的推理速度和内存节省。

论文标题：Representational correlates of hierarchical phrase structure in deep language models

论文链接：https://openreview.net/forum?id=mhEd8uOyNTI

论文摘要：尽管基于Transformer的体系结构的上下文表示为许多NLP任务设置了新的标准，但尚未完全了解其内部工作原理。特别是，尚不清楚这些表示法捕获了句子级语法的哪些方面，也不清楚（如果有的话）它们是如何沿着网络的堆叠层构建的。在本文中，我们旨在通过基于输入扰动的通用类分析来解决此类问题。从计算和认知神经科学中引入表示不变性的概念，我们执行了一系列旨在测试Transformer表示对句子中几种结构的敏感性的探针。每个探查都涉及交换句子中的单词，并将被干扰的句子中的表示与原始表达进行比较。

论文标题：Why is Attention Not So Interpretable?

论文链接：https://openreview.net/forum?id=pQhnag-dIt

论文摘要：本文从因果效应估计的角度分析了为什么有时注意机制无法提供可解释的结果，并提供了两种方法来提高注意机制的可解释性。

论文标题：Revisiting Few-sample BERT Fine-tuning

论文链接：https://openreview.net/forum?id=cO1IH43yUF

论文摘要：本文是对BERT上下文表示的微调研究，重点是在少数样本情况下通常观察到的不稳定性。我们确定了导致这种不稳定的几个因素：带有偏斜估计的非标准优化方法的普遍使用；BERT网络的重要部分在下游任务中的适用性有限；以及使用预定的少量训练迭代的普遍做法。

论文标题：Later Span Adaptation for Language Understanding

论文链接：https://openreview.net/forum?id=HMEiDPTOTmY

论文摘要：我们提出了一种新颖的方法，该方法将跨度信息组合到微调阶段的PrLM生成的表示中，以提供更好的灵活性。这样，跨度级别文本的建模过程可以更适应于不同的下游任务。详细地说，我们根据预采样字典生成的分段将句子分为几个跨度。基于PrLM提供的子令牌级别表示，我们增强了每个跨度中令牌之间的连接，并获得具有增强的跨度级别信息的表示。

论文标题：DeLighT: Deep and Light-weight Transformer

论文链接：https://openreview.net/forum?id=ujmgfuxSLrO

论文摘要：本文提出DeLight，一种轻巧的深度Transformer，可在标准机器翻译和语言建模任务中将参数降低或降低2至3倍，从而达到或提高基准Transformer的性能。

论文标题：Interpreting Graph Neural Networks for NLP With Differentiable Edge Masking

论文链接：https://openreview.net/forum?id=WznmQa42ZAx

论文摘要：我们介绍了一种事后方法来解释GNN的预测，该方法可以识别不必要的边。给定训练的GNN模型，我们将学习一个简单的分类器，该分类器可针对每一层的每个边预测是否可以丢弃该边。

论文标题：Adaptive Self-training for Neural Sequence Labeling with Few Labels

论文链接：https://openreview.net/forum?id=ARFshOO1Iu

论文摘要：我们开发了自训练和元学习技术来解决神经序列标签模型的标签稀缺性挑战。自我训练是从大量未标记数据中学习的有效机制，而元学习可帮助对样本进行自适应加权，从而减轻了嘈杂的伪标记的错误传播。

论文标题：Random Feature Attention

论文链接：https://openreview.net/forum?id=QtTKTdVrFBB

论文摘要：我们提出了一种基于随机特征的注意力，该注意力在序列长度上线性扩展，并且在语言建模和机器翻译方面与强大的Transformer基线相当。

论文标题：Learning to Disentangle Textual Representations and Attributes via Mutual Information

论文链接：https://openreview.net/forum?id=qJIvFn8sOs

论文摘要：我们调查了学习通过相互信息最小化来解开文本表示形式和属性的问题，并将其应用于公平分类和句子生成。

论文标题：Synthesizer: Rethinking Self-Attention for Transformer Models

论文链接：https://openreview.net/forum?id=H-SPvQtMwm

论文摘要：我们提出合成注意力矩阵，并实现简单，高效和有竞争力的表现。

论文标题：The Lipschitz Constant of Self-Attention

论文链接：https://openreview.net/forum?id=DHSNrGhAY7W

论文摘要：理论研究表明，标准点积的自注意力不是Lipschitz，并且提供了基于L2距离的Lipschitz的自我注意的替代表达。

论文标题：K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters

论文链接：https://openreview.net/forum?id=CLnj31GZ4cI

论文摘要：我们提出K-Adapter，它保持了预先训练模型的原始参数不变，并支持持续的知识注入。以RoBERTa为预训练模型，K-Adapter具有用于每种注入的知识的神经适配器，在不同的适配器之间没有信息流，因此以分布式方式有效地训练了不同的适配器。

论文标题：Rethinking Positional Encoding in Language Pre-training

论文链接：https://openreview.net/forum?id=09-528y2Fgf

论文摘要：在这项工作中，我们研究了语言预训练中使用的位置编码方法（例如BERT），并确定了现有公式中的几个问题。我们提出了一种新的位置编码方法，TUPE。在自我注意模块中，TUPE使用不同的参数化分别计算单词上下文相关性和位置相关性，然后将它们加在一起。

论文标题：Rethinking Attention with Performers

论文链接：https://openreview.net/forum?id=Ua6zuk0WRH

论文摘要：我们介绍了Performer，仅使用线性（而不是二次）空间和时间复杂度，而无需依赖于诸如稀疏性或低等级的先验条件。为了近似softmax注意力内核，Performer使用一种新颖的通过正正交随机特征方法（FAVOR +）实现的快速注意力，它对于可扩展内核方法可能是独立关注的。

论文标题：Efficiently labelling sequences using semi-supervised active learning

论文链接：https://openreview.net/forum?id=BHBb-QVVkNS

论文摘要：我们提出一种使用主动学习的序列标记方法，该方法结合了标记和未标记的数据。我们以半监督的方式训练具有深层非线性潜力的局部上下文条件随机场，将未标记句子的缺失标记视为潜在变量。

论文标题：Taking Notes on the Fly Helps Language Pre-Training

论文链接：https://openreview.net/forum?id=lU5Rs_wCweN

论文摘要：我们采用“动态记录”（TNF），它会在预训练期间即时记录稀有单词，以帮助模型在下次出现时理解它们。具体而言，TNF会维护注释词典，并在句子中出现稀有单词时将稀有单词的上下文信息保存为注释。当在训练过程中再次出现相同的稀有单词时，可以使用事先保存的笔记信息来增强当前句子的语义。

论文标题：Reservoir Transformers

论文链接：https://openreview.net/forum?id=5FRJWsiLRmA

论文摘要：我们证明，即使某些层被随机初始化并且从未更新，Transformer也能获得令人印象深刻的性能。

论文标题：Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning in NLP Using Fewer Parameters & Less Data

论文链接：https://openreview.net/forum?id=de11dbHzAMF

论文摘要：我们提出了一种基于Transformer的新型体系结构，该体系结构由新的条件注意机制以及一组有助于权重分配的任务条件模块组成。通过这种构造，我们可以通过保持固定的预训练模型权重的一半固定来实现更有效的参数共享并减轻遗忘。我们还使用一种新的多任务数据采样策略来减轻跨任务数据不平衡的负面影响。

问答与阅读理解

论文标题：Is Retriever Merely an Approximator of Reader?

论文链接：https://openreview.net/forum?id=dvXFpV6boX

论文摘要：开放域问答（QA）的最新技术依赖于有效的检索器，该检索器可大大减少昂贵阅读器的搜索空间。在社区中，一个相当被忽视的问题是检索者和读者之间的关系，特别是如果检索者的全部目的仅仅是读者的快速近似。我们的经验证据表明答案是否定的，即使仅在准确性方面，阅读器和检索器也是互补的。

论文标题：Cluster-Former: Clustering-based Sparse Transformer for Question Answering

论文链接：https://openreview.net/forum?id=VyENEGiEYAQ

论文摘要：在本文中，我们提出了Cluster-Former，这是一种新颖的基于聚类的稀疏Transformer，可在分块序列之间进行关注。所提出的框架集中在两种独特的Transformer层类型上：滑动窗口层和Cluster-Former层，它们共同并迭代地编码局部序列信息和全局上下文。这种新设计允许在本地窗口之外进行信息集成，这对于依赖于远程依赖关系的问答（QA）任务特别有用。

论文标题：Open Question Answering over Tables and Text

论文链接：https://openreview.net/forum?id=MmCRswl1UYl

论文摘要：我们提出了通过网络表格和文本回答开放域问题的新任务，并设计了新技术：1）融合检索2）跨块阅读器，以解决新任务带来的挑战。

论文标题：Uncertainty-Based Adaptive Learning for Reading Comprehension

论文链接：https://openreview.net/forum?id=s4D2nnwCcM

论文摘要：我们提出了一种用于阅读理解的基于不确定性的自适应学习算法，该算法将数据注释和模型更新交织在一起，以减轻标签的需求。

知识图谱

论文标题：Learning Contextualized Knowledge Graph Structures for Commonsense Reasoning

论文链接：https://openreview.net/forum?id=lJuOUWlAC8i

论文摘要：在本文中，我们提出了一种新的神经符号方法，称为混合图网络（HGN），该方法可联合生成新三元组的特征表示（作为对KG中现有边缘的补充），确定三元组与推理环境的相关性，并学习用于对关系信息进行编码的图形模型参数。我们的方法通过过滤对推理过程无用的边来学习紧凑的图结构（包含检索的边和生成的边）。

论文标题：Language Models are Open Knowledge Graphs

论文链接：https://openreview.net/forum?id=aRTRjVPkm-

论文摘要：本文介绍了由预先训练的语言模型（例如BERT，GPT-2）构建的知识图（KGs），无需人工监督。在本文中，我们提出了一种无监督的方法来将语言模型中的学习知识作为KG进行回忆。

论文标题：Interpreting Knowledge Graph Relation Representation from Word Embeddings

论文链接：https://openreview.net/forum?id=gLWj29369lW

论文摘要：基于对词嵌入的最新理论理解，我们将知识图关系分为三种类型，每种类型都推导了它们表示的明确要求。我们表明，关系表示的经验性质和领先的知识图表示方法的相对性能通过我们的分析是合理的。

论文标题：QuatRE: Relation-Aware Quaternions for Knowledge Graph Embeddings

论文链接：https://openreview.net/forum?id=hga0T0Qcli5

论文摘要：我们提出了一种有效的嵌入模型QuatRE，以学习知识图中实体和关系的四元数嵌入。QuatRE的目的是在四元数空间内具有汉密尔顿积的关系下增强头和尾实体之间的相关性。QuatRE通过进一步将每个关系与两个关系感知的四元数向量（分别用于旋转头和尾实体的四元数嵌入）相关联来实现此目标。

论文标题：JAKET: Joint Pre-training of Knowledge Graph and Language Understanding

论文链接：https://openreview.net/forum?id=SOVSJZ9PTO7

论文摘要：一个联合的预训练框架，可以同时对知识图和文本进行建模，并且可以在微调期间轻松适应新领域中看不见的知识图。

文本生成

论文标题：CoCon: A Self-Supervised Approach for Controlled Text Generation

论文链接：https://openreview.net/forum?id=VD_ozqvBy4W

论文摘要：我们使用Content-Conditioner（CoCon）来以细粒度级别控制具有内容输入的LM的输出文本。在我们的自我监督方法中，CoCon块学习通过以LM保留的内容输入为条件来帮助LM完成部分可观察的文本序列。

论文标题：GeDi: Generative Discriminator Guided Sequence Generation

论文链接：https://openreview.net/forum?id=TJSOfuZEd1B

论文摘要：我们使用GeDi作为将较小的LM用作生成鉴别符的有效方法，以指导大型LM的生成，使其更安全，更可控。GeDi通过对两个类条件分布进行归一化，通过贝叶斯规则计算所有可能的下一个标记的分类概率，从而指导每一步的生成；一个以期望的属性或控制代码为条件，而另一个以不期望的属性或反控制代码为条件。

论文标题：A Distributional Approach to Controlled Text Generation

论文链接：https://openreview.net/forum?id=jWkw45-9AbL

论文摘要：我们提出了一种分布式方法来解决从预训练的语言模型（LM）生成受控文本的问题。这种观点允许在单个正式框架中定义目标LM的“逐点”约束和“分布”约束，同时将初始LM的KL差异最小化分配。然后，将最佳目标分布唯一确定为明确的EBM（基于能量的模型）表示。从最佳表示中，我们然后通过策略梯度的自适应分布变量训练目标受控自回归LM。

论文标题：Resurrecting Submodularity for Neural Text Generation

论文链接：https://openreview.net/forum?id=FVhZIBWqykk

论文摘要：我们定义了具有亚模块功能的一类新颖的注意力机制，进而证明了有效神经覆盖的亚模块性。所得的注意模块提供了一种体系结构简单且凭经验有效的方法，可改善神经文本生成的覆盖范围。

论文标题：Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation

论文链接：https://openreview.net/forum?id=JAlqRs9duhz

论文摘要：我们基于梯度分析提出了对MLE的简单修改，并在不同任务中对Token级退化进行了重大改进。

论文标题：A Text GAN for Language Generation with Non-Autoregressive Generator

论文链接：https://openreview.net/forum?id=wOI9hqkvu_

论文摘要：我们提出了带有非自回归生成器的文本GAN，可以使用基于梯度的方法从头开始对其进行有效训练，并将其应用于需要潜在变量的文本生成应用程序。

论文标题：Pre-training Text-to-Text Transformers to Write and Reason with Concepts

论文链接：https://openreview.net/forum?id=3k20LAiHYL2

论文摘要：为了增强常识性的预训练语言模型，我们提出了生成性和对比性目标，作为一般预训练和下游特定任务的微调之间的中间自我监督式预训练任务。我们还提出了一个联合训练框架，以统一生成目标和对比目标，从而使这些目标更加有效。

论文标题：TextSETTR: Label-Free Text Style Extraction and Tunable Targeted Restyling

论文链接：https://openreview.net/forum?id=T6RYeudzf1

论文摘要：我们提出了一种在完全没有标签的情况下训练样式转移模型的技术，并显示了生成的模型可以在测试时控制许多不同的样式属性（情感，方言，形式等）。

论文标题：Contrastive Learning with Adversarial Perturbations for Conditional Text Generation

论文链接：https://openreview.net/forum?id=Wga_hrCa3P3

论文摘要：我们通过将正对与负对进行对比来解决条件文本生成问题，从而使模型暴露于输入的各种有效或不正确的扰动下，以提高通用性。我们通过还在输入序列中添加较小的扰动以最小化其条件可能性来生成否定示例，并通过在施加较大的扰动的同时将其强制具有较高的条件可能性来生成正示例。

机器翻译

论文标题：Learning to Use Future Information in Simultaneous Translation

论文链接：https://openreview.net/forum?id=YjXnezbeCwG

论文摘要：我们提出了一种同时翻译的新方法，该方法由控制器（通过强化学习进行训练）指导，可以自适应地利用将来的信息来提高翻译质量。

论文标题：Self-supervised and Supervised Joint Training for Resource-rich Machine Translation

论文链接：https://openreview.net/forum?id=1yDrpckYHnN

论文摘要：自我监督的文本表示形式的预训练已成功应用于低资源神经机器翻译（NMT）。但是，它通常无法在资源丰富的NMT上获得显着收益。在本文中，我们提出了一种联合训练方法F2-XEnDec，以结合自我监督和监督学习来优化NMT模型。为了利用互补的自我监督信号进行监督学习，NMT模型在样本上进行了训练，这些样本是通过一种称为交叉编码器/解码器的新过程从单语和并行句子中杂交而来的。

论文标题：Hybrid-Regressive Neural Machine Translation

论文链接：https://openreview.net/forum?id=jYVY_piet7m

论文摘要：当使用小批量时，具有多次迭代的常规非自回归翻译不能加速解码，因此我们提出了混合回归翻译（HRT）来解决此问题。

论文标题：Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models

论文链接：https://openreview.net/forum?id=F1vEjWK-lH_

论文摘要：在本文中，我们尝试通过损失函数几何的形式窥视多语言优化的黑匣子。我们发现沿优化轨迹测得的梯度相似度是一个重要信号，不仅与语言接近度而且与整体模型性能都很好地相关。这样的观察有助于我们发现现有基于梯度的多任务学习方法的关键局限性，因此，我们得出了一个简单且可扩展的优化程序，名为“梯度疫苗”，该方法鼓励针对完成任务的几何排列参数更新。

论文标题：Meta Back-Translation

论文链接：https://openreview.net/forum?id=3jjmdp7Hha

论文摘要：在本文中，我们提出了一种生成伪并行数据以进行反翻译的新方法，该方法可直接优化最终模型的性能。具体来说，我们提出了一种元学习框架，其中反向翻译模型学习将开发数据上的正向翻译模型的梯度与伪并行数据上的梯度进行匹配。

论文标题：Nearest Neighbor Machine Translation

论文链接：https://openreview.net/forum?id=7wCBOfJ8hJM

论文摘要：我们使用最近的邻居分类器扩展了经过预训练的机器翻译模型的解码器，从而在没有任何其他训练的情况下，极大地提高了单语言对，多语言和领域自适应设置下的性能。

论文标题：Deep Encoder, Shallow Decoder: Reevaluating Non-autoregressive Machine Translation

论文链接：https://openreview.net/forum?id=KpfasTaLUpq

论文摘要：我们研究具有不同深度的编码器和解码器的自回归模型。在给定足够深的编码器的情况下，单层自回归解码器可以以可比的推理速度大大胜过强大的非自回归模型。我们表明，与非自回归方法相比，自回归基线的速度劣势在三个方面被高估了：欠佳的层分配，速度测量不足和缺乏知识提炼。

对抗攻击

论文标题：Grey-box Extraction of Natural Language Models

论文链接：https://openreview.net/forum?id=cotg54BSX8

论文摘要：在本文中，我们介绍了在灰盒设置中针对大规模自然语言模型的代数攻击，其目标模型是经过预先训练的（公共）编码器，然后是单个（私有）分类层。我们的主要观察结果是，一小组任意的嵌入向量很可能构成分类层输入空间的基础，而灰匣子对手可以计算输入空间。

论文标题：InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective

论文链接：https://openreview.net/forum?id=hpH98mK5Puk

论文摘要：我们提出了一种新颖的学习框架InfoBERT，用于从信息论的角度对预训练语言模型进行鲁棒的微调，并在NLI和QA任务的多个对抗性数据集上实现了最新的鲁棒性。

论文标题：Towards Robustness Against Natural Language Word Substitutions

论文链接：https://openreview.net/forum?id=ks5nebunVn_

论文摘要：我们介绍了一种新颖的对抗性稀疏凸组合（ASCC）方法。我们将单词替换攻击空间建模为凸包，并利用正则化项对实际替换实施扰动，从而使我们的建模与离散文本空间更好地保持一致。基于ASCC方法，我们进一步提出了ASCC防御，该防御利用ASCC生成最坏情况的扰动并将对抗性训练纳入鲁棒性。

论文标题：Better Fine-Tuning by Reducing Representational Collapse

论文链接：https://openreview.net/forum?id=OQ08SN70M1V

论文摘要：我们提出了一种对标准微调的轻量级增强功能，用参数噪声（从正态分布或均匀分布采样）替换了以前使用的对抗目标，从而在可能的情况下阻止了微调过程中的表示变化而不会损害性能。其性能优于整体方法，同时在计算上比其他微调方法廉价。

文本分类

论文标题：Neural Text Classification by Jointly Learning to Cluster and Align

论文链接：https://openreview.net/forum?id=PTG9NdIn3wt

论文摘要：分布文本聚类提供语义上有意义的表示，并捕获每个单词与语义聚类质心之间的相关性。我们通过潜在变量模型诱导聚类中心并与分布词嵌入进行交互，从而将神经文本聚类方法扩展到文本分类任务，以丰富标记的表示并测量标记与每个可学习的聚类质心之间的相关性。

论文标题：Cluster & Tune: Enhance BERT Performance in Low Resource Text Classification

论文链接：https://openreview.net/forum?id=Oz_4sa7hKhl

论文摘要：我们建议在调优之前和对BERT进行预训练之后添加一个无监督的中间分类步骤，并表明它可以提高数据受限情况下的性能。

信息抽取

论文标题：Counterfactual Thinking for Long-tailed Information Extraction

论文链接：https://openreview.net/forum?id=xYJpCgSZff

论文摘要：信息提取（IE）旨在从非结构化文本中提取结构化信息。但是，在实践中，长尾数据不平衡可能会导致深度学习模型出现严重的偏差问题，这是因为用于尾类的训练实例很少。为此，我们提出了一种基于语言结构和因果推理的新颖框架（名为Counterfactual-IE）三个关键成分。首先，通过将语法信息融合到各种主流的IE任务的结构化因果模型中，包括关系提取（RE），命名实体识别（NER）和事件检测（ED），我们的方法能够从不平衡的数据集。其次，基于事实语言结构生成反事实，以更好地计算推断阶段的直接影响。第三，我们提出了一种灵活的去偏方法，以便在推理阶段进行更可靠的预测。

论文标题：Prototypical Representation Learning for Relation Extraction

论文链接：https://openreview.net/forum?id=aCgLmfhIy_f

论文摘要：本文旨在从文本数据中学习预测性，可解释性和鲁棒性的关系表示形式，这些表示形式在不同的情况下均有效，包括监督学习，远程监督学习和few-shot学习。我们建议不要从上下文信息中推断每个关系的潜在原型，而不是仅仅依靠标签的监督，以最好地探索关系的内在语义。

论文标题：Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition

论文链接：https://openreview.net/forum?id=5jRVa89sZk

论文摘要：通过对综合数据集进行的经验研究，我们发现了性能下降的两个原因。一种是减少带注释的实体，另一种是将未标记的实体视为否定实例。我们提出了一种通用方法，该方法能够消除未标记实体带来的误导。核心思想是使用负采样将未标记实体进行训练的概率保持在非常低的水平。

论文标题：Segmenting Natural Language Sentences via Lexical Unit Analysis

论文链接：https://openreview.net/forum?id=PQlC91XxqK5

论文摘要：在这项工作中，我们提出了词法单元分析（LUA），这是用于一般序列分割任务的框架。给定自然语言句子后，LUA会为所有有效的细分候选者评分，并利用动态编程（DP）来提取得分最高的一个。

可解释性

论文标题：Unsupervised Discovery of Interpretable Latent Manipulations in Language VAEs

论文链接：https://openreview.net/forum?id=DGttsPh502x

论文摘要：在这项工作中，我们迈出了在语言潜在空间中无监督地解释可理解方向的第一步。令人惊讶地，我们发现在训练数据的VAE表示上运行PCA始终优于沿坐标和随机方向的移动。这种方法简单，可适应数据，不需要训练，并且可以发现有意义的方向。

模型压缩与集成

论文标题：MixKD: Towards Efficient Distillation of Large-scale Language Models

论文链接：https://openreview.net/forum?id=UFGEelJkLu5

论文摘要：我们使用数据混合蒸馏框架MixKD，该框架利用简单而有效的数据扩充方法Mixup，为生成的模型赋予更强的泛化能力。具体而言，除了原始的训练示例外，还鼓励学生模型在示例对的线性插值上模仿老师的行为。我们从理论上证明，MixKD在泛化误差和经验误差之间产生了较小的差距。

论文标题：Task-Agnostic and Adaptive-Size BERT Compression

论文链接：https://openreview.net/forum?id=wZ4yWvQ_g2y

论文摘要：我们提出了NAS-BERT，它利用神经结构搜索对自适应模型大小和跨下游任务的BERT压缩。

论文标题：Knowledge Distillation based Ensemble Learning for Neural Machine Translation

论文链接：https://openreview.net/forum?id=dGF96IxczpW

论文摘要：我们为NMT提出了一种基于知识蒸馏的集成学习方法，可以将多个模型的知识汇总到一个模型中。

论文标题：Structural Knowledge Distillation

论文链接：https://openreview.net/forum?id=3Jldbtfqfa

论文摘要：在本文中，我们推导了用于结构化预测的知识蒸馏目标的因式分解形式，对于教师和学生模型的许多典型选择而言，该形式易于处理。特别是，我们展示了在四种不同情况下，序列标签和依赖关系解析模型之间的结构知识精炼的可操作性和经验有效性：1）师生共享输出结构评分函数的相同分解形式；2）与教师分解相比，学生分解产生的子结构更小；3）教师分解比学生分解产生的子结构小；4）教师和学生的因式分解形式不兼容。

数据增强

论文标题：CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for Natural Language Understanding

论文链接：https://openreview.net/forum?id=Ozk9MrX1hvA

论文摘要：在本文中，我们提出了一种名为CoDA的新型数据增强框架，该框架通过有机地整合多个转换来合成各种信息丰富的增强示例。此外，引入了对比正则化以捕获所有数据样本之间的全局关系。

论文标题：XLA: A Robust Unsupervised Data Augmentation Framework for Cross-Lingual NLP

论文链接：https://openreview.net/forum?id=w5uur-ZwCXn

论文摘要：我们提出了XLA，这是一种在零资源转移学习场景中用于自我监督学习的新颖数据增强框架。特别地，假设目标语言任务中没有训练标签，XLA旨在解决从源语言任务分发到未知目标语言任务分发的跨语言适应问题。XLA的核心是通过数据增强和无监督样本选择来同时进行自我训练。

向量表示

论文标题：Universal Sentence Representations Learning with Conditional Masked Language Model

论文链接：https://openreview.net/forum?id=WDVD4lUCTzU

论文摘要：本文提出了一种新的训练方法，即条件屏蔽语言建模（CMLM），以有效地学习大规模未标记语料库中的句子表示。CMLM通过以相邻句子的编码向量为条件，将句子表示学习整合到MLM训练中。

论文标题：Rethinking Embedding Coupling in Pre-trained Language Models

论文链接：https://openreview.net/forum?id=xpFFI_NtgpW

论文摘要：我们在最新的预训练语言模型中重新评估在输入和输出嵌入之间共享权重的标准做法。我们表明，解耦的嵌入提供了增加的建模灵活性，从而使我们能够在多语言模型的输入嵌入中显着提高参数分配的效率。通过在Transformer层中重新分配输入的嵌入参数，我们可以在微调期间以相同数量的参数在标准自然语言理解任务上获得显着更好的性能。我们还表明，为输出嵌入分配额外的容量可以为模型提供好处，即使在预训练后将输出嵌入丢弃，该模型也可以在微调阶段持续存在。

论文标题：Disentangling Representations of Text by Masking Transformers

论文链接：https://openreview.net/forum?id=Dmpi13JiqcX

论文摘要：我们探讨了是否有可能通过识别预编码模型中的子网来学习解纠缠的表示形式，这些模型对表示形式的不同互补方面进行编码。具体来说，我们学习关于Transformer权重或隐藏单位的二进制掩码，以发现与特定变化因子相关的特征子集。这回避了在特定领域内从头开始训练解开模型的需求。

论文标题：Polar Embedding

论文链接：https://openreview.net/forum?id=TLfjwEFI527

论文摘要：层次结构的有效表示对于开发智能系统至关重要，因为大多数现实世界中的对象都按层次结构排列。我们使用极坐标嵌入来学习极坐标系统的表示形式。在极坐标中，对象用两个独立变量表示：半径和角度，这使我们可以根据层次结构中对象的普遍性和相似性的明确对应关系分别优化其值。此外，我们介绍了一种优化方法，该方法结合了控制梯度的损失函数和分布的迭代均匀化。

论文标题：Discrete Word Embedding for Logical Natural Language Understanding

论文链接：https://openreview.net/forum?id=4LHz4IFGLQ-

论文摘要：我们提出了一种无监督的神经模型，用于学习单词的离散嵌入。与现有的离散嵌入不同，我们的二进制嵌入支持类似于连续嵌入的矢量算术运算。我们的嵌入将每个单词表示为一组命题陈述，描述了经典/ STRIPS规划形式主义中的过渡规则。这使得嵌入与符号化，最新的经典规划求解器直接兼容。

论文标题：Filtered Inner Product Projection for Multilingual Embedding Alignment

论文链接：https://openreview.net/forum?id=A2gNouoXE7

论文摘要：在本文中，我们提出了一种将内部嵌入映射到公共表示空间的方法，即过滤内积投影（FIPP）。由于语义变化在语言和领域中无处不在，因此FIPP首先在两个嵌入中标识出通用的几何结构，然后仅在该通用结构上对齐这些嵌入的Gram矩阵。

论文标题：Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies

论文链接：https://openreview.net/forum?id=Vd7lCMvtLqg

论文摘要：通过贝叶斯非参数解释对大型词汇的稀疏嵌入进行端到端学习，从而使嵌入表缩小多达40倍。

论文标题：Ruminating Word Representations with Random Noise Masking

论文链接：https://openreview.net/forum?id=pXi-zY262sE

论文摘要：我们介绍了一种更好的单词表示和性能训练方法，该方法是在训练模型后，逐步地，反复地向词嵌入中添加随机噪声和偏差，然后从头开始重新训练模型，但使用有噪声的词嵌入进行初始化。

论文标题：Neural Topic Model via Optimal Transport

论文链接：https://openreview.net/forum?id=Oos98K9Lv-k

论文摘要：本文提出了一种通过最佳传输的神经主题模型，该模型可以发现更连贯和多样的主题，并为常规文本和短文本提供更好的文档表示形式。

论文标题：Probing BERT in Hyperbolic Spaces

论文链接：https://openreview.net/forum?id=17VnwXYZyhH

论文摘要：这项工作提出了一系列几何上特殊的空间，即双曲空间，它们对层次结构表现出更好的归纳偏差，并且可能更好地揭示了在上下文表示中编码的语言层次。我们引入Poincare probe，可将这些嵌入投射到具有明确定义的层次结构的Poincaré子空间中。

论文标题：Contrasting distinct structured views to learn sentence embeddings

论文链接：https://openreview.net/forum?id=ZlIfK1wCubc

论文摘要：我们提出了一种自我监督的方法，该方法可通过多种显式句法结构的组合来构建句子嵌入。

论文标题：On Learning Universal Representations Across Languages

论文链接：https://openreview.net/forum?id=Uu1Nw-eeTxJ

论文摘要：在这项工作中，我们扩展了预训练的语言模型，以学习多种语言之间的通用表示，并展示了对跨语言理解和生成的有效性。

其他

论文标题：Transformer protein language models are unsupervised structure learners

论文链接：https://openreview.net/forum?id=fylclEqgvgd

论文摘要：无监督的接触预测对于揭示蛋白质结构确定和设计的物理，结构和功能限制至关重要。我们证明了Transformer注意图是从无监督语言建模目标中学习联系的。

论文标题：Token-Level Contrast for Video and Language Alignment

论文链接：https://openreview.net/forum?id=GRbZ91LKIya

论文摘要：建立视频和语言理解模型需要将语言概念和视频内容置于一个共享空间中。本文介绍了一种通过语法类（例如名词和动词）告知的简单令牌级别的对比损失（ToCo），以迫使模型优先考虑具体的语义方位词。ToCo不会掩盖输入，而是以对比方式为多模式对齐提供局部（上下文标记）和全局（词法类型）压力。

论文标题：Learning Chess Blindfolded

论文链接：https://openreview.net/forum?id=DGIXvEAJVd

论文摘要：我们提出了国际象棋语言建模的任务，以评估语言模型如何很好地捕获世界（棋盘）状态。国际象棋的简单而精确的动态特性允许（a）训练具有各种显式状态的模型，以及（b）在细粒度的水平上评估模型预测。

论文标题：Long Range Arena : A Benchmark for Efficient Transformers

论文链接：https://openreview.net/forum?id=qVyeW-grC2k

论文摘要：本文提出了一个系统且统一的基准，即“Long Range Arena”，专门用于评估在长上下文情况下的模型质量。我们的基准测试是一整套任务，由从1K到16K Token的一系列序列组成，涵盖了广泛的数据类型和形式，例如文本，自然，合成图像以及需要相似，结构和视觉空间推理的数学表达式。

论文标题：BERTology Meets Biology: Interpreting Attention in Protein Language Models

论文链接：https://openreview.net/forum?id=YWtLZvLmud7

论文摘要：我们分析了蛋白质语言模型的内部表示，并更广泛地介绍了分析基于注意力的模型的方法。

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！

后台回复【五件套】
下载二：南大模式识别PPT

后台回复【南大模式识别】

说个正事哈

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方“深度学习自然语言处理”，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易，还望给个在看！

你可能感兴趣的:(自然语言处理,计算机视觉,机器学习,人工智能,deep,learning)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f