我就是我2333

《Monolingual and Cross-Lingual Intent Detection without Training Data in Target Languages》论文的研读

原文出处：英文原文

由于文章的篇幅较长，本文主要翻译了摘要引言以及结论部分，方法以及结果部分捡重点进行翻译研读，有不恰当之处，敬请指导和交流！

此外本文的相关工作部分总结的比较完善，本文也会进一步进行归纳。

摘要

1 引言

2 与论文相关的工作

2.1 在ATIS语料库上进行的研究

2.2 在SNIPS数据集上的相关的工作

2.3 在其他数据集上面的探索

2.4 意图检测的其他用途

2.5 少样本（few-shot）意图检测研究

2.6 同一个语句多种意图的识别的研究

2.7 多语言意图识别方向的研究

3 方法

3.1 数据集

3.2 使用的方法

4 部分结果与分析

5 结论

摘要

【现状】近些年来，由于DNN的发展，使用基于transformer-based模型和监督数据可以有效地解决许多NLP问题。

【问题】然而，某些语言是没有充足的数据集。

【研究前提】本文研究基于以下假设：(1)训练数据可以通过机器从另一种语言翻译得到;(2)有些跨语言解决方案无需目标语言的训练数据就可以工作。

【研究内容】在本研究中使用英语数据集，同时解决了五种目标语言(德语、法语、立陶宛语、拉脱维亚语和葡萄牙语)的意图检测问题。在寻找最准确的答案时，本文联合积极学习分类器（eager learning classifiers 如CNN, BERT微调，FFNN）和惰性学习方法（ lazy learning approach，余弦相似度作为基于记忆的方法）研究了基于BERT的词和句子transformers。随后，本文提供并评估了几种策略，以克服机器翻译、跨语言模型和这两者结合的任务中数据稀缺的问题。

【研究结果】实验研究表明句子transformers在不同的跨语言条件下具有鲁棒性。用完全单语模型的英语数据集实现的精度为~0.842；本文的跨语言方法也显示出相似的准确度，在德语、法语、立陶宛语、拉脱维亚语和葡萄牙语上达到~0.831、~0.829、~0.853、~0.831和~0.813。

1 引言

【背景】在自然语言处理(NLP)领域中在深度神经网络(DNN)取得的推动下，聊天机器人在实时客户服务[1]中越来越受欢迎。聊天机器人的研究领域已经有很长的历史，可以追溯到1966年[2]。麻省理工学院人工智能实验室推出的第一款聊天机器人ELIZA经过调整，可以与有心理问题的人交流。ELIZA检查用户输入的关键词，并根据一组预定义的规则提示答案。如今，聊天机器人被广泛应用于市场营销、教育、医疗保健和其他行业。他们甚至被应用在互动剧院表演娱乐中[3]。然而，这场新冠疫情大流行尤其展示了在新闻媒体、医院或医疗保健系统中用于管理大量涌入问题的聊天机器人的必要性。

根据输入处理方式和响应性质可以判断聊天机器人是基于生成的还是基于意图检测的。生成式聊天机器人通常需要大量的训练数据，并且可以学习如何从这些数据中生成回应。基于意图检测的聊天机器人具有分类器的功能，因此仅限于预定义的响应。尽管有先进的算法，但在真实的用户对话场景中，任何这些聊天机器人都无法避免失败的。相比之下，基于意愿检测的机器人比基于生成的更健壮，通常用于生产聊天机器人，这将作为本文的研究方向。

聊天机器人由四个不同的组件组成:自然语言理解(NLU)(负责理解用户请求的含义和结构)、对话管理(控制对话的顺畅流动)、内容(聊天机器人必须如何响应的模板)和外部数据(从外部web服务或数据库提取数据)。然而，如果不理解用户的请求，那么所有其他组件都是次要的。因此，本研究的重点是改进NLU组件。

【研究内容】自然语言处理领域以资源丰富的英语研究为主，并且以英语为基础研究展开了许多研究，但是，哪些不太流行或资源较少的语言也同样需要关注并寻求较好的问题解决或理解的方法。因此，本研究的目标是找到解决多语言问题的措施。一种简单的方法是选择可用的基准英语数据集，随后将它们翻译为目标语言。此时，研究所依赖的假设是，机器翻译不会扭曲数据到显著降低其质量而不适合训练NLU模型的程度。我们甚至假设这个问题可以在没有机器翻译的情况下解决，只需要使用能够捕获句子语义的多语言转换器(如预先训练的向量化模型)。

【研究对象】本文选择了英语、德语、法语、立陶宛语、拉脱维亚语和葡萄牙语作为我们的目标语言。这样的选择是有目的的:它包括不同的语系(日耳曼语、罗曼斯语和波罗的海语)，涵盖了拥有不同数量资源的语言。

2 与论文相关的工作

2.1 在ATIS语料库上进行的研究

语料库详情：语音记录，17个意图类别，每句话11个单词，训练集、验证集与测试集分别有4478、500和893个语句组成。

相关研究：

方法	意图识别精度（最优）	是否与槽位填充联合训练
Bi-model based RNN semantic frame parsing approach	~0.99	是
transformer-capsule model（GloV e embeddings+transformer encoder +capsule network）	~0.98	--
Attention BiRNN	~0.95	是
BERT-based	~0.98	是

2.2 在SNIPS数据集上的相关的工作

语料库详情：语音记录，7个意图类别，每句话约9个单词，1.6万众包询问。

相关研究：

方法	意图识别精度（最优）	是否与槽位填充联合训练
BERT-based stack-propagation framework	~0.97	是
BiLSTM 考虑上下文	~0.94	是
改进的BiLSTM	~0.92	是

当数据集确定时，一些研究人员则通过扩展数据资源的方式来提高精度，对ATIS和SNIPS数据集注入扰动输入(对抗示例)形成新的数据集，随后联合解决意图检测和槽位填充任务，开发了对抗训练方法对抗训练方，使得设计的模型更加健壮。模型组成：将LSTM encoder-decoder与stacked CRF 应用在BERT-large embedding model的顶层之上。

2.3 在其他数据集上面的探索

语料库详情：HWU64(包含约2.57万个实例，64个意图，每个实例7个单词)，CLINC150(约2.37万个实例，150个意图，每个实例8个单词)，以及BANKING77(约1.3万个客户服务查询，77个意图，每个实例12个单词)。这三种数据集的特点就是意图更多更复杂。

研究建议使用对偶句子编码器（dual sentence encoders），这种编码器能够从输入/上下文和relevel响应之间的交互中进行学习，从而封装会话知识。例如，可以使用USE(通用句子编码器)和ConverRT来支持意图检测。实验研究表明，对偶嵌入优于固定或微调BERT-large模型，这在较小的意图(覆盖~ 10-30例)尤其明显。

2.4 意图检测的其他用途

为了解决电子邮件超载的问题，作者[18]将它们分为两类:“阅读”或“做”。作者对上下文无关词嵌入(word2vec和GloVe)、上下文词嵌入(ELMo和BERT)和句子嵌入(DAN-based USE和Transformer-based USE)进行了测试，证明了ELMo的优势，其次对比了基于transformer的USE和基于dan的USE。结果证明句子嵌入对于目标检测是非常有用的。

2.5 少样本（few-shot）意图检测研究

之前总结的研究都是集中在意图种类的情况下，对语句所包含意图的识别。这一部分作者总结了在新的分类下，对标签数据中意图缺少（few-shot intent）情况下的目标识别研究方法。

1、一种是基于Bi-LSTM的语义匹配和聚合网络方法。该方法通过附加动态正则化约束的多头自我注意从话语中提取语义成分。通过实验将他们提供的方法与另外6种方法(匹配网络、原型网络、关系网络、混合注意力原型网络、分层原型网络、多层次匹配和聚合网络)进行了比较，证明他们的方法在两个数据集上都取得了最好的性能。

2、另一种方法是利用双重伪标记技术。伪标记过程将嵌入的用户话语传递给分层聚类方法(自下而上的树状结构)，然后由上而下形成树状结构，扩展具有多个不同标签的被标记句子的节点。一旦伪标签被检索，该方法执行BERT微调的意图检测，这是一个常见的解决意图检测问题的方案。

2.6 同一个语句多种意图的识别的研究

作者在[21]中使用自适应图交互框架方法解决了联合多种意图检测和槽位填充的问题。首先，使用自注意的Bi-LSTM编码器进行语句的表示，然后将其传递给多标签意图检测解码器，由其利用自注意计算上下文向量。然后，自适应意图-槽图交互层利用多个意图的信息进行槽位预测。除了提供的方法之外，作者还测试了五种最先进的方法(Attention BiRNN, Slot-Gated Atten, Bi-Model, SF-ID Network, Stack-Propagation)，证明他们提供的方法在MixATIS和MixSNIPS数据集(近似于ATIS和SNIPS版本，但包含多个意图)具有优越性。无论是few-shot还是multi意图问题，都有超越常见意图检测问题的附加机制。

2.7 多语言意图识别方向的研究

最后作者总结了多语言意图识别方向的研究，即跨语言的方法。主要梳理如下：

【方法】fastText+卷积神经网络(CNN)进行embedding；BiLSTM作为编码器；用于意图检测的多层感知器MLP和用于NER的CRF序列标记器作为两个解码器。【迁移策略】a、编码器和解码器都迁移并微调；b、仅迁移编码器，不微调；c、仅迁移编码器并解冻部分训练步骤，进行微调。【数据集】英语(约220万个语句，316个意图和282个槽位)、西班牙语(约300万个语句，365个意图，311个槽位、意大利语(约2.5个语句，379个意图，324个槽位)和印地语(约40万个语句，302个意图，267个槽位)数据集。【结果】在所有使用迁移学习的模型中，性能都有改善，其中编码器迁移的改善最大。
【方法】方法是具有self-attention的Bi-LSTM层和条件随机场(CRF)层。该方法通过作者训练的几种类型的词嵌入(zero、XLU、编码器、CoVe、多语言CoVE和多语言CoVE +自动编码器)和可用的西班牙语预训练的ELMo编码器进行测试。【结果】数据资源有限的语言将从跨语言学习中受益。尽管如此，多语言上下文单词表示还是优于跨语言静态嵌入。
该方法首先发布了一个【数据集】：包括英语、西班牙语、法语和德语中16个COVID-19特定意图的约69000个句子。【研究内容】(1)单语言和多语言模型基线;(2)从英语到西班牙语、法语和德语的跨语言迁移;(3)西班牙英语的zero-shot CS。文中对fastText、XLM-R和ELMo嵌入进行了测试。【结果】在zero-setting下获得较低的结果，XLM-R跨语言句子嵌入明显优于文中提到的其他方法。
【方法】发展了基于XLM-R的语言模型，首次在不降低每种语言性能的情况下提出了多语言建模。它证明了预训练的多语言模型的鲁棒性，能够显著提升跨语言迁移任务的性能，如自然语言推断(15种语言)，NER(英语，荷兰语，西班牙语和德语)，问题回答(英语，西班牙语，德语，阿拉伯语，印地语，越南语和汉语)。【结果】XLM-Rbase (L = 12, H = 768, A = 122.7亿参数)和XLM-R (L = 24, H = 1024, A = 165.5亿参数)模型在跨语言任务中明显优于mBERT，在资源匮乏的语言中表现尤其出色。

总之，啰啰嗦嗦总结了这么多，本文的主要目的就是发展一种多语言意图检测的方法，该方法不需要对目标语言中的训练数据集进行标注。

3 方法

3.1 数据集

本文以英语（EN）作为基础数据集，同时文中还选择了一种日耳曼语言(即德语(DE))、两种罗曼语系语言(法语(FR)和葡萄牙语(PT))以及两种波罗的海语系语言(立陶宛语(LT)和拉脱维亚语(LV))，它们在形态学、派生体系、句式结构等特征上存在差异。表1所示的是从Tildes BiurasAPP上获取的EN的原始数据集。表2种所示的是基于原始的数据集EN，使用谷歌机器翻译翻译成DE、FR、LT、LV和PT语言用作训练数据集，而测试数据集是手动翻译成DE、FR、LT、LV和PT语言。这样做的目的是：即使机器翻译不是很精确，但是句子主要的意思能够被保存下来，因此，机器翻译是形成训练数据集的一种可靠方法。测试数据集是手动翻译的，因为意图检测模型通常由真实用户用他们的语言编写问题来测试。

3.2 使用的方法

文中描述本文主要的目的是找到文本表示（text representation ）和分类技术（classification techniques）的最佳结合。

词嵌入（word embedding）：本文研究了四种英语单语的BERT模型、即BERT -base-cased、BERT -base-uncase、BERT -large-cased和bert-large-uncase。base模型和large模型的区别在于堆叠的编码器层数(base模型和large模型分别为12和24)、attention heads(12和16)、参数(1.1亿和3.4亿)和隐藏层(768和1024)。Cased模型对字母大小写敏感，反之，uncased模型则不敏感。论文模型相关的网站 这些模型就是下文的BERT-w
句子嵌入（sentence embedding）：本文研究了4个单语英语句子嵌入模型：roberta-base-nli-stsb-mean-tokens, roberta-large-nli-stsb-mean-tokens, bert-large-nli-stsb-mean-tokens, distilbert-base-nli-stsb-mean-tokens以及四个多语句子嵌入模型： distiluse-base-multilingual-cased-v2, xlm-r-distilroberta-base-paraphrase-v1, xlm-r-bert-base-nli-stsb-mean-tokens, distilbert-multilingual-nli-stsb-quora-ranking模型相关的网站这些模型就是下文的BERT-s

在意图检测部分使用下面的方法：

BERT-w + CNN:将卷积神经网络(CNN)分类器应用于级联BERT词嵌入之上；
BERT-w + BERT
BERT-s + FFNN：BERT句子嵌入作为特征输入前馈神经网络(FFNN)作为分类器；
BERT-s + COS: 与前面描述的基于分类的方法不同，这种方法不学习任何通用模型。它只是存储所有训练数据，并计算测试实例和所有训练实例之间的相似性，测试实例被赋予与相似度最大的训练实例的标签。利用余弦相似度计算句子嵌入之间的相似度

为了解决数据稀缺问题，前面描述的机器学习方法将使用以下策略形成的训练数据进行训练：

Monolingual machine-translated 单语机器翻译（简称MT-based）：训练和测试均以同一目标语言进行。这些实验将展示在机器翻译数据上训练的单语模型的性能（例如：在表2中，训练数据为DE，则测试数据也为DE）。
Cross-lingual跨语言：在这种情况下，只在EN训练数据集上进行训练，而在其他目标语言的测试数据集上进行测试（例如：DE, FR, LT, LV , 和 PT），这些实验完全不使用机器翻译的训练数据，而是依赖于多语言BERT模型。这将测试基于bert的模型捕捉不同语言编写的相同文本之间的语义相似性的能力（例如，在表2中，训练数据为EN，则测试数据为DE, FR, LT, LV , 或 PT）。
以上两者的结合：这些实验结合了前面的两种方法:训练在两种语言的两个数据集上进行，即原始英文加上机器翻译的目标语言（例如：在表2中，训练数据为EN+DE，测试数据为DE）。这样的实验将揭示两种训练数据准备方法是否互补。这也将有助于回答以下问题:仅仅依赖基于bert的模型是否足够，或者机器翻译器的角色(或用目标语言训练数据)是否至关重要。
Cross-lingual without any target language data：在这种情况下，对所有语言的所有训练数据集进行训练，包括对EN的手工训练和对其他语言的机器翻译，但必须排除目标语言（例如：在表2中，训练数据为EN+DE+LT+LV，测试数据为PT）。这表示无法获得目标语言数据(即使是机器翻译的)的场景。我们提出，通过对被机器翻译成多种其他语言的数据进行训练，我们可以在基于bert的模型中促进语言之间的语义接口。在成功的情况下，这些实验对无法获得机器翻译数据或质量很差的语言尤其有益。

4 部分结果与分析

MT-based策略下BERT-w + CNN、BERT-w + BERT、BERT-s + FFNN和BERT-s + COS的最佳准确率+置信区间。虚线将(在同一种语言中)获得的最佳准确性与统计上差异不显著的准确性联系在一起。EN结果是在原始数据上获得的，并表示最好的效果（top-line），该结果用作与其他识别结果的比较。

在Cross-lingual跨语言策略下BERT-w + CNN、BERT-w + BERT、BERT-s + FFNN和BERT-s + COS的最佳准确率+置信区间。

在组合策略训练的BERT-s + FFNN和BERT-s + COS模型的最佳精度+置信区间。

在Cross-lingual without any target language data策略下BERT-s + FFNN和BERT-s + COS的最佳准确率+置信区间。

不同语言在不同条件下的最佳准确度+置信区间。

更加详细的结果大家可以移步论文的附件A中查看。

5 结论

利用两种BERT-based的矢量化模型(即单词和句子嵌入)、三个急切学习分类器(CNN、BERT微调、FFNN)和一种惰性学习方法(余弦相似度作为基于记忆的方法)来解决意图检测问题。通过测试以下训练数据使用策略来解决标注的数据短缺问题:MT-based(依赖于机器翻译的训练数据)、跨语言(单独训练英语)、结合(英语+目标语言一起训练)和训练所有(跨语言补充除目标语言外的多种语言的机器翻译实例)。实验结果表明，综合训练所有策略对五种目标语言均具有优越性。实验结果表明句子转换算法优于词嵌入算法，特别是，FFNN应用于BERT-based的句子嵌入之上。

英语语言数据集上的最佳精度为~0.842(这也是本文最好的数据)，是通过完全单语模型(单语矢量化和单语分类方法)实现的。然而，在没有原始训练数据集的情况下，其他语言如德语、法语、立陶宛语、拉脱维亚语和葡萄牙语的精度分别为~0.831、~0.829、~0.853、~0.831和~0.813。

以上就是小编对本论文的简单罗列，详细的结果分析这里就不多赘述了，欢迎大家一起探讨哦。

2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
如何使用Langchain加载AZLyrics网页到可用文档格式 dgay_hua langchain python
##技术背景介绍在处理歌词数据时，尤其是从网页上获取歌词文本内容，用于自然语言处理或文本分析是常见的需求。AZLyrics是一个提供歌词的主要平台，为我们提供了大量的歌词数据。如果我们可以将这些网页内容自动加载到结构化的文档格式中，将极大地提升我们处理和分析歌词的效率。##核心原理解析Langchain提供了一种简单的方式来将网页内容转换为可用的文档格式。通过使用其文档加载器（DocumentLo
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

《Monolingual and Cross-Lingual Intent Detection without Training Data in Target Languages》论文的研读

摘要

1 引言

2 与论文相关的工作

2.1 在ATIS语料库上进行的研究

2.2 在SNIPS数据集上的相关的工作

2.3 在其他数据集上面的探索

2.4 意图检测的其他用途

2.5 少样本（few-shot）意图检测研究

2.6 同一个语句多种意图的识别的研究

2.7 多语言意图识别方向的研究

3 方法

3.1 数据集

3.2 使用的方法

4 部分结果与分析

5 结论

你可能感兴趣的:(自然语言处理,自然语言处理,机器翻译,深度学习)