Toyhom

BERT for Joint Intent Classification and Slot Filling 使用Bert的插槽填充与意图识别联合模型

BERT for Joint Intent Classification and Slot Filling

使用Bert的插槽填充与意图识别联合模型

Abstract

意图分类和插槽填充是自然语言理解的两个基本任务。他们经常受到小规模的人工标签训练数据的影响，导致泛化能力差，尤其是对于低频单词。最近，一种新的语言表示模型BERT (Bidirectional Encoder Representations from Transformers)，有助于在大型未标记的语料库上进行预训练深层的双向表示，并在经过简单的微调之后为各种自然语言处理任务创建了最新的模型。但是，并没有太多的工作探索Bert 在自然语言理解中的使用。在这项工作中，我们提出了一种基于BERT的联合意图分类和插槽填充模型。实验结果表明，与基于注意力的递归神经网络模型和插槽门控模型相比，我们提出的模型在多个公共基准数据集上的意图分类准确性，狭缝填充F1和句子级语义框架准确性均取得了显着提高。

1.Introduction

近年来，已经出现了各种智能对话系统并取得了巨大的成功，例如Google Home，Amazon Echo，Tmall Genie，它们促进了面向目标的对话并帮助用户通过语音交互来完成任务。自然语言理解（NLU）对于面向目标的口语对话系统的性能至关重要。NLU通常包括意图分类和插槽填充任务，旨在为用户话语做出语义解析。意图分类侧重于预测查询的意图，而插槽填充则提取语义概念。表1显示了针对用户查询“Find me a movie by Steven Spielberg.”的意图分类和插槽填充的示例。

意图分类是一个预测意图标签yi的分类问题，而插槽填充是一个序列标注任务，该任务将输入单词序列x =（x1，x2，…，xT）标记为插槽标签序列ys =（ys 1，ys 2，···，ys T）。基于递归神经网络（RNN）的方法，特别是门控神经单元（GRU）和长短期记忆网络（LSTM）模型，已经实现了意图分类和插槽填充的SOTA表现。最近，几种用于意图分类和插槽填充的联合学习方法被提出，以利用和建模两个任务之间的依赖关系，并获得了高于独立模型的性能(Guo et al., 2014;Hakkani-Tur et al. ¨ , 2016; Liu and Lane, 2016; Gooet al., 2018)。先前的工作表明，注意力机制（Bahdanau等人，2014）可帮助RNN处理长期依赖关系。因此，基于注意力的联合学习方法被提出，并实现了联合意图分类和插槽填充的SOTA表现(Liu and Lane, 2016; Goo et al., 2018)。

缺少用于NLU和其他自然语言处理（NLP）任务的手工标记数据会导致泛化能力较差。为了解决数据稀疏性挑战，已经提出了多种技术使用大量未标记的文本来训练通用语言表示模型，例如ELMo(Peters et al., 2018)和Generative Pre-trained Transformer (GPT) (Radford et al., 2018)。可以针对NLP任务对预训练的模型进行微调，并且与针对特定任务的带标签数据的训练相比，已取得了显著改善。最近，有人提出了一种预训练技术，即Bidirectional Encoder Representations from Transformers (BERT) (Devlinet al., 2018)，并为包括问答（SQuAD v1）在内的各种NLP任务创建了最先进的模型。

但是，对于探索Bert在NLU的使用并没有太多相关工作。这项工作的技术贡献有两个方面：1）我们探索了BERT预训练模型来解决NLU泛化能力差的问题；2）我们提出了一种基于BERT的联合意图分类和插槽填充模型，并证明了该模型与基于注意力的RNN模型和槽填充门机制模型相比，在意图分类准确性，插槽填充F1分数和句子级语义框架准确性方面有显著提高。

2.Related Work

深度学习模型已在NLU中广泛使用。根据意图分类和插槽填充是分别建模还是联合建模，我们将NLU模型分为独立建模方法和联合建模方法。包含CNN (Kim, 2014; Zhang et al., 2015),LSTM (Ravuri and Stolcke, 2015), attentionbased CNN (Zhao and Wu, 2016), hierarchical
attention networks (Yang et al., 2016), adversarial multi-task learning (Liu et al., 2017)。插槽填充的方法包括CNN (Vu,2016), deep LSTM (Yao et al., 2014), RNNEM (Peng et al., 2015), encoder-labeler deepLSTM (Kurata et al., 2016), and joint pointer and attention (Zhao and Feng, 2018).

3.Proposed Approach

我们首先简要描述BERT模型 (Devlinet al., 2018)，然后介绍基于BERT的联合模型。图1展示了所提出模型的高层视图。

3.1 BERT

BERT的模型架构是基于Transformer model (Vaswani et al., 2017)中的多层双向Transformer编码器.输入表示形式是WordPiece embeddings (Wu et al., 2016)，positional embeddings和 the segment embedding。特别地，对于单句分类和标记任务，the segment embedding没有区别。特殊embedding([CLS])作为第一个token，embedding（[SEP]）作为最终token。给定输入序列x =（x1，…，xT），BERT的输出为H =（h1，…，hT）。
BERT模型在大型未标记文本上使用两个策略进行预训练，即masked language model和next sentence prediction。预训练的BERT模型提供了功能强大的上下文相关语句表示形式，可通过微调过程用于各种目标任务，例如意图分类和空位填充，类似于用于其他NLP任务的方式。

Bert 基础了解： https://bigganbing.github.io/2019/10/12/Learning-Bert/

3.2 Joint Intent Classification and Slot Filling

BERT可以轻松扩展到意图分类和插槽填充联合模型。基于第一个特殊token（[CLS]）的隐藏状态，其表示为h1，其意图预测为：
对于插槽填充，我们为其他token 的隐藏状态h2，…，hT准备了softmax layer ，以对插槽填充标签进行分类。为了使该过程与WordPiece tokenization兼容，我们将每个标记化的输入词送入WordPiece标记器，并使用与第一个子标记相对应的隐藏状态作为softmax分类器的输入。

hn是与单词xn的第一个子标记相对应的隐藏状态。
为了联合建模意图分类和插槽填充，目标公式为：

学习目标是最大化条件概率p，通过最小化交叉熵损失来对模型进行端到端微调。

3.3 Conditional Random Field

插槽标签的预测取决于周围单词的预测。已经表明，结构化预测模型可以改善插槽填充性能，例如条件随机场（CRF）。Zhou and Xu（2015）通过为BiLSTM编码器添加CRF层来改进语义角色标记。在这里，我们研究了在联合BERT模型的基础上添加CRF来建模插槽标签依赖性的功效。

4 Experiments and Analysis

我们在ATIS和Snips上评估提出的模型。

4.1 Data

ATIS数据集 (Tur et al. ¨ , 2010)被广泛用于NLU研究，其中包括预订航班的录音。我们使用与 Goo et al. (2018)等人相同的数据划分方法进行训练，开发和测试集分别包含4,478、500和893句话。数据集有120个插槽标签和21种意图类型。我们还使用Snips（Coucke等人，2018），该软件是从Snips个人语音助手收集的。训练集，开发集和测试集分别包含13,084、700和700句话。训练集有72个插槽标签和7种意图类型。

4.2 Training Details

我们使用英语无大小写的BERT-Base模型1，该模型具有12层，768维的隐藏状态和12个头。BERT在BooksCorpus(800M words) (Zhu et al., 2015) and EnglishWikipedia (2,500M words).上接受了预培训。为了进行微调，所有超参数都在开发集上进行了微调。最大长度为50。批量大小为128。Adam（Kingma和Ba，2014）用于优化，初始学习率为5e-5。丢弃概率为0.1。最大训练次数选自[1、5、10、20、30、40]。

4.3 Results

表2显示了Snips和ATIS数据集的模型性能，如插槽填充F1，意图分类准确率和句子级语义框架精度。

第一组模型是baseline，由最新的联合意图分类和插槽填充模型组成：使用BiLSTM的基于序列的联合模型（Hakkani-Tur¨等，2016），基于注意力的（Liu and Lane，2016）和插槽门控模型（Goo et al。，2018）。
第二组模型包括我们提出的BERT联合模型。从表2中可以看出，联合BERT模型在两个数据集上均明显优于baseline模型。在Snips上，联合BERT的意图分类准确率达到98.6％（原为97.0％），插槽填充F1为97.0％（原为88.8％）和句子级语义框架准确度为92.8％（原为75.5％）。在ATIS上，联合BERT的意图分类准确率达到了97.5％（原为94.1％），插槽填充F1为96.1％（原为95.2％）以及句子级语义框架准确度为88.2％（原为82.6％）。联合BERT + CRF用CRF取代了softmax分类器，它的性能与BERT相当，这可能是由于Transformer中的自注意机制可能已经对标签结构进行了充分建模。
与ATIS相比，Snips包含多个域，并且词汇量更大。
对于更复杂的Snips数据集，联合BERT在句子级语义框架准确性上获得了很大的提高，从75.5％到92.8％（相对值为22.9％）。考虑到它是对来自不匹配的域和类型（书籍和维基百科）的大规模文本进行预训练的。这表明联合BERT模型具有很强的泛化能力，在ATIS上，联合BERT的句子级语义框架准确性也得到了显着提高，从82.6％提高到88.2％（相对为6.8％）。

4.4 Ablation Analysis and Case Study

我们对Snips进行了消融分析，如表3所示。如果没有联合学习，意图分类的准确度将从98.6％下降到98.0％，槽填充的F1分数从97.0下降到95.8％。我们还将联合BERT模型与不同的微调训练次数进行了比较。仅用1个次数进行微调的联合BERT模型已经优于表2中的第一组模型。我们进一步从Snips中选择一个案例，如表4所示，该案例通过利用BERT的语言表示能力来提高泛化能力，显示联合BERT如何胜过插槽门控模型（Goo等人，2018）。在这种情况下，插槽门控模型错误地预测了“mother joan of the angels”作为对象名称，并且意图也是错误的。但是，联合BERT可以正确预测槽标签和意图，因为“mother joan of the angels”是维基百科中的电影条目。BERT模型已部分在维基上进行了预训练，并且可能通过此稀有短语学习了此信息。

5.结论

我们提出了一种基于BERT的联合意图分类和插槽填充模型，旨在解决传统NLU模型泛化能力差的问题。实验结果表明，我们提出的联合BERT模型优于分别建模意图分类和插槽填充的BERT模型，证明了利用这两个任务之间的关系的有效性。我们提出的联合BERT模型在ATIS和Snips数据集上的意图分类准确率，插槽填充F1和句子级语义框架准确度都比以前的最新模型有了显着提高。未来的工作包括对其他大规模和更复杂的NLU数据集上所提出的方法进行评估，并探索将外部知识与BERT结合的效果。

你可能感兴趣的:(自然语言处理)

Python 向量检索库Faiss使用懒大王爱吃狼 python python 开发语言自动化 Python基础 python教程
Faiss（FacebookAISimilaritySearch）是一个由FacebookAIResearch开发的库，它专门用于高效地搜索和聚类大量向量。Faiss能够在几毫秒内搜索数亿个向量，这使得它非常适合于实现近似最近邻（ANN）搜索，这在许多应用中都非常有用，比如图像检索、推荐系统和自然语言处理。以下是如何使用Faiss的基本步骤和示例：1.安装Faiss首先，你需要安装Faiss。你可
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
文章去除AI味的指令 wirepuller_king AI word技巧人工智能
去AI味指令-1Role:AI文章人性化优化专家Profile:author:wirepullerVersion:5.2.0Language:中文Description:专门优化AI生成文章,使其更接近人类自然写作风格的专家Background:你是一位精通自然语言处理和人类写作风格的专家。你的任务是将AI生成的文章转化为更自然、更有人情味的文章,去除机械化和公式化的痕迹,增加文章的可读性和亲和力
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
探索Astra DB与LangChain的集成：从向量存储到对话历史 eahba 数据库 langchain python
技术背景介绍AstraDB是DataStax推出的一款无服务器的向量数据库，基于ApacheCassandra®构建，并通过易于使用的JSONAPI提供服务。AstraDB的独特之处在于其强大的向量存储能力，这在处理自然语言处理任务时尤为突出。LangChain与AstraDB的集成为开发者提供了强大的工具链，从数据存储到语义缓存，再到自查询检索，帮助简化复杂的数据操作。核心原理解析LangCha
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
知识图谱在人工智能语义理解与推理中的关键作用及发展研究 @王威& 人工智能
摘要本文聚焦知识图谱，深入剖析其在人工智能语义理解与推理中的核心作用。阐述知识图谱的构建原理、表示方法，分析其在自然语言处理、智能问答系统、推荐系统等多领域助力语义理解与推理的应用，探讨面临的挑战并展望未来发展方向，全面呈现知识图谱对人工智能发展的重要价值与深远影响。一、引言在人工智能追求更精准理解和处理人类语言与知识的进程中，知识图谱成为关键技术。它以结构化形式组织海量知识，揭示实体间复杂关系，
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
使用 OpenAI Chat 模型进行对话开发的入门指南 eahba python
技术背景介绍OpenAI的对话模型（ChatOpenAI）为开发者提供了强大的自然语言处理功能，可以实现高度交互的AI应用。这篇文章将帮助您快速入门，了解如何在您的应用中集成和使用这些模型，并探讨不同的功能特性。核心原理解析ChatOpenAI模型是基于OpenAI的GPT家族，能够理解上下文并产生对话式回应。最新版的模型不仅支持标准文本输入输出，还支持工具调用、结构化输出等高级特性，满足多种复杂
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
向量数据库 PieCloudVector 进阶系列丨打造以 LLM 为基础的聊天机器人
本系列前两篇文章深入探讨了PieCloudVector在图片和音频数据上的应用之后，本文将聚焦于文本数据，探索PieCloudVector对于文本数据的向量化处理、存储以及检索，并最终结合LLM打造聊天机器人的全流程。在自然语言处理任务中涉及到大量对文本数据的处理、分析和理解，而向量数据库在其中发挥了重要的作用。本文为《PieCloudVector进阶系列》的第三篇，将为大家介绍如何利用PieCl
【十自然语言处理项目实战】【10.2 数据收集与预处理】再见孙悟空_ #自然语言处理人工智能知识图谱 transformer 自然语言处理数据收集自然语言处理预处理自然语言处理项目
各位在数据泥潭里打滚的勇士们，今天咱们要聊的这个话题，就像学做川菜必须掌握的"火锅底料炒制法"——数据收集与预处理！这玩意儿看着像脏活累活，实则是决定你模型上限的生死关卡。作为一个曾把BERT训成人工智障的老司机，这就把五年掉坑经验熬成一锅十全大补汤！（戴上橡胶手套准备掏数据）一、数据收集的野路子：比盗墓还刺激的冒险1.1公开数据集寻宝图（附藏宝坐标）①正道的光：Kaggle（数据界的沃尔玛）：搜
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
理解并使用基于n-gram重叠的示例选择器 shuoac easyui 前端 javascript python
在AI及自然语言处理任务中，选择与输入最相似的示例可以显著提升生成的质量和上下文相关性。本文将介绍如何使用NGramOverlapExampleSelector工具，通过n-gram重叠来筛选和排序示例，从而帮助实现这一目标。技术背景介绍n-gram重叠技术通过比较输入文本与示例文本在字符或词组上的相似度，计算一个介于0到1之间的分数来表示相似度。这个分数越高，表示文本间的重叠越大。NGramOv
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他