CoreJT

对话系统 | (4) 任务型对话系统基础

本篇博客内容主要来自第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿技术讲习班》— 张伟男、车万翔《任务型对话系统》

PPT下载链接

文章目录

1. 任务型对话系统概述
2. 任务型对话系统关键技术

自然语言理解
对话管理

对话状态追踪
对话策略优化

自然语言生成
端到端任务型对话系统

3. 评价方法与评测任务
4. 总结和趋势展望

1. 任务型对话系统概述

人机对话系统四大功能/分类

2. 任务型对话系统关键技术

任务型对话系统结构

自然语言理解

领域与意图识别
是一个分类问题。
语义槽填充
是一个序列标注任务。
研究热点

意图识别与槽填充联合学习
语境相关的自然语言理解
基于小样本学习的自然语言理解

（一）意图识别与槽填充联合学习
1）意图识别与槽填充不是相互独立而是紧密联系的；
2）传统独立的建模意图识别和槽填充，既会引出错误级联，也无法利用共有的知识。
例如:如果这句话意图是 WatchMovie，那么这句话包含的 Slot槽值应该是电影相关而不是音乐相关。

共享编码的双任务学习
Xiaodong Zhang and Houfeng Wang. 《A Joint Model of Intent Determination and Slot Filling for Spoken Language Understanding》 IJCAI2016.
1）首次使用RNN-based (GRU)的方法联合建模意图识别和槽填充任务
2）GRU的每一个时刻出来的向量进行槽填充任务（序列标注）
3）GRU编码句子后通过max- pooling层得到该句的表示进行意图识别
4）通过共享的GRU层来进行两个任务的联合学习，从而隐式的学习两者的关系

序列标注as解码问题
Bing Liu and Ian Lane. 《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》 [Interspeech 2016]
1）首次将Sequence-to-Sequence+Attention的方法用到了联合建模意图识别和槽填充任务上，并达到了2016年的SOTA结果
2）还是采取共享的序列编码Encoder来联合隐式学习两个任务的关系

用意图控制槽填充
Chih-Wen Goo, Guang Gao. et al. 《Slot-Gated Modeling for Joint Slot Filling and Intent Prediction.》 NAACL2018.
1）首次利用Slot-gate 机制来显式的建模了槽填充任务和意图识别任务之间的关系
2）g越大，表示Intent和Slots的关系越大

用意图辅助槽填充
Changliang Li, Liang Li and Ji Qi. 《A Self-Attentive Model with Gate Mechanism for Spoken Language Understanding.》 EMNLP2018.
1）使用Gate机制利用信息来指导槽填充任务的进行，显式的利用了 Intent的信息。
2）首次探索了自注意力机制在该任务上的作用，并取得了好的性能

总结

基于Stack-propagation的联合学习
《A Stack-Propagation Framework with Token-Level Intent Detection for Spoken Language Understanding》 EMNLP2019
1）一种多任务学习框架
2）任务之间有层次依赖关系

（二）语境相关的自然语言理解

任务核心关注点
1）哪些历史对话轮次可以帮助当前轮次对话的理解?
2）这些历史对话对当前对话传递了哪些有用的信息?
联合训练领域识别、意图分类和槽填充
历史对话状态和当前轮次表示经过非线性变换以预测当前轮次领域，意图，槽。
Yangyang Shi et al., 《Contextual Spoken Language Understanding Using Recurrent Neural Networks》, IEEE International Conference on Acoustics, Speech and Signal Processing, 2015
利用端到端记忆网络对历史对话进行表示，学习到的表示作为槽填充模型输入的一部分
Yun-Nung Chen et al., 《End-to-End Memory Networks with Knowledge Carryover for Multi-Turn Spoken Language Understanding》, INTERSPEECH 2016
利用递归神经网络对历史对话进行编码，融合时序信息
输入的历史对话表示与当前对话表示经过前向网络进行融合
Ankur Bapna et al., 《Sequential Dialogue Context Modeling for Spoken Language Understanding》, SIGDIAL 2017
在记忆网络中加入了时间、用户角色注意力机制
Yun-Nung Chen et al., 《Dynamic Time-Aware Attention to Speaker Roles and Contexts for Spoken Language Understanding》, ASRU 2017
在记忆网络中加入了衰退注意力机制
离得越近，影响越大。
Shang-Yu Su et al., 《Learning Time-Decay Attention for Contextual Spoken Language Understanding in Dialogues》, NAACL 2018
将对话逻辑推理和自然语言理解进行多任务学习，对话逻辑推理作为辅助任务帮助学习对话历史更好的表示。
He Bai et al., 《Memory Consolidation for Contextual Spoken Language Understanding with Dialogue Logistic Inference》, ACL 2019

（三）基于小样本学习的自然语言理解

背景
1）深度学习方法很成功，但是需要大量的标注数据
2）人类非常擅长通过极少量的样本识别一个新物体，
比如小孩子只需要少量的图片就可以认识什么是斑马，什么是犀牛。
我们希望模型也可以利用领域外经验和小量样本进行学习
3）真实应用往往需要频繁适应新的领域和新需求
新的领域数据不足；
新的标签类别；
频繁重新训练的开销往往难以接受的

小样本学习(few-shot learning)
小样本学习是专门解决前面提到问题的机器学习分支

K-way N-shot 分类任务
1）支持集(Support Set):K类别，N实例
2）查询集(Query Set):未见类别
方法分类
1）Model相关的方法：设计适用于小样本的模型架构
2）Metric/distance/similarity Based方法：利用样本间距离度量来预测新数据类别
3）Optimization Based方法：学习多任务通用初始化参数或者参数更新方法

小样本学习 - Metric Based方法

背景
1）基于参数学习的方法往往无法避免地会过拟合到小样本上
2）相反，很多非参数化的方法(最近邻、K-近邻、Kmeans)是不需要优化参数的，因此可以避免过拟合
Metric Based 方法
1）对样本间距离分布进行建模，使得同类样本靠近，异类样本远离
2） Metric与类别无关，可以轻松泛化到新的类别和任务上
孪生网络(Siamese Network)
Koch, Gregory, Richard Zemel, and Ruslan Salakhutdinov. 《“Siamese neural networks for one-shot image recognition.”》 ICML 2015.
通过有监督的方法学习两个样本的相似性，在新任务上重用特征提取器以实现小样本分类。
匹配网络(Match Network)
Oriol Vinyals, Charles Blundell, Tim Lillicrap, Daan Wierstra, et al. 《Matching networks for one shot learning.》 Nips 2016.
为支撑集和Query集构建不同的编码器，最终分类器的输出是支撑集样本和 query 之间预测值的加权求和。
原型网络(Prototype Network)
Snell, Jake, Kevin Swersky, and Richard Zemel. 《“Prototypical networks for few-shot learning.” 》Nips 2017.
1）每个类别都存在一个原型表达，该类的原型是 support set 在embedding 空间中的均值。
2）分类问题变成在 embedding 空间中的最近邻。
关联网络 (Relation Network)
Sung, Flood, et al. 《“Learning to compare: Relation network for few-shot learning.”》 CVPR 2018.
用回归的方式直接建模样本距离。

小样本学习 - 对话 & 自然语言处理中的应用

文本分类(意图实别)
Geng R, Li B, Li Y, et al. 《Few-Shot Text Classification with Induction Network》[J]. 2019.
Induction Network；融合了关联网络和原型网络；原型embedding的得到由简单取平均部分换成了胶囊网络的计算。
序列标注(命名实体实别)
Fritzler A, Logacheva V, Kretov M. 《Few-shot classification in named entity recognition task 》ACM/SIGAPP 2019
Prototypical NER Network；
把每个词看成独立的样本；使用原型网络独立地对每个词分类；在目标域学习CRF参数。

基于小样本的语义槽填充
《Few-shot Slot Tagging with Collapsed Dependency Transfer and Label-enhanced Task-adaptive Projection Network》
如何将小样本学习应用于语义槽标注?
典型的序列标注任务:语义槽标签之间互相影响
我们利用CRF模型来建模小样本的序列标注问题
发射概率: 利用metric based方法建模emission score
转移概率: 提出一种回退机制，建模未见标签的转移概率
发射概率:测试集与支持集中词语之间的相似度
使用BERT计算。
转移概率:标签之间的转移概率
1）目标任务或领域标签与原任务不一致
2）回退到BIO标签，在原领域中统计

标注数据的自动扩充
Yutai Hou, Yijia Liu, Wanxiang Che and Ting Liu. 《Data Augmentation for Dialogue Language Understanding.》 COLING 2018.

动机
1）对话技术平台需要用户上传大量的标注数据
2）能否帮助用户自动扩充标注数据，减小标注工作量?
模型
Seq2Seq模型；相似的训练数据构成“复述”对
样例

对话管理

对话状态追踪

什么是对话状态？
对话状态是人机对话过程中，用户目标(Goal)的达成状态。

什么是对话状态追踪？
对话状态追踪即对话状态估计
例子中对话状态挺明确的，为什么对话状态需要估计?

传统的对话状态追踪方法
Young S , Ga?I? M , Keizer S , et al. 《The Hidden Information State model: A practical framework for POMDP- based spoken dialogue management[J].》 Computer Speech and Language, 2010, 24(2):150-174.
Markov Decision Process (MDP)的方法

Partially Observed MDP (POMDP)的方法


基于深度神经网络的对话状态追踪
多层感知机用于估计和表示对话状态
M. Henderson, B. Thomson and S. Young (2013). 《“Deep Neural Network Approach for the Dialog State Tracking Challenge.”》 SigDial 13, Metz, France.

基于循环神经网络的对话状态追踪
M. Henderson, B. Thomson and S. Young (2014). “Word-Based Dialog State Tracking with Recurrent Neural Networks.” SigDial 2014, Philadelphia, PA.
利用RNN建模对话状态分布；同时建模Slot之间的关联和对话历史

优点：1）n-gram特征；2）slots之间关联；3）对slot保留value 的分布；4）能够通过泛化来处理未见实例。
缺点：1）单一领域；2）仍然需要特征工程。

多领域对话状态追踪
N. Mrksic, D. O’Seaghdha, B. Thomson, M. Gasic, P-H. Su, D. Vandyke, T-H. Wen and S. Young (2015). 《“Multi-domain Dialog State Tracking using Recurrent Neural Networks.”》 ACL 2015, Beijing.
利用非词表示的特征进行不同领域的迁移学习；
尽管非词表示(Delexicalized)的特征相同，但特定slot模型对相同特征的权重不同。

优点：1）Lexical+Delexical特征；2）层次化训练实现多领域对话状态追踪
缺点：1）仅在RNN基础上的多阶段训练，严重依赖特征；2）人工定义词汇特征，应对用户不同的表达方式。

数据驱动的神经置信追踪
N. Mrksic, D. O Seaghdha, T.-H. Wen, B. Thomson and S. Young (2017). 《“Neural Belief Tracker: Data-Driven Dialogue State Tracking.”》 ACL 2017, Vancouver, Canada

动机
人工构造的表达slot-value的词典用来匹配用户输入的语义，从而得到slot级别的对话状态表示。
借助分布式语义表示学习的优势
无需借助人工构造的词典；语义表示更精确、匹配效果更好。
NBT有什么问题？
句子级的Slot-value对形式的对话状态表示，没有考虑对话历史的置信状态信息；
整体的置信状态更新，采用启发式的方式。

完全可统计学习的NBT
Mrkšić, Nikola, and Ivan Vulić. 《“Fully Statistical Neural Belief Tracking.”》 Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2018.
基于学习的置信更新机制
考虑到对话历史轮次(比如上一轮)的全部slot-value对的置信状态分布；可学习 v.s. 启发式
不同领域的槽值可以共享信息
Ramadan, Osman, et al. 《“Large-Scale Multi-Domain Belief Tracking with Knowledge Sharing.”》 In Proc. of ACL 2018.
比如机票、火车票、船票等领域可能共享地点、时间等槽；
能否计算领域无关的槽-值联合概率?
由二元组的二分类变为三元组二分类。

可迁移的对话状态跟踪
Chien-Sheng Wu, et al. 《Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems》 (ACL 2019)
动机
工业上，往往只可以得到包含槽类型的API，具体的槽值往往是不得而知的。
已有方法假设Ontology存在，但是面临实践中槽值太多，模型太大的问题。
模型无法部署到不同的ontology的domain中。
方法
采用带copy机制生成的方式来预测语义槽值(value)。
使用了Slot gate来判断槽当前是:有效 or 未提及 or 不关心。

跨语言对话状态追踪
Chen, Wenhu, et al. 《“XL-NBT: A Cross-lingual Neural Belief Tracking Framework.”》 In Proc. of EMNLP 2018.
目标语言无训练数据。
对训练目标进行分解。
利用双语语料和双语词典从源语言迁移。

对话状态追踪：小结

对话策略优化

什么是对话策略？

基于规则的对话策略

MIT-ATIS对话系统状态控制流程
对话动作与对话状态绑定成特定序列；
对话策略以对话状态的入栈/出栈的形式配以相应的对话动作实现。

优势：特定领域中效果较好，系统稳定；
劣势：动作序列相对固定；算法与对话过程绑定，修改算法即修改对话过程；无法应对规定动作外的用户输入。

基于有限状态自动机的对话策略

基于表格（Form）的对话策略
E-Form是Semantic Frame的一种表示形式。

基于脚本的对话策略

MIT Galaxy II系统
基于脚本语言实现对话流的控制；对话流即对话动作序列。
优势：任务扩展方便；多层对话管理机制逻辑清晰
劣势：手工定义规则；对话流控制需要预设，对话控制不够灵活

上述对话策略的特点总结

对话动作之间独立或局部依赖
不对整体的对话动作序列进行建模
对话策略的输出仅是下一个动作

基于规划的对话策略

规划(Planning):通过创建一个动作序列来实现某个目标的求解方法，并尝试预测执行该规划的效果 (Wasson, 1990)。
层次化规划方法

以上方法存在的问题
对系统错误敏感，鲁棒性差
对话策略相对固定，灵活度不够
策略和任务绑定，很难在任务间迁移

概率对话管理模型

强化学习与对话管理的对应关系

Human-in-the-loop
用户参与到对话过程中，产生反馈信号(用户对于对话的评价)，帮助训练模型。
对话奖励函数
任务型对话的目标是使用尽可能少的轮次完成用户任务。
对话成功将被赋予较高的奖励(依赖于预设对话轮次目标)。
利用概率模型建模对话管理
假设:下一轮的对话动作和状态仅依赖当前的对话状态
MDP基本要素



为什么对话策略需要优化？
对话的状态-动作(State-action)空间非常大!
精确估计状态间的转移函数非常难!

基于动态规划的对话策略优化
基本思想
对于一个给定的初始对话策略，扫描整个对话状态-动作空间，从而递归地估计值函数；
当值函数被计算出来之后，更新初始对话策略为当前对话策略；
重复此过程直至收敛。
典型算法

基于采样的对话策略优化
动机
尽管基于DP的对话策略优化方法可以通过缩小状态空间表示来缓解对话状态-动作的空间，然而其基本假设仍然是搜索整个状态空间；
基于采样的方法可以只关注最优和近似最优对话所对应的状态序列，无需对整个状态空间的探索即可建模对话状态的转移。
采样方法的过程
Q函数更新

以上方法总结
DP算法能够探索整个对话状态-动作空间，理论上能够得到全局最优解，但速度慢
采样方法通过搜索最优对话状态序列实现对话状态的转移建模，求解速度快，但不保证全局最优
采样方法在实际应用中需要多次采样对话状态转移序列，而理论上有真实用户参与的在线学习方式，在实际中并不“实际”

基于用户模拟器的对话策略学习

动机
通过用户在线学习对话策略，成本极高；
模拟用户行为进行对话状态-动作空间的探索；
探索范围大，试错成本低。

对话策略优化前沿进展

对话策略优化的方向
更简单的对话策略；
更优的Q函数学习；
更客观的奖励函数；
更真实的对话模拟。

神经网络框架下的对话管理
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200813105400505.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkdV9oYW8=,size_16,color_FFFFFF,t_70#pic_center #pic_center =400x)
深度Q值网络：DQN

利用深度神经网络近似计算Q函数
常用的简单有效的深度神经网络为多层感知机(MLP)；
对话策略的学习形式为前馈全连接网络，从而变得更加简单。

奖励函数学习

已有对话奖励的特点
对话成功奖励，忽略对话过程的重要性；
真实的、高质量的用户反馈很难获取。

Human-in-the-loop的用户模拟器

自然语言生成

从对话动作到自然语言语句的映射
自然语言生成的主要步骤
1）文本规划:生成句子的语义帧序列
2）句子规划:生成关键词、句法等结构信息
3）表层规划:生成辅助词及完整的句子

基于模版的自然语言生成

人人都能想到的方法
特点:简单、机械、成本高，有多少人工就有多少智能

基于规划的自然语言生成

流水线式规划生成自然语言语句
Rambow, Owen, Srinivas Bangalore, and Marilyn Walker. 《“Natural language generation in dialog systems.” Proceedings of the first international conference on Human language technology research.》 Association for Computational Linguistics, 2001.

基于统计学习的自然语言生成
Oh, Alice H., and Alexander I. Rudnicky. 《“Stochastic natural language generation for spoken dialog systems.”》 Computer Speech & Language 16.3-4 (2002): 387-407.

基于神经网络的自然语言生成
基于RNN语言模型的自然语言生成
T-H. Wen, M. Gasic, D. Kim, N. Mrksic, P-H. Su, D. Vandyke and S. Young (2015). 《“Stochastic Language Generation in Dialogue using Recurrent Neural Networks with Convolutional Sentence Reranking.”》 Sigdial 2015, Prague, Cz.
基于LSTM语言模型的自然语言生成
T-H. Wen, M. Gasic, N. Mrksic, P-H. Su, D. Vandyke and S. Young (2015). <“Semantically Conditioned LSTM-based Natural Language Generation for Spoken Dialogue Systems.”> EMNLP 2015, Lisbon, Portugal.

端到端任务型对话系统

端到端生成式对话模型

基于层次化循环神经网络的编码解码模型
Serban, Iulian V., et al. 《“Building end-to-end dialogue systems using generative hierarchical neural network models.”》 Thirtieth AAAI Conference on Artificial Intelligence. 2016.
1） EncoderRNN编码对话历史句子(Intra utterance)
2）句子内使用双向RNN建模句子语义表示(Inner utterance)

基于神经网络的端到端任务型对话模型
Wen, Tsung-Hsien, et al. 《“A network-based end-to-end trainable task-oriented dialogue system.”》 arXiv preprint arXiv:1604.04562 (2016).
模型特点

基于强化学习的端到端任务型对话
Li, Xiujun, et al. 《“End-to-end task-completion neural dialogue systems.”》 arXiv preprint arXiv:1703.01008 (2017).
端到端的强化学习训练
各个部分是独立的NN模型

端到端任务型对话系统总结
任务型对话系统的基本框架没有变
利用神经网络代替人工经验和干预的部分
每个模块(Modular)统计化、学习化
模块之间的联系仍然存在且重要
完全端到端的任务型对话系统目前不存在(?)

3. 评价方法与评测任务

任务型对话系统的评价

任务型对话系统的整体评价指标

NLU的评价

DM的评价

对话状态追踪
单轮对话句子的动作识别；
多轮对话片段的状态信息识别，例如:主题、对话行为、对话类型等
对话策略优化
对话成功率；对话奖励函数评价

NLG的评价

4. 总结和趋势展望

总结
展望

使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【大模型技术】基于通义千问（Qwen）实现对话系统大数据追光猿大模型 python 人工智能学习方法语言模型
一、项目背景与目标目标：构建一个支持多轮对话的对话系统。实现上下文管理，确保对话历史能够被正确记录并影响后续回答。使用Qwen提供的API生成自然语言回复。核心功能：多轮对话：用户可以连续提问，系统根据上下文生成连贯的回答。上下文管理：通过维护对话历史，确保模型理解用户的意图。灵活性：支持自定义提示模板和外部数据源。技术栈：QwenAPI：用于生成自然语言回复。Python：编程语言。二、实现步骤
【基于KG的大模型对话系统（fastapi）完整可上手】放飞自我的Coder python fastapi kg
以下是一个使用FastAPI搭建的基于知识图谱的大模型对话系统的示例代码。该系统包括：FastAPI服务器：提供RESTfulAPI。知识图谱：使用Neo4j作为存储和查询引擎。大模型：利用OpenAIGPT进行自然语言处理。查询解析：将用户输入解析为知识图谱查询，并结合LLM生成回答。主要功能：解析用户输入：检查用户输入是否包含知识图谱查询内容。执行Cypher查询：如果用户问题涉及知识图谱，向
推荐开源项目：EXP Godot 对话系统 v1.2.0 田桥桑Industrious
推荐开源项目：EXPGodot对话系统v1.2.0Godot-Dialog-SystemADialogSystemAddonfortheGodotEngine.项目地址:https://gitcode.com/gh_mirrors/go/Godot-Dialog-System上帝之城的创作者们，欢迎探索EXPGodotDialogSystem——一个专为Godot3.2稳定版打造的对话管理系统，由
Godot 对话管理器教程陆汝萱
Godot对话管理器教程godot_dialogue_managerApowerfulnonlineardialoguesystemforGodot项目地址:https://gitcode.com/gh_mirrors/go/godot_dialogue_manager1.项目介绍Godot对话管理器是一个专为Godot游戏引擎设计的插件，它提供了编辑器和运行时支持，帮助你构建分支型对话系统。这个
Godot对话系统教程孔岱怀
Godot对话系统教程Godot-Dialog-SystemADialogSystemAddonfortheGodotEngine.项目地址:https://gitcode.com/gh_mirrors/go/Godot-Dialog-System项目介绍Godot对话系统是一个为Godot引擎设计的开源对话管理插件，旨在简化游戏中非线性对话的创建和管理。该项目由EXPWorlds团队开发，提供了
大模型——Spring Boot 整合 Spring AI 实现项目接入ChatGPT 不二人生大模型人工智能大模型
大模型——SpringBoot整合SpringAI实现项目接入ChatGPT随着人工智能技术的快速发展，越来越多的应用程序开始集成人工智能功能，以提供更智能、更个性化的体验。诸如ChatGPT等开放性大型语言模型的出现，使得自然语言处理和对话系统的开发变得更加容易和普及。这些技术已经在社交媒体、客户服务、教育等领域展现出巨大潜力，对于提升用户体验和提高工作效率至关重要。优势在之前，openai已经
Transformer 工作原理图文详解和实践：在生成式对话系统中的核心技术剖析 AI天才研究院 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
https://www.youtube.com/watch?v=wjZofJX0v4M&t=33sTransformer在生成式对话系统中的核心技术剖析作者：禅与计算机程序设计艺术文章目录Transformer在生成式对话系统中的核心技术剖析1.背景介绍2.核心概念与联系2.1生成式对话系统2.2Transformer模型3.核心算法原理和具体操作步骤3.1Transformer编码器3.2Tra
【智能客服】智能客服的核心技术-对话系统姚瑞南智能客服人工智能自然语言处理 chatgpt
目录一、基本概念二、对话系统的应用场景三、对话系统的常见构建方式四、一般架构AutomaticSpeechRecognition(ASR)NaturalLanguageUnderstanding(NLU)DialogueManagement(DM)NaturalLanguageGeneration(NLG)基于模板基于统计一、基本概念对话系统：与真人进行对话的系统。这里首先用案例介绍一下对话系统的
LLM OS 系统架构详细设计 AI天才研究院 AI大模型企业级应用开发实战系统架构
LLMOS系统架构详细设计1.背景介绍近年来，大型语言模型（LargeLanguageModel,LLM）取得了飞速发展，在自然语言处理、对话系统、文本生成等领域展现出卓越的性能。然而，现有的LLM系统架构仍然存在诸多局限性，例如可扩展性不足、资源利用率低下、缺乏灵活的应用开发支持等。为了充分发挥LLM的潜力，迫切需要一个高效、灵活、易用的LLM操作系统（OperatingSystem,OS）。本
【llm对话系统】 LLM 大模型推理python实现：vLLM 框架 kakaZhui 人工智能 AIGC chatgpt python llama
在LLM的应用中，推理(Inference)阶段至关重要。它指的是利用训练好的LLM模型，根据输入(Prompt)生成文本的过程。然而，LLM的推理速度往往较慢，尤其是在处理长序列或高并发请求时，效率瓶颈尤为突出。为了解决这个问题，vLLM应运而生！vLLM是一个专为LLM设计的高吞吐、低延迟的推理和服务引擎，它能够显著提升LLM的推理速度，让你的应用如虎添翼！今天，我们就来一起探索vLLM的奥秘
阿里云PAI大模型RAG对话系统最佳实践阿里云云栖号云栖号技术分享阿里云云计算云原生 ai 人工智能
去年4月至9月，阿里云人工智能平台PAI团队与大数据基础工程技术团队合作，构建了基于知识库检索增强的大模型答疑对话机器人，并在阿里云官方答疑链路、研发小蜜、钉钉大数据技术服务助手等多个线上场景上线，显著提升答疑效率。相关文档：【万字长文】基于阿里云PAI搭建知识库向量检索增强的大模型对话系统上线几个月来，随着RAG技术日趋火热，我们保持对线上链路的迭代，不断加入学界业界最新的RAG优化技术（eg:
Bedrock Claude Chat: 基于AWS Bedrock和Claude的智能聊天机器人 2401_87458778 aws 机器人云计算
BedrockClaudeChat:智能聊天的新选择在人工智能和自然语言处理技术飞速发展的今天，智能聊天机器人正在各行各业得到广泛应用。AWS推出的BedrockClaudeChat项目为开发者提供了一个强大而灵活的聊天机器人解决方案，让构建智能对话系统变得前所未有的简单。项目概述BedrockClaudeChat是一个基于AmazonBedrock平台和Anthropic公司Claude大语言模
【llm对话系统】大模型源码分析之 LLaMA 模型的 Masked Attention kakaZhui llama 人工智能 AIGC chatgpt python
在大型语言模型（LLM）中，注意力机制（AttentionMechanism）是核心组成部分。然而，在自回归（autoregressive）模型中，例如LLaMA，我们需要对注意力进行屏蔽（Masking），以防止模型“偷看”未来的信息。本文将深入探讨LLaMA模型中MaskedAttention的实现逻辑，并对比其他类型大模型中常用的MaskedAttention方案。1.什么是MaskedAt
饿了么算法工程师-AIGC岗内推飞300 AIGC 业界资讯
1、紧跟业界最新自然语言处理技术动态，深入研发并努力创新，特别是在LLM、多模态理解和LLMAgent领域。2、基于大型语言模型开展文本生成、自然语言理解以及智能对话系统的研发，提出新颖的算法/模型，并进行实际开发和应用。3、探索多模态数据的结合，包括图像、文本、语音等，以丰富智能系统的理解和交互能力。4、将自然语言处理技术与具体业务场景相结合，考虑业务的特殊性并适配业务需求。参与到具体的NLP相
AI产品怎样才能打造出像人类一样聪明和有情商？ AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型 AI实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介随着人工智能技术的飞速发展、算法能力的不断增强、数据集的积累、计算设备的普及，人工智能已经成为各个行业、各个领域的重要突破性技术。然而，面对这一技术带来的巨大变革，如何为用户提供更加人性化的服务，并让人工智能模型对用户输入做出智能回应，则成为了一个长期且艰难的挑战。今天，我们将讨论一些常见的人机交互相关的问题，如语言模型、对话系统、生成模型等，并从中可以窥视到人
最全中文对话数据集（不定期更新）数据猎手小k 人工智能大数据
随着人工智能技术的发展，自然语言处理（NLP）领域中的对话系统逐渐成为研究的热点。为了提升对话系统的性能，需要大量的高质量对话数据来训练和优化模型。然而，中文对话数据相对于英文来说较为稀缺，且质量参差不齐，这限制了中文对话系统的发展。因此，构建大规模、高质量的中文对话数据集成为了一个迫切的需求。一、研究意义1、推动中文NLP发展：大规模高质量的中文对话数据集能够为中文自然语言处理领域的研究提供基础
DeepSeek API是什么兔兔爱学习兔兔爱学习大模型 python prompt 算法
DeepSeekAPI是一个提供人工智能服务的接口，它允许开发者通过简单的API调用来实现各种高级的自然语言处理（NLP）任务，如文本生成、对话系统、文本摘要、问答系统等。DeepSeekAPI通常基于先进的大模型，如Transformer架构的模型，提供了强大的语言理解和生成能力。DeepSeekAPI的特点易于集成：开发者可以通过简单的HTTP请求调用API，无需深入了解底层模型的具体实现。高
如何通过提示词更好地利用AI lally. 人工智能
如何通过提示词工程释放AI的全部潜力：7个深度优化技巧前言：为什么提示词决定AI的输出质量？在人工智能对话系统的使用中，提示词（Prompt）就像开启宝藏的密码钥匙。研究表明，优化后的提示词可使输出质量提升300%（AIResearchLab,2023）。本指南将系统解析提示词设计的核心方法论，并提供可直接复用的模板库。一、基础构建：打造高效提示词的4大支柱1.1精准目标定位术原理分析：模糊指令导
python中轻量级 LLM 应用开发框架 Promptic 如何有效进行对话管理？大懒猫软件 python prompt llama redis
使用Promptic进行对话管理是一个高效且灵活的过程，它通过装饰器模式、动态提示生成、状态管理等功能，帮助开发者快速构建基于LLM的对话系统。以下是详细的全过程分析：1.安装Promptic首先，需要通过pip安装Promptic：bash复制pipinstallpromptic2.基本用法Promptic使用@llm装饰器将普通函数转换为由LLM驱动的函数。函数的文档字符串将作为提示模板，与函
知识图谱的作用及其更新方式甜瓜瓜哥面试人工智能知识图谱人工智能
知识图谱的作用及其更新方式简介作用1.语义理解和推理2.信息检索3.推荐系统4.自然语言处理5.智能对话系统更新知识图谱的过程1.数据收集2.数据清洗和处理3.知识抽取4.知识融合5.验证和评估6.部署和应用总结简介知识图谱是一种以图形结构表示知识的方法，它包含了实体（如人物、地点、事物）以及它们之间的关系。知识图谱可以用于帮助计算机理解和处理自然语言，进行信息检索，进行推荐系统等多种应用。作用1
从零开始部署DeepSeek：基于Ollama+Flask的本地化AI对话系统 arbboter flask 人工智能 python ollama deepseek
从零开始部署DeepSeek：基于Ollama+Flask的本地化AI对话系统一、部署背景与工具选型在AI大模型遍地开花的2025年，DeepSeekR1凭借其出色的推理能力和开源特性成为开发者首选。本文将以零基础视角，通过以下工具链实现本地化部署：1.Ollama：轻量级模型管理工具，支持一键拉取、运行模型Ollama是一个功能强大的大语言模型管理端，专为下载、运行和调用大型语言模型（如Deep
Decoder-Only、Encoder-Only、Encoder-Decoder 区别会喘气的粽子丶 nlp 人工智能
Decoder-Only、Encoder-Only和Encoder-Decoder是三种常见的神经网络架构，主要用于自然语言处理（NLP）任务。它们在结构和应用上有显著的区别。1.Decoder-Only架构描述：仅包含解码器部分，没有编码器。应用：通常用于生成任务，如语言模型和对话系统。代表模型：GPT（GenerativePre-trainedTransformer）特点：自回归生成：模型通过
使用Python中的LangChain库优化消息长度：从聊天历史到模型性能的全面指南 m0_57781768 python langchain easyui
使用Python中的LangChain库优化消息长度：从聊天历史到模型性能的全面指南在现代人工智能应用中，大语言模型（LLM）扮演着越来越重要的角色，尤其是在对话系统、智能助理和其他自然语言处理任务中。然而，所有的模型都有一个有限的上下文窗口，意味着它们可以处理的输入令牌（tokens）数量是有限的。当我们需要处理较长的对话历史或复杂的任务链时，如何管理传递给模型的消息长度变得至关重要。在这篇文章
基于医疗知识图谱的问答系统基于知识图谱的多轮问答附完整代码数据详细教程计算机毕设论文深度学习-自然语言处理nlp 医疗知识知识图谱 Neo4j 多轮问答
这个项目已实现的功能：1.闲聊类的单论对话2.基于知识图谱的多轮问答数据链接：链接：https://pan.baidu.com/s/1oPr1m8aaIeoMu53OIEULPg提取码：fh39一、项目来源由于之前用Rasa构建过对话系统，因此一直想脱离Rasa这个开源框架，从底层开始构建一个可以实现相似功能的对话系统，毕竟框架用的再溜，都不如自己做一遍。恰巧在Rasa群里看到了前辈分享的一个项目
《AI对话秘籍：5个Prompt Engineering核心技巧让DeepSeek输出质量翻倍》 Athena-H Prompt Engineering 人工智能 prompt chatgpt gpt ai
引言随着自然语言处理技术的飞速发展，像ChatGPT这样的AI对话系统已经广泛应用于客服、教育、创作等多个领域。然而，如何高效地与这些语言模型进行交互，获得准确、相关且高质量的回复，成为了应用中的一个关键挑战。这时，PromptEngineering（提示词工程）便成为了一项必不可少的技能。PromptEngineering的核心目标是通过优化与模型的输入互动方式，让模型生成更加符合预期的输出。在
私有AI对话系统实战：基于Ollama+OpenWebUI的DeepSeek-R1本地化部署手把手教学（可共享访问） Developer-YC DeekSeek-R1 大模型解读与实战教学人工智能 python java github node.js 语言模型后端
引言：为什么选择本地部署大模型？在数据隐私日益重要的今天，云端AI服务的局限性逐渐显现——敏感信息泄露风险、网络延迟依赖、定制化能力不足。而通过**Ollama（模型管理框架）和OpenWebUI（可视化交互工具）**的组合，开发者可以轻松实现大模型（如DeepSeek-R1）的本地部署，兼顾性能与安全。本文将以DeepSeek-R1为例，详解从环境配置到实战应用的全流程。一、工具与模型简介1.O
使用SparkLLM实现智能聊天：技术原理与实战演示 shuoac java
在本篇文章中，我们将探讨如何使用iFlyTek的SparkLLM模型来实现智能聊天功能。我们将详细介绍SparkLLM的技术背景、核心原理，并通过实际代码展示如何进行实现。另外，还会分析应用场景并给出一些实践建议。技术背景介绍SparkLLM是由iFlyTek提供的一种强大的语言模型，支持多种语言生成任务。它能够理解并生成自然语言，适用于对话系统、内容生成、智能客服等场景。核心原理解析SparkL
AI对接之多轮对话对接指南我码玄黄 AI 探索 AI 工具教你一招人工智能 ai AIGC Python
AI对接之多轮对话对接指南前言本系列AI的API对接均以DeepSeek为例，其他大模型的对接方式类似。在人工智能领域，多轮对话系统是模拟人类自然对话流程的关键技术之一。DeepSeekAPI提供的/chat/completions接口允许开发者实现无状态的多轮对话功能，这意味着每次请求都需要包含之前所有的对话历史。以下是对接AI多轮对话的指南和几种典型的使用形式。对接指南初始化API客户端：首先
【LangChain编程：从入门到实践】构建记忆系统杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
【LangChain编程：从入门到实践】构建记忆系统关键词：LangChain,编程范式,记忆系统,对话系统,AI,NLP,知识库,推理1.背景介绍在人工智能领域，对话系统的研究与应用已经取得了显著的进展。然而，大多数对话系统都面临着一个问题：它们缺乏持久的记忆能力。这意味着每次对话结束后，系统几乎会忘记之前的信息，导致对话体验不连贯，甚至会出现逻辑错误。LangChain是一种新兴的编程范式，它
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite