在Rasa项目中,NLU管道定义了将非结构化用户消息转换为意图和实体的处理步骤。它由一系列组件组成,可以由开发人员配置和定制,Rasa 3.0 在训练期间的计算框架表示为一个有向图DAG.
NLU管道在config.yml配置中定义,描述了管道中的所有步骤,这些步骤将被Rasa用来检测意图和实体。它以文本作为输入,并不断解析,将实体和意图作为输出。
在管道中可以找到不同类型的组件。主要有:
在讨论它们如何相互交互之前,我们将讨论这些类型的组件的作用。
分词器
第一步是将话语分解成更小的文本块,即标记。这必须发生在将文本作为机器学习的特征之前,这就是为什么你通常会在管道的开头列出一个标记器。
分词器的细节
一些标记器向标记中添加额外的信息。例如,spaCy还能够生成标记的词形特征,这些标记可以被CountVectorizer使用。
分词器将语句中的每个单词分割成一个单独的标记,输出是单词列表。根据标记器和传递的设置,我们还可以为标点获得单独的标记。
对于英语,我们通常使用WhiteSpaceTokenizer,但对于非英语,通常可以选择其他方法。对于非英语的欧洲语言来说,SpaCy是一个不错的选择,但Rasa也支持中文的Jieba。
分词器并不更改底层的文本,它们只是将文本分隔成标记。
Rasa官网链接: https://rasa.com/docs/rasa/
Gavin大咖课程信息分享:
NLP 高手之路101课(模型、算法、论文、源码、案例 + 1年答疑)
Rasa 3.x 源码高手之路:系统架构、内核算法、源码实现详解
星空智能对话机器人创始人、AI通用双线思考法作者,现工作于硅谷顶级的AI实验室。专精于Conversational AI. 在美国曾先后工作于硅谷最顶级的机器学习和人工智能实验室
Gavin大咖微信:NLP_Matrix_Space
联系电话:+1 650-603-1290
联系邮箱:[email protected]
助教老师微信:Spark_AI_NLP
博客链接:https://blog.csdn.net/duan_zhihua
作者参与Gavin大咖主编出版Spark系列图书5本,清华大学出版社最新出版2本新书《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版、《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》,累计原创博客1475篇,涵盖大数据、人工智能、智能对话机器人等内容,博客阅读量达217万次。
Gavin大咖课程信息分享
课程名称:Rasa 3.x 源码高手之路:系统架构、内核算法、源码实现详解
课程介绍:
Rasa是Conversational AI在智能业务对话领域工程落地全球最为成功对话机器人系统,是基于Transformer架构的全球使用最广泛的智能业务对话机器人框架,是NLP技术的集大成者。在当今全球范围各项对比指标综合成绩中,Rasa均处于领先地位:
本课程致力于彻底解密Rasa 3.x系统架构、内核算法、知识图谱及源码实现:
具体来说,该系统课程是以下五大课程的合集:
课程通过这五大阶段内容,按照循序渐进的学习方式,帮助学员彻底精通Rasa新一代内核架构、算法内幕及源码实现。
课程答疑:
课程提供配套的视频、代码及资料,购买后联系Gavin获得代码及辅助资料。
课程提供1年的技术答疑服务,Gavin老师负责所有课程技术问题的答疑及代码服务。
课程试听:
代理模式下的Rasa微服务Form共1288行源码架构设计及源码逐行解析
1,Action类型的FormAction和LoopAction类型的FormAction区别与联系分析
2,Rasa微服务接口interfaces.py共370行源码逐行解析
3,Rasa SDK中的forms.py共918行源文件逐行解析
课程详情:
*************************************************************************************
阶段1:业务对话机器人Rasa 3.x Internals内幕详解及Rasa框架定制实战
*************************************************************************************
以Rasa 3.x提出的全新一代Graph Computational Backend为核心,从Rasa版本迭代中的Milestones出发来完全解密“One Graph to Rule Them All”背后的技术衍化过程及根本原因,然后以GraphComponent为核心解密其架构内幕机制和运行流程,并抽丝剥茧的剖析自定义Rasa Open Source平台的接口实现、组件源码、组件注册及使用的每一个步骤,最后用一个完整的案例来做示例,并透过Rasa的核心TED Policy近2130行源码剖析及DIET近1825行源码剖析,让学习者不仅有定制Rasa框架能力,更有大量源码鉴赏的能力及高级的对话系统架构设计思维。
第1课:Rasa 3.x Internals解密之Retrieval Model剖析