FAQ问答机器人背景调研

问答系统背景介绍

问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎,问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用户的信息需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。

问答系统分类:

从发展历史看来,问答系统的发展历程可以简单概括为:基于结构化数据的问答系统基于自由文本的问答系统基于问题答案对的问答系统三个阶段。(参见:https://lilianlw.github.io/2019/01/20/)

  • 基于结构化数据的问答系统

早期由于智能技术及数据获取的局限性,问答系统主要是面向限定领域,该时期的问答系统处理的数据类型是简单且高度结构化的数据,系统一般将输入问题转化为数据库查询语句,通过数据库的检索返回答案。

  • 基于自由文本的问答系统

问答系统对知识数据的组织形式要求越严格,说明需要的“人工”越多,那么系统的“智能”程度就越低。随着互联网的飞速发展以及信息检索技术的兴起,90年代问答系统进入面向开放领域,基于自由文本数据的发展时期。这种问答系统的处理流程主要包括:问题分析、文档检索及段落划分、候选答案抽取、答案排序、答案验证等。

  • 基于问题答案对的问答系统

基于问题答案对的问答系统主要涉及CQA(community question answering)与FAQ(Frequently asked questions)两种类型。网络上出现的社区问答(community question answering, CQA)提供了大规模的用户交互衍生的问题答案对(question-answer pair, QA pair)数据,为基于问答对的问答系统提供了稳定可靠的问答数据来源。与CQA相比,FAQ具有限定领域、质量高、组织好等优点,使得系统回答问题的水平大大提高。但FAQ的获取成本高,这个缺点又制约了基于FAQ的问答系统的应用范围。

在诸多类型的问答系统中,旨在“负责任”地准确解决用户问题有FAQ检索型、任务型、知识图谱型以及文档型。显然,除了文档型机器人,其他类型的对话机器人都需要不同程度的数据组织,来辅助计算机理解和回答用户问题。其中,FAQ检索型需要整理问题答案对知识图谱型需要整理知识关系网络任务型需要任务场景和槽位的定制。从算法角度来看,知识的质量、结构化程度越高,问答系统的效果才越好,才越“智能”。但对知识的组织程度要求越高,就需要越多的“人工”,应用落地的成本则越大。

深度学习方法的应用

这部分可以直接参考*“基于深度学习的FAQ问答系统”, *链接https://cloud.tencent.com/developer/article/1196826。

评测方法有哪些?

有了上面的模型架构之后,我们要考虑的就是怎么样来训练这个模型。由于我们在用模型做预测的时候,需要从我们的答案库中搜索到最相关的问题答案,涉及到一个“比较”的问题,所以我想要尝试hinge loss。(来自褚老师)

数据集有哪些?

https://github.com/SophonPlus/ChineseNlpCorpus

时间关系,这段背景调研比较粗糙,那就未完待续吧…

参考资料

1、【浅谈文档型问答系统】(一) 从问答系统说起 https://lilianlw.github.io/2019/01/20/

2、基于深度学习的FAQ问答系统 https://cloud.tencent.com/developer/article/1196826

3、智能客服FAQ问答任务的技术选型探讨 https://zhuanlan.zhihu.com/p/50799128

你可能感兴趣的:(自然语言处理NLP,自然语言处理)