智能问答即给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。与对话系统、对话机器人的交互式对话不同,智能问答具有以下特点:
答案:回答的答案是知识库中的实体或实体关系,或者no-answer(即该问题在KB中找不到答案),当然这里答案不一定唯一,比如 中国的城市有哪些 。而对话系统则回复的是自然语言句子,有时甚至需要考虑上下文语境。评价标准:召回率 (Recall),精确率 (Precision) ,F1-Score。而对话系统的评价标准以人工评价为主,以及BLEU和Perplexity。
知识库问答的主流方法
语义解析(Semantic Parsing):该方法是一种偏linguistic的方法,主体思想是将自然语言转化为一系列形式化的逻辑形式(logic form),通过对逻辑形式进行自底向上的解析,得到一种可以表达整个问题语义的逻辑形式,通过相应的查询语句(类似lambda-Caculus)在知识库中进行查询,从而得出答案。
信息抽取(Information Extraction):该类方法通过提取问题中的实体,通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图,子图中的每一个节点或边都可以作为候选答案,通过观察问题依据某些规则或模板进行信息抽取,得到问题特征向量,建立分类器通过输入问题特征向量对候选答案进行筛选,从而得出最终答案。
向量建模(Vector Modeling): 该方法思想和信息抽取的思想比较接近,根据问题得出候选答案,把问题和候选答案都映射为分布式表达(Distributed Embedding),通过训练数据对该分布式表达进行训练,使得问题和正确答案的向量表达的得分(通常以点乘为形式)尽量高模型训练完成后则可根据候选答案的向量表达和问题表达的得分进行筛选,得出最终答案。
KGB知识图谱现已实现以下功能:1.文档解析:KGB知识图谱引擎,可轻松解析多种格式与版本文档:TXT、DOC、EXCEL、PPT、PDF、XML等。尤其是PDF文件,可直接解析输出为word格式文件,保留文件中表格与文字格式等重要信息。对于图片信息,OCR可自动识别并抽取图片中的文字信息。2. 知识抽取:KGB知识图谱引擎,可从结构化表格与非结构化文本中自适应识别并抽取关键知识(主体、客体、时间、地点、金额、条款等),准确率高达90%,实现知识的快速生成。3、知识关联:KGB知识图谱引擎深入挖掘知识关联,将一个个知识实体链接为具有完整意义的知识事实。并具有强大的知识推理能力,推理出暗含的知识与结论,丰富知识图谱。4、知识较验:KGB知识图谱加工厂能够对知识质量智能校验,包括对多种知识错误与冲突进行自动智能核查与修正,更有知识工程师进行知识精准校验,保证知识图谱的准确性。
在行业应用方面,KGB知识图谱具有以下特色:1、跨领域可扩展:知识图谱加工厂具有通用的图谱构建引擎。知识抽取、知识关联与质量核查过程不依赖特定业务知识,结合用户知识图谱构建的需求,可以快速构建用户领域知识图谱。2、知识质量智能核查:知识图谱加工厂实现对多种知识错误与冲突的智能核查与校验,并对知识库进行实时自动更新,保证知识图谱准确性。3、人机结合的服务:知识图谱加工场人机构成:90%机器+10%的人工,只需要提供语料,就可以快速得到对应的知识图谱构建成果。