论文笔记(2)

基于常用问题集的问答系统的设计与实现
张 梅 段建勇
北方工业大学信息工程学院 北京 100144
2011年的论文

这个文章构建的问答系统主要包括两个模块:问句索引模块和问句检索模块

一、问句索引模块

首先将抽取FAQ中的每一个问句,进行分词和词性标注,然后经过停用词处理,去掉那些无关的词语,对剩下的关键词进行语义标注(浅层语义理解),然后按照关键词进行索引。
1. 分词和词性标注使用的是中国科学院计算技术研究所的汉语词法分析系统,然后增加了作者编制的领域主题词库,并使领域主题词库具有更高的匹配优先级。
2. 语义标注主要对疑问词和关键词进行标注,对于疑问词直接根据作者编制的包含68个疑问词的疑问词表自动标注。关键词标注又根据本文构建的包含的1341记录的语义映射知识库进行语义标注。
这样就实现了问句的半结构化表示,再与答案相关联,为语义检索提供支持。标注结果采用DOM树存储,首先为主题关键词创建实体,再为各个主题关键词添加属性节点代表其语义信息,并为每个语义信息添加相关答案,存储形式为XML形式。
为了支持向量形式的检索 , 在对问句停用词处理后 ,即可提取出每个问句的主题关键词 ,建立倒排索引表 ,最终构建索引库

二、问句检索模块

建立问句索引库之后,当用户输入提问时,进行分词和词性标注,去除停用词,保留问句中的名词,动词,形容词等关键词,然后与FAQ索引库进行相似度计算。首先用基于特征向量的方法,如果低于阈值,再识别问句中的疑问词,主题关键词,并标注语义属性词,然后用基于语义类的方法,最终输出答案。
- 基于特征向量的相似度计算方法
将问句用n维向量表示,然后计算余弦相似度
-

你可能感兴趣的:(论文笔记(2))