什么是语义图谱?
语义图谱是一种新的知识表征方法。在语义图谱里,一条知识是由一个问法+一个知识点+一个主题表示的。
如上图所示:“什么是彩虹”+“彩虹是气象中的一种光学现象。当阳光照射到半空中的水珠时,光线被折射及反射,在天空上形成拱形的七彩光谱。”+“彩虹”构成了“什么是彩虹”这条知识。
一个问题的多种表达并不能构成新的知识。“彩虹的定义”+“彩虹是气象中的一种光学现象。当阳光照射到半空中的水珠时,光线被折射及反射,在天空上形成拱形的七彩光谱。”+“彩虹”不是一条新知识,和“什么是彩虹”这条知识是一条知识。
“彩虹有几种颜色”+“彩虹有红橙黄绿青蓝紫七种颜色”+“彩虹”构成了一条新知识。
“为什么说彩虹有七种颜色”+“阳光本来就包含这些颜色,混在一起人眼看起来就成白色。彩虹是经过阳光折射形成的,颜色变化非常丰富,只不过粗略的说是七种颜色。”+“彩虹”构成了一条新知识。
知识点不变的不是新知识,知识点变化的形成新知识。
一个主题的各个知识点以及关于每个知识点的不同问法,构成了一个主题的语义图谱。主题可能是个词,也可能是个句子;可能是个事物,也可能是个过程。
例如:如果把“小鸡孵化的过程”作为一个话题,它的知识点就包含“小鸡孵化一共需要大约22天时间。”“小鸡孵化需要适宜的温度和湿度,还要重视通风。适当温度:温度控制在37.1~37.2℃。适当湿度:湿度控制在70~80%。”“小鸡可以进行人工孵化”“小鸡孵化选择好孵化用的种蛋。种蛋的来源必须是优质无病害的,然后观察鸡蛋表面,好的鸡蛋应该是蛋壳厚薄均匀、颜色正、无破损的。用灯照检验时,蛋黄流动性大、蛋内有气泡、个头畸形等不能列入终种蛋的选择”等等。针对不同知识点,又可以有各种不同的问法。
怎么构建一个语义图谱?
第一步:在构建一个语义图谱时,先要确定一个主题。语义图谱是围绕主题建立的,主题是语义图谱的核心。主题可以是事物,也可以是规则、过程、事件等等。比如:狮子、彩虹、煤矸石、彩虹、狮子、老王、小鸡、煤炭形成的过程、足球比赛的规则、第二次世界大战、小鸡孵化的过程、足球比赛的规则、商王朝灭亡的过程、三国演义的故事故事梗概等等都可以是一个主题。
第二步:根据对本主题的相关描述生成知识点。对一个主题的描述一般是一段文字或者一篇文章。根据训练好的模板或者通过人工,对这段文字或者文章进行分割,生成不同的知识点。
不同性质的主题有不同的知识点。比如关于一个人物刘备的知识点应该包含“刘备字玄德,三国时期蜀汉开国皇帝,谥号昭烈皇帝,史家又称为先主。刘备是汉朝的宗室,汉中山靖王刘胜的后代,是三国时期著名的政治家,221年在成都称帝,国号汉,史称蜀或蜀汉。223病逝于白帝城,谥号昭烈帝,庙号烈祖,葬惠陵。”“刘备223病逝于白帝城,谥号昭烈帝,庙号烈祖,葬惠陵。”“刘备是三国时期蜀汉开国皇帝。”“刘备是三国时期著名的政治家。”等等。对于第一个知识点的提问方式可能有“刘备是谁”“介绍下刘备”“刘备的简介”“刘备的生平”等等。
对于一个动物,知识点也是有限的。比如针对“狮子”这个主题的知识点应该包含“狮子(lion)是唯一的一种雌雄两态的猫科动物,是地球上力量强大的猫科动物之一,狮子生存的环境里,其他猫科都处于劣势。漂亮的外形、威武的身姿、王者般的力量和梦幻般的速度完美结合,赢得了万兽之王的美誉。”“狮子是哺乳动物猫科豹属,可分为两个亚种,非洲狮及亚洲狮。”“狮子原来分布于除了热带雨林地区以外的非洲各地一起南亚和中近东地区,现在除了印度的吉尔以外亚洲其它地方的狮子均已经消失,北非也不再有野生的狮子,目前狮子主要分布于非洲撒哈拉沙漠以南的草原上,因此现在基本可以算是非洲的特产。”“狮子是唯一成群生活的猫科动物,雌雄狮在群中分工不同,由母狮捕食。”“狮体重在120—250公斤,体长140—192厘米。”“区别于其它猫科动物的是雄狮有明显的鬃毛,为的是相互打斗时起保护颈部的作用。尾端的角质刺也是显著特征。狮子还是猫科动物中唯一能真正发出吼叫的动物,吼声可传到八九公里以外。”“狮子的视力极佳,在很远以外就能发现猎物,集体捕食,速度快且效率高。 ”“狮子主要捕食有蹄类,如:牛羚、大羚羊、斑马,有时也捕食大象、犀牛。”对最后一个知识点的问法可能有“狮子喜欢吃什么东西”“狮子主要的捕食对象”“狮子的食性”等等。
第三步:根据训练好的模板或者通过人工,对每个知识点从不同角度生成不同的问题。
对于一个知识点,用户从不同角度会产生不同的问法。比如对于“刘备是三国时期蜀汉开国皇帝”这个知识点,用户从不同角度的提问可能有“刘备是什么时期的开国皇帝”“刘备是三国时期的开国皇帝吗”“谁是三国时期蜀汉的开国皇帝”等等。
对于同一性质的主题,知识点有相似的结构,可以通过归纳总结建立模型。两个主题性质越接近,语义网络的结构就越相近。比如,关于人的语义网络结构就是基本类似的。刘邦、刘备、张飞、朱元璋、孙悟空、独孤求败等等,他们的语义网络结构就基本相似。刘邦、刘备、朱元璋的语义网络结构就更加相似。
语义图谱怎样生成?
语义图谱可以从一篇对某个对象的描述文章生成。具体生成过程包含以下几步:
第一步:生成模板。根据多篇特征相似的文章生成语义图谱模板。这个生成的过程可以用机器学习也可以人工加工。例如,描述动物的语义图谱模板经过分析对狮子、老虎、大象的描述就可以提取共同特征生成模板。模板生成过程主要是对文章分段的过程,和生成问法模板的过程。
第二步:根据模板生成知识。
首先是根据原始材料确定主题,然后根据模板对文章进行分段生成知识点(答案),然后根据模板生成不同的问法(问题)。最后根据主题、知识点、问法生成语义图谱。
语义图谱有什么用?
语义图谱主要是应用在自然语言问答领域的。当用户提问时,把用户提问和语义图谱中的问题(问法)做对比。如果语义相似,把知识点作为答案输出。语义图谱中的问法是链接知识点和用户提问的桥梁。
根据一个语义图谱生成一篇文章。同样的道理,也可以把一篇文章变成一条条的知识,这些相关的知识,构成了一个语义图谱。如下图所示:
语义图谱怎么用?
语义图谱主要是应用于问答的。具体的应用过程是,先用语义图谱构建好知识库,然后当用户提问时,把用户提问和语义图谱里的问法进行语义相似对比,如果有语义相似的问法,则把对应的知识点当成答案输出。具体业务流程如下:
我们的技术语义图谱是为自然语言问答而生的。当用户提问“狮子喜欢吃什么东西”“狮子主要的捕食对象”“狮子的食性”等等,通过语义网络都会指向“狮子主要捕食有蹄类,如:牛羚、大羚羊、斑马,有时也捕食大象、犀牛”这个知识点。
如果用传统技术知识图谱处理这个事情就会比较力不从心,它们是为搜索设计的,不是为问答设计的。它们处理关键字,理解不了句子的细微差别。比如“狮子喜欢吃什么东西”“狮子主要的捕食对象”“狮子的食性”三句话里实体词是不一样的,会被知识图谱当成不同的知识点。在语义图谱看来这三个问题指向的是一个知识点。
在实际的自然语言问答过程中,用户的输入一般是口语化的句子,是在一定的对话场景里。需要系统对用户的输入做精细化处理。需要系统功能分清楚语义非常接近的句子。需要系统分清楚哪些提问指向相同的知识点。这些都是知识图谱不能解决的问题。语义图谱本身存储的就是句子,比知识图谱存储的实体和关系要更精细,更适合与用户输入做对比。
用知识图谱做问答,只能处理简单的句子或者命令,不能处理复杂的句子。用语义图谱处理问答,能有效提高问答准确率,处理口语、倒装句等各类句子。