观点Angie发布于2018-01-17要说2018年最先火起来的一个词,“撒币”认了第二,可没词敢认第一了,各位大佬们忙着在各个直播类APP疯狂“撒币”,我们困于答题游戏里无法自拔。
答题游戏里的题目大多不难,但涉及范围很广,常识、文学、数学、物理、化学、电视剧、动漫等等。
有不少人答题的时候,身边守着好几个助攻,A负责算出535+679 的结果,B负责回答海绵宝宝住的房子是什么形状。
就算是这样,最后还是败在了“长城到底有多长”这样的问题上。对于此,很多人调侃说为什么不能多长一个脑袋。
其实大家大可不必这样说,就着答题游戏的热度,今天晚上我给大家介绍一项不怎么被提起,但可以让大家在游戏里百战百胜的AI能力—-知识图谱。
01、知识图谱是什么?
知识图谱(KnowledgeGraph/Vault)又称为科学知识图谱,在2012年由谷歌宣布提出,开始只是作为谷歌世界知识库的名称,后来因为这个名词太深入人心,便被泛指各种大规模世界知识库或领域知识库。
说简单点,知识图谱就是一张由知识点相互连接而成的语义网络,举个小栗子,提到圣人孔子,我们会想到他处于东周春秋末期,会想到他曾写过《论语》、《春秋》,会想到他所倡导的儒家思想、由此还会想到他的徒弟颜回……
把这一系列画出来,就是一张最简单的知识图谱
如图所示,通常我们会把图1中人物、作品、地点、称为知识图谱中的实体,每个实体可以拥有不同属性,比如师徒、好友等。
通过实体的属性可以将不同的实体建立关联关系,例如:
孔子(实体)—师徒(属性)—颜回(实体)
孔子(实体)—-作品(属性)—-《论语》(实体)
这些就是知识图谱中的信息抽取,包括实体抽取(NER),关系抽取,属性抽取。
构建一张完整的知识图谱,除了信息抽取之外,多源知识的自动融合和知识加工同样不必可少。
怎么理解?先来说说多源知识的自动融合,还是来举个小栗子,大部分人应该都认识张学友,他不仅是个歌手,也是个演员,我们很容易理解唱《吻别》的张学友,和出演《男人四十》的张学友,是同一个人。
但机器可能没那么容易就判断电影数据里的张学友,就是音乐数据里的张学友。
因为电影数据和音乐数据属于不同的数据源,这时候就需要多源知识的自动融合,将不同数据源的相同实体用自动华算法将其聚类。
知识加工其实包含2个方面,一是面向知识的表示学习,一是知识的应用。
说简单点,就是机器通过信息抽取和知识融合,已经搜集到了关于张学友非常详尽的知识,也分清楚了唱《吻别》的张学友,就是出演《男人四十》的张学友。
当我们开始在网上搜索《吻别》这首歌曲时,出现张学友演唱的吻别,这个从后端计算到前端呈现的过程,就是知识加工,这一个完整的循环就是知识图谱。
没有完全弄懂的人,可以现搜一下“长城有多长”这个问题,出现的“21196.18千米”这个精确答案,就是知识图谱。
图片来自于刘知远老师《知识图谱的构建技术综述》一文
02、知识图谱带你捡币带你飞
说完了知识图谱,相信很多人对其容纳的知识广度和深度都有了不一样的认知。
但现在如果把知识图谱伪装成AI选手,让它参与答题,那么依旧不能成功捡币。
看到这里,可能很多人就要问了,我把知识图谱说的那样腻害,为啥还不能成功捡币呢?
主要原因有以下2点:
a、 数据库的及时更新
这一点用通俗的话来讲,叫做追热点。比如我们能够及时接收并轻易接受“撒币”这个词,并沉醉于这类答题游戏。
我们接受这个新词,玩这个新游戏的时候,就是在随时随地的更新我们的知识储备。
但机器不行,目前大部分机器更新数据库都需要人类的辅助,因为这一天然劣势,可能会让机器在应对最新的题目时出错。
不过好在这一劣势,正在被机器学习和大数据技术的快速发展给弥补起来,机器学习让机器能够实时吸收和容纳新的知识,由大数据承载再实时反馈给用户。
b、 自然语音理解和处理
我们能够轻易理解“妈妈的妈妈的丈夫”是外公,但机器理解起来可能就没那么容易了,通过相关语言,推断出实体与实体之间的关系,是目前知识图谱研究的一大难点。
当然自然语音理解这一难点,并不仅仅存在于知识图谱中。
好啦,今天关于知识图谱的内容分享就到这里了,希望对你有所帮助~