2022年,随着在自然语言处理方向的深入,我逐渐开始对知识图谱在问答、搜索、推荐等领域的应用产生浓厚的兴趣。自己也通过书籍、博文、论文等对知识图谱有所了解,也通过中文开放知识图谱对中文知识图谱在各领域的发展有了深刻的认识。知识图谱在认知智能中承担着比较重要的角色,也让我对知识图谱及其相关技术(NLP、图神经网等)有了新的认识。
想了解某个领域的研究现状,有权威的书籍和课程是再好不过了,当然阅读对应领域的综述文章也是一个不错的选择。了解到浙江大学陈华钧有一本《知识图谱导论》。该书籍在中国大学MOOC还有相关课程:知识图谱导论。于是就展开了学习,现在对学习的内容进行复盘总结。
课程对应的课件可以在我的订阅号中回复:"知识图谱导论-浙大"获取,对应内容也可以看看我的总结。
对应讲解视频内容如下:
【知识图谱理论】(浙大2022知识图谱课程)第一讲-知识图谱概览
人的大脑依赖所学的知识进行思考、推理、理解语言。
早期的人工智能包含两个流派:
知识图谱则可认为是符号主义流派中的内容。深度学习在视觉、听觉等感知任务中取得了不错的成就(感知智能),但是归根到底来说解决的是识别和判断的问题,其并不能够进一步的推理,联想到人的大脑,大脑依赖所学的知识进行思考、推理以及理解语言等(认知智能)。
在认知智能中有两个核心的研究:
人类在认识世界的过程中不断积累知识,并使用语言来描述、记录和传承对世界的认识(知识)。当然,准确理解语言也极大依赖大脑中所习得的各种知识。这就为知识、语言架起来一个桥梁,语言作为知识最直接的载体。
看一下下面的案例:
这个人工智能小秘书应该在第一个案例中将“肯德基”识别成一种食品,在第二个案例中将“肯德基”识别出一个公司,需要知道百胜是肯德基的母公司,蚂蚁金服投资了百胜,马云是蚂蚁金服的实际控制人,这样才能正确判断马云和肯德基之间的关系。上面的案例中就是一个小小的知识图谱。
人们依赖大脑中这些形形色色的“知识图谱”作为理解语言、判断、推理、决策等行为的背景知识。
话说回来,什么是知识呢(what is knowledge)?针对这个哲学问题,柏拉图说:Knowledge is justified true belief。其实仔细一想,人类的自然语言、创作的绘画与音乐、数学语言、物理模型、化学公式等都是人类知识的表示形式和传承方式。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的最本质特征,也是人脑智能的最本质特征。
传统人工智能的一种实现方式:知识工程和专家系统,建立一个能够从专家的大脑获取知识的系统(知识工程),再通过一个推理引擎为非专家用户提供服务,如:辅助诊断,判案等。
语言是知识的自然描述方式和表达载体,人脑能够从文本获取和学习知识,要想实现机器的认知智能,那么机器也应该具备从文本中抽取知识的能力。摆在我们面前的一个问题是:机器处理文本字符串并不容易,理解文本中蕴含的意义更是步履维艰,这个可以看看当下的问答机器人微软小冰、苹果siri等,效果并不理想。为了实现机器能够更好地抽取文本中的知识,当前盛行的有两个技术路线:
抽取技术,从文本中识别出实体、关系以及复杂的逻辑结构;
文本预训练,通过大量的文本语料来训练,例如前端时间比较火的chat-gpt,使得文本中的知识被隐含在参数化的向量模型中;机器则更加善于处理这中向量化表示的神经网络 。
知识图谱利用图结构对知识进行建模以达到识别和推理事物之间的复杂关联关系和沉淀领域知识,是实现认知智能的重要基石。该技术已经被广泛应用与搜索引擎、智能问答、语言语义理解、大数据决策分析、智能物联等众多领域。
知识图谱利用图这种结构,将知识进行结构化表示。相比于纯文本来说,结构化的数据更容易被机器处理,其也更加能够表达丰富的语义和知识。
计算机更擅长处理数字化的向量,表示学习也在文本相关任务上大放异彩。例如使用word2vec使用向量来表示词语。知识图谱引入了Embedding的技术,将实体和关系学习对应的向量表示,然后使用神经网络来实现逻辑推理等。
了解了知识图谱的一些基本概念,那我们可以使用知识图谱干些什么事情呢?
谷歌在2012年推出了基于知识图谱的搜索引擎。 支持了事务级别的而非文本级别的搜索,使得搜索结构更加精准,用户的搜索体验也得到了大幅度的提升。
对话式的信息获取更加需要精准度和可靠性,知识图谱在搜索引擎中提供了更高质量的结果,同理也可以将其应用与对话系统中,智能问答本质就是一种对话式的搜索。当前实现智能问答功能主要有三种形式:
为了能够实现基于知识图谱的推荐,分别构建user kg和item kg。将知识图谱引入到推荐系统中,可以增强user和item的特征表示(增加信息),有利于挖掘更深层次的用户兴趣,关系多样性也有利于实现更加个性化的推荐,丰富的语义描述还可以增强推荐结果的可解释性。
除了以上主流的应用之外,在垂直领域如:医疗拮抗,金融,电商,出版,农业,政府,电信,数字图书馆中都有其使用的身影。