《人文地理知识图谱的可能构建方法》,是本人在“第十届空间综合人文学与社会科学论坛”历史GIS分会场做的一场报告的题目。由于原报告时间限定在10分钟,所以很多问题要么未阐述,要么一句带过。为了方便读者更好的理解这次报告,本文在保持现场报告结构和演讲内容不变的基础上,略作补充完善,PPT则未做任何修改。
知识图谱背景介绍
图,是计算机基础数据结构之一,知识图谱,则是一个由知识节点相互连接而成的语义网络,在谷歌2012年正式提出Knowledge Graph之前,知识图谱已经有几十年的发展历史,比如维基百科就可以算做知识图谱的早期形态。
早在上个世纪70年代,专家系统(Expert Systems)作为人工智能的重要分支就已经出现了,知识库与推理引擎是其核心。到了80年则出现了Cyc知识库,在不断的积累下,目前共有50万条概念的500万条常识,WordNet英语词典则通过语义关系,将大量词汇关联起来,形成一个图谱化的词典。这些早期的知识图谱都由相关领域的专家进行人工构建,准确度高,但耗时长覆盖面小。
进入互联网时代后,2001年维基百科(Wikipedia)上线,旨在通过互联网协作的方式构建一个服务全人类,人人可编辑的自由百科全书。维基百科的出现推动了很多基于维基百科的结构化知识库的构建,2006年有学者提出了链接数据(Linked Data)概念,希望建立起数据之间的链接,从而形成一张巨大的链接数据网,并于2007年形成了DBpedia项目,是目前已知的第一个大规模开放域链接数据。
图数据库的发展
移动互联网和大数据时代,各种知识开始爆炸式的增长,而数据和数据之间的联系则无处不在,人们不再满足传统的数据检索方式,而是渴望挖掘复杂知识之间的相互联系,并通过图形进行可视化。但传统关系型数据库(SQL)的表格储存模式,并不能很好地表现大量数据节点之间的复杂关系,而N个数据节点最多可能有N * (N-1)个有向边,随着关系的数量和深度的增加,关系型数据库关系查询的效率将快速下降甚至崩溃。
为了解决这一问题,许多专用的图数据库,如Neo4J、TigerGraph,或者集合关系数据库、文档数据库、键值对数据库和图数据库特点的多模式数据库(Multi-model database),如OrientDB、ArangoDB等相继应时而生。传统的关系型数据库,如Oracle、SQL Server、PostgreSQL等,也相继提供了图数据库支持。Redis这类键值对数据库,则开始提供RedisGraph这样的图数据库模块。目前各大云平台也开始提供图数据库或多模式数据库服务,如Azure Cosmos DB、Amazon Neptune、阿里云GDB等。
截止2019年7月,虽然图数据库的整体市场占有率还只有1.5%,但它却成为近几年发展趋势最为迅猛的数据库类型,这使得基于图数据库的应用,迅速普及到我们生活中的方方面面。
图谱的核心关系
理论上人类文明产生的所有知识点,可以连接成为一个图,但实际上这几乎是不可能的。维基百科固然是大而全,以词条文章的形式组织起来,并出现了大量基于维基百科为基础的知识图谱项目,但具有较高学术和商业价值的知识图谱,往往是小而精的,偏向更垂直的领域,以高度结构化的数据节点进行组织关联,因此图数据库的具体应用,常常会围绕着一个具体的关系核心,比如人和人的关系,物和物的关系,人和物的关系。
QQ会给你推荐你可能认识的人,它是以社交关系为核心的;现在一出现网络热点事件,就有人去天眼查,搜索相关人员的工商关系,说明天眼查是以人与企业关系为核心的;支付宝和蚂蚁金服的安全风控,则是围绕交易所涉及的人物社会关系、网络位置关系、地理位置关系、资金交易关系来进行的。
而在学术研究中,同样存在这个现象,比如中国历代人物传记资料库(CBDB),就实现了以历史人物关系为核心的图谱化和地理可视化。截止2019年4月,CBDB共收录42.7万历史人物的传记资料,整理了大量历史人物在时空背景下,与亲族和非亲族的关系。CBDB官网就有“453位与新儒家朱熹来往的2717封信中归纳出社会网路关系”、“福建莆田于1050至1100年间取得进士学位者的社会网路关系”等示例。
根据中国中文信息学会语言与知识计算专业委员会倡导的开放知识图谱(OpenKG)项目,所收录的92个知识图谱项目,目前国内许多知名高校和科研机构,都开展过不同层次的知识图谱科研课题,涉及常识、医疗、生活、城市、地理、社交、娱乐、金融等十多个分类领域。如北京大学中文百科知识图谱知识库(PKU-PIE)、复旦大学中文通用百科知识图谱(CN-DBpedia)、上海图书馆华人家谱关联数据集等。除了通识类的知识图谱外,其他类型的知识图谱,一般都具有明确的关系核心。
但这些课题目前存在着几个问题。首先,许多课题,特别是通识类的知识图谱课题,大多以维基百科和百度百科的数据为基础,导致数据的正确性难以保证;其次,知识图谱涉及人类已有知识的方方面面,这些课题的总体范围还是太小;最后,它们层次不一,标准不同,发布渠道各异,导致这些小的知识图谱,成了一个个孤立的湖泊,没办法连接成一个知识图谱的海洋。
人文地理知识图谱
地球是人类文明唯一的生存空间,人类的生产活动,都或多或少和地理位置有关系,因此人文地理包含的范围很大,除了时空信息外,还和许多其它学科的知识有交叉,比如历史地理就是历史学和地理学的交叉学科,人文地理学的其他分支学科也都具有这一特点。
因此,人文地理知识图谱,是一个以地理位置和地理名称相关性为基础,建立地理知识节点与交叉学科知识节点关系的知识图谱,可以统一使用地图进行数据可视化分析。
以CBDB为例,当我们来到武汉,那么就可以查询到,有哪些历史人物曾经在武汉出生,或者到访过武汉;如果我们又去了北京,就可以查询到有什么历史人物同时在武汉和北京都居住过;又比如CBDB和唐宋文学编年地图、华人家谱关联数据集,到底有什么未知的联系?这就是人文地理知识图谱的作用。
但是这里就出现了一个问题,人文地理范围太大,哪怕有巨额的资金和人力投入,耗费十多年时间,可能也远远达不到预期的效果。这大概也是一些课题采用维基百科、百度百科数据进行研究的原因之一。根据百度百科首页信息显示,光百度百科就有680万编辑者、1500万次词条、上亿次编辑记录,维基百科的规模则更大,根据维基百科官网统计,共包含304种语言的上千万词条,光英文维基百科的编辑次数就超过9亿次,但即便如此,它们的资料更多是作为参考,而不是作为可靠的结论。
发现中国简介
那么这样一个大问题,发现中国如何去解决呢?
发现中国(ageeye.cn)是一个2015年上线的的历史地图公益网站,目前拥有上万注册用户,创建3万多地图。根据调查数据显示,用户使用网站的主要目的是制图,以80,90后为主,其中硕士及以上学历占比27%,本科学历占比53%,在校学生占比为39%,有多位来自文史科研单位的在读研究生作为志愿者,并和国内多所科研单位具有合作关系。
由于我本职是技术人员,历史只是个人爱好,因为被历史书中的地理概念搞的晕头转向,纸质地图又不方便检索,因此才创办了发现中国。网站上线之初我并不认识任何专业文史学者,也就没有可靠的数据,所以就开发了一款傻瓜的在线地图编辑工具,希望由用户去创建数据,走一条类似维基百科的发展路线。
但是慢慢的我发现,用户创作的数据整体质量很差,领域也五花八门不可控,而地理数据对准确性要求又很高,国家也有严格的审核管理规范,后来我们就利用来自国内相关机构和国外图书馆的可信数据,创办了中国历史地图和中国古旧地图专栏,但还是没有解决内容质量问题,用户更多是把网站作为一个画图工具。
随着发现中国有了越来越多的专业用户,我们准备于今年进行转型,使整个平台往内容专业化的方向发展,同时在内容编辑和浏览上,又始终保持简单易用的特点。而另一个方面,就是上线了一个名为地图书(ditushu.cn)的全新人文地理知识图谱平台,它将采用专业用户生产内容(PUGC)模式,邀请机构、学者、作者、在读研究生等,实名认证策划选题,在线管理和发布完整的人文地理成果数据,或者制作纸质著作的线上配套地理系统,一个个去探索这些问题的解决办法。
基础构建模式
维基百科的模式,已经证明了它很难去保证知识图谱的整体质量,百度百科的词条不管真实质量如何,始终无法和使用者建立足够的信任,所以维基模式突出的不是深度,而是全面覆盖的广度。即便依赖计算机自动化处理和人工智能的加成,但由于人文学科的特殊性,也只能作为参考,难以得出可信的数据。
因此人文地理知识图谱的内容来源,得依靠经过实名认证的机构、学者、作者,以科研课题和纸质著作为基础,首先提供一个个可信的,规模相对较小的知识图谱,或者人文地理、自然地理基础数据,然后进行交叉引用和关联。
通过这种方式让多个可靠的小图谱,构成一个可信的大图谱,随着数据的积累,人文地理知识图谱会不断的完善,并通过在线地图统一进行可视化分析,同时也能查看到完整的非地理关联信息和文本内容。虽然他的规模可能远远比不上维基百科和百度百科,但他是一个稳固且值得信赖的金字塔模型。
人文地理研究都离不开自然地理基础数据,人文地理数据的可视化,也离不开百度地图、高德地图等互联网在线地图的支持,因此位于金字塔最底层的是自然地理名称基础数据,国家标准行政区划等,在此之上的则是人文地理基础数据,如《中国历史地图集》等,然后再在这之上构建各类人文地理分支学科的垂直领域知识图谱。
基础地理数据库和知识图谱数据库总是在不断的发展和更新,在引用和关联时,可能存在引用的资料已经变更的问题,比如现代行政区划就在不断的调整,因此每个子数据库应该有固定的版本发布标准,以便准确查找原始引用数据。
比如,中国历史地图集中除了历史地名,也涉及历史地名的现代名称,那么它是否可以引用国家标准行政区划数据,作为基础现代名称呢?CBDB中涉及到历史地名,那么是否可以引用中国历史地图集作为基础数据呢?唐宋文学编年地图中涉及到历史人物,那么能否把CBDB引用为一个基础数据呢?这就是我提出的一种人文地理知识图谱构建方法。
技术解决方案
维基百科是由大量分类目录、词条和非结构化的文章内容组成的。不管是线上的百科词条之间的相互引用,还是各种论文之间的交叉引用,在文章中引用文章比较方便,有简单统一的标准。可构成知识图谱的,是大量存储在服务器中的数据节点,这个又怎么引用呢?
而且人文社科类项目,受限于经费和技术人才,信息化水平往往并不高,许多人文地理类项目,在使用Word、Excel、Access、PhotoShop、CorelDraw、ArcGIS、Google Earth等五花八门的工具制作地图,管理数据和内容,数据并没有充分的结构化,没有统一管理和发布服务,就不可能引用其它数据节点,也不能被其他节点所引用。
人文地理课题还有个特点,就是他们的总体数据量不大,比如中国历史地图集,不过几万条数据,CBDB的人物数据,也不过四十多万条,这在动辄TB、PB甚至EB级数据的大数据时代,实在是微不足道的。其涉及的地理数据可能并不多,比如唐宋文学编年地图中涉及的地名,是远远少于作品数量的,CBDB中涉及的各类文本信息,也远远多于地理数据,这些数据的难点在于考证困难,管理难度相对较小。
因此人文地理课题,真正需要管理的,其实是大量结构迥异的非地理关联数据和文本等多媒体信息。同时正因为这种需求不定,结构不一的数据结构场景,使得ArcGIS等主要应用于测绘、国土、交通等社会生产领域的地理信息软件,基本不适合人文地理课题的数据管理。
为了满足这种信息化需求,传统上只能采取定制开发信息系统的方式管理数据,在线分享成果和提供开放接口服务。但人文社科项目经费少,技术人才短缺,标准也不统一;信息系统还涉及到长期的运维和升级,否则很快就会成为过时淘汰的系统;当开展新课题时,原来的信息系统可能又不适用了,需要重新开发或者升级。因此,依靠人文科研单位自己做技术开发和系统运维即不现实,也会极大的浪费了资源和时间。
人文地理知识图谱的构建,需要一个专门的云平台和统一的开放标准。目前互联网有越来越多好用的SaaS云服务,但面向人文社科类的却少之又少。一个人文地理SaaS平台,可以极大的降低人文地理课题信息化管理成本,既能解决需求多样、经费少、技术水平差等问题,同时也避免了各单位重复建设所造成的资源浪费。
统一的开放标准,则可以引用内部平台和外部平台的数据节点。人文地理知识图谱是个巨大的工程,只有各个平台之间开放共享,才能把一个个孤立的子图连接成为一个真正的人文地理知识图谱网络。
发现中国正在内部测试的地图书平台,实现了一个由多模式数据库构建,支持高度自定义结构的数据存储模型,既可以像关系型数据库信息系统一样管理课题数据,又可以将各个结构化数据节点关联起来形成知识图谱。
通过简单的图形化配置就能给每个课题定义完全不同的表结构和输入控件,可以存储各种地理信息和文本等多媒体信息。自动实现增删改查、过滤、排序、全文检索、文本编辑、多人协作、数据可视化等功能,可以满足不同课题的数据管理需求。
同时我们针对人文地理课题的特点进行了许多开发工作。比如我们实现了一个可以插入脚注、尾注、注释、地图插图的文本编辑器,方便学者添加各种论文和原文的引用;也可以选中任意文本,将文本和数据节点关联起来,实现古籍或者著作原文,与结构化数据的关联;未来我们还将集成各种自然地理和人文地理基础数据库、万年历等工具,为人文地理课题的信息管理提供便利。
我们专注于技术服务,学者专注于课题科研,首先立足于解决人文地理课题信息化管理的难题,争取把人文地理课题的信息化管理成本降到零,把这个问题解决了,也就同时解决了创建小型知识图谱的问题。
人文地理知识图谱需要多方协作和长期的发展,绝非某一个单位就能够解决的,当每个课题成为一个小的子图,将子图依据地理位置相关性连接成大图,才能在未来进一步解决构建人文地理知识图谱的大问题。
产业生态打造
我们并不是一家科研单位,所以也就不可能以纯科研的角度去解决这个问题。我们的目标是提供一个好用的技术平台,然后去和科研单位深度合作,去了解需求,发现问题,通过数年,十多年的时间,不断完善产品,耐心培育一个个小的数据和内容。
人文学科成果转化是一个难题,出版是目前最常见的转化渠道之一。人文地理成果信息量已经越来越大,如果出版图集,需要铜版纸印刷,8开,4开,多册上千页规模,动辄耗去十几万、几十万的出版成本,才不过印刷了几百上千册,售价高达每套几千元,其传播面极小,服务面也极小。对于使用这些成果的学者、学者、普通爱好者而言,这些成果获取不易,成本高、使用不便,不可能为了几次简单的查询需求,承受如此高的使用成本。
另一方面,目前我国受过高等教育的人口比例还很低,对于大多数整日为生计奔波的普通人,人文成果的价值又是极其有限的,如果一个花费大量投入却没办法服务很多人的项目,也就没办法自己造血,完全依靠国家经费发展的话,是很难真正的壮大的,何况发现中国的性质,也没有国家经费的支持,这也逼迫我们必须实现自身造血发展。
从长远来看,人文地理成果的转化,必须往互联网信息化方向发展,未来我国受过高等教育的人口比例会迅速提高,国家经济也会转型,文化产业会成为支柱产业,人文地理成果的受众会大幅扩大。
那么将人文地理成果通过统一的开放标准汇聚成可信知识图谱,在极大降低科研信息化管理成本的同时,也能够极大的降低目标用户群体使用人文地理数据的成本。这样既能极大扩大目标用户群体,又能反哺教学和科研,达到一加一大于二的效果。服务的人群越广,参与的单位就越多,产生的社会价值就越大,一个健康的生态就能形成。
空间综合人文学与社会科学论坛由香港中文大学林珲教授于2009年发起,先后在香港、台湾以及内地多所著名高校举办了九届。中国区域科学协会、国际华人地理信息科学协会(CPGIS)和武汉大学为本次论坛的联合组织单位。
本次会议将对自2009年至今“空间综合人文学与社会科学”的10年进展进行全面总结,对该领域的前沿和热点问题进行探讨。欢迎对空间综合人文学与社会科学、对遥感地理信息工程技术与文学、艺术、语言学、历史学、社会学、健康学、管理学等文理工跨学科交叉融合创新感兴趣的海内外专家、学者、专业人员和学生出席并参与研讨和交流。
本文首发于慧天地公众号,经授权转载
会议网址:sihss.net/meeting/