近日,OpenKG 继续更新发布多个新冠知识图谱,其中包括哈尔滨工业大学构建的新冠概念图谱,武汉科技大学与东南大学联合构建的新冠防控图谱。同时,更新了由 IBM 中国研究院构建的流行病学图谱 V1.1。
OpenKG 发布的所有新冠知识图谱都基于统一的命名规范和语义格式,采用 CC-by SA 相似署名开放许可协议,供大家免费下载使用。
欢迎大家访问新冠图谱专题链接,获取更多新冠知识图谱:
http://openkg.cn/group/coronavirus
1.新冠概念图谱 V1.0
图谱链接:
http://www.openkg.cn/dataset/covid-19-concept
1.1 简介以及潜在应用
新冠概念图谱从网络文本中采集了与新冠疾病相关的实体和关系(包括疾病、人物、症状等),进一步融合了从百度百科,维基百科等知识库的infobox中提取的实体关系。更为特别的是,本概念图谱利用自动挖掘的手段从网络文本中采集了大量细粒度的上位概念词。即此概念图谱的is-a层次结构(schema)是自动构建而成的,包含了细粒度的上下位层次结构。该概念图谱目前已应用于深睿医疗开发的新冠肺炎小睿医生助手中用于计算问句之间的相似度以及辅助解答用户提问。
借助于细粒度的上位概念层次结构和丰富的实体间关系,本概念图谱能够为针对新冠肺炎的智能服务系统,例如问句相似度计算、智能问答等技术提供数据支持。以问句相似度计算问例,本概念图谱可以对问句中的实体利用上位概念词进行扩展,通过丰富额外的特征从而更加准确的衡量问句间相似度而将问题归类。
1.2 数据schema
新冠概念图谱由网络文本中挖掘了大量细粒度的上位概念词,并自动获取概念之间的层次结构。即,本概念图谱的层次结构(schema)是自动构建形成的,可根据实体的含义形成细粒度的层次结构。
下面即展示了针对不同实体所形成的概念层次结构,其中红色结点为实体,深色的为上位概念词。由图中示例可见,根据实体的含义可以自适应的形成不同结构、不同层次的概念层次结构。例:
1.3 数据来源与规模
新冠概念图谱的数据有两个来源:
1)从网络文本中采集了与新冠疾病相关的实体、关系、细粒度的上位概念词,自动构建形成上下位概念层次结构。
2)融合了从百度百科,维基百科等知识库的infobox中提取的实体关系。
新冠概念图谱中的上位概念词从多来源的数据(包括搜索引擎、百科、构词结构)中获得,同时通过排序机制过滤掉可信度较低的上位概念词。实体和上位概念词以及上位概念词之间的层次结构(is-a关系)则通过度量词语之间的语义宽泛性自动获得。横向关系三元组(实体与实体之间的关系)中80%的数据来源于百度百科、维基百科的整合,余下的20%是从网络文本中自动挖掘而得,再辅以句法、语义等规则形成的置信度进行过滤而得到。以上做法保证了新冠概念图谱中包含的上位概念词、概念层次结构和关系三元组的准确性。
新冠概念图谱规模:
实体:4784
上位概念词:1487
上下位(Is-a)关系元组:19391
横向实体间关系三元组:35172
1.4 可视化样例
新冠概念图谱除了开放数据之外,还提供了可视化的查询网站,通过输入的关键词能够在该图谱中查询实体。为方便展示实体的上下位概念层次结构和实体之间的横向关系,我们提供了两种展示样式。如下图所示,针对同一实体的两种展示样式分别是实体的上下位概念层次关系和实体间的横向关系。图中红色的点代表查询实体,查询实体周围浅绿色的点代表该结点对应的实体也被概念图谱所包含,可点击展示。
2.新冠防控图谱 V1.0
图谱链接:
http://www.openkg.cn/dataset/covid-19-prevention
2.1 简介以及潜在应用
根据目前互联网公开的针对人员、场所、交通工具防控指南或手册,形成相应的知识图谱,包含防护概念的分类体系、注意事项,相关避免去的场所和不要做的事情。其中物资包含口罩等涉及一些特定商品的图谱并与防控规则关联。
潜在应用包括提供基本防控知识问题,集成于流程化信息处理平台,用于各场所检查防控措施是否正确等。例如以下示例:
示例:
【输入】:XX广场(Y2店),已控制公众前往商场,上班工作人员发热,已加强开窗通风换气,洗手间内洗手液配备足够,供水设施正常工作,卫生设施是否进行了消毒,且卫生设施消毒及时。
【输出】
XX广场(Y2店)是人流密集、流动性大的公共场所
防护情况:未正确防护
错误点:确保可疑症状工作人员不带病上班
遗漏点:
公共用品和接触部位进行了定期清洗和消毒
空调系统或排气扇正常运转
空调滤网定期清洗
及时清理垃圾
卫生设施必要时使用了空气消毒喷雾消毒
2.2 数据schema
2.3 数据来源与规模
协和新型冠状病毒肺炎防护手册,http://pumcp.com/portal/sites/xiehe/pages/books/7/index.html
《张文宏教授支招防控新型冠状病毒》(数字版),上海科学技术出版社
不同人群、不同场所和不同交通工具健康防护指导手册,中央赴湖北省指导组防控组编制,http://wjw.hubei.gov.cn/bmdt/ztzl/fkxxgzbdgrfyyq/jkkp/202002/t20200215_2028497.shtml
数据规模:
概念:95个
实例:306个
数值属性:5个
对象属性:14个
2.4 可视化样例
3.新冠流行病学图谱 V1.1
图谱链接:
http://openkg.cn/dataset/covid-19-epidemiology
3.1 更新记录
删除了原有JSON-LD数据中的示例性病例数据共5条;
添加了深圳市卫健委发布的316例新冠肺炎确诊病例的流行病学调查数据。
3.2 简介以及潜在应用
新冠肺炎流行病学知识图谱包含了流行病学知识图谱Schema和基于此Schema定义的新冠肺炎资源实例(待更新)。其中流行病学知识图谱Schema重点刻画流行病学的基本概念、流行病学调查等内容,未包含“流行病学研究方法”、“预防与控制策略”、“临床治疗与预后”等内容,需要在后续版本中与其他新冠肺炎知识图谱集成或连接。新冠肺炎资源实例包含了发生在2019年-2020年2月期间,COVID-19疫情中确诊患者的流行病学调查数据,这些数据来自中各省市卫健委公布的个案流调信息。
新冠流行病学图谱可以助力对流行病调查、溯源、密切接触者追踪,为医护人员和疾病防控人员提供技术支持,加速流行病调查研究。
3.3 数据schema
流行病学知识图谱的schema定义了流行病学的基本概念,例如:流行病、病原体、宿主、疫情、流行病学调查、调查方法、调查人群、被调查个体、调查报告。其中主要对病原体、流行病学调查和调查报告进行了详细定义。详见下图。
3.4 数据来源与规模
数据来源:
王建华,刘民,《流行病学-第7版》人民卫生出版社
陈清,徐德忠,《流行病学复习考试指导》人民军医出版社
各地卫健委公开信息
数据规模:
概念:55 个
实例:2163 个
数值属性:26个
对象属性:21个
三元组数量:8336 个
3.5 可视化的图谱样例
点击阅读原文,下载新冠知识图谱。
主要贡献者
新冠概念图谱
哈尔滨工业大学:张裕舟,佘琪星,王必聪,刘铭,秦兵,刘挺
新冠防控图谱
武汉科技大学:胡丹阳,王萌,李秋,刘宇,顾进广
东南大学:张振志,胡润秋,徐毅男,张涛,史淼,郭文孜,黄红蓝
新冠流行病学图谱
IBM中国研究院:李静,王健,蒋建民,王轲,王彦菲,梅婧
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。