行业动态
速报
1.耶鲁大学和 IBM 研究人员推出核图神经网络 (KerGNNs)
耶鲁大学和 IBM 研究人员提出了核图神经网络 (KerGNNs)。KerGNN 是将图形内核和 GNN 消息传递过程合二为一的框架。他们取得了与尖端方法相当的结果。同时,与传统的 GNN 相比,它们极大地提高了模型的可解释性。
GNN 邻域聚合是使用邻域子图拓扑和内核方法实现的。这表明 1-WL 方法不会限制这种方法的表现力(Weisfeiler-Lehman)。为了将 GNN 推广到图域,提供了一种新的前景,基于该前景可以使用核方法来理解 2-D 卷积和图邻域聚合。
除了可视化输出图之外,KerGNN 还可以通过显示训练好的图滤波器的拓扑结构来揭示输入图的局部结构,与普通 MPNN 相比,这显着增强了模型的可解释性和透明度。
KerGNNs 的核心思想是将图形内核与 GNN 消息传递过程相结合,以利用这两种方法的优势。通过计算低维特征中的核值,核函数可以在高维特征空间中运行。另一方面,MPNN 是使用节点之间的消息传递来捕获图的依赖关系的神经模型。它们分两个阶段工作:邻域聚合和图形级读数。
研究人员提出了一种基于子图的节点聚合机制来结合这两种方法。为了提高灵活性,他们使图内核的特征创建技术可以按照传统的 GNN 训练框架进行训练。
KerGNN 击败了具有 1-WL 限制的传统 GNN,实现了与高阶 GNN 相似的性能,同时降低了图形和节点分类任务的运行时间。与常规 GNN 版本不同,KerGNN 中的图形过滤器可以提供可用于帮助解释模型预测的附加信息。
最终,KerGNN 的性能优于最先进的方法,同时提高了可解释性和透明度。他们通过可视化图形过滤器和图形输出图来实现这一点。简而言之,GNN 具有增强其表示能力的潜力。
https://t.hk.uy/aFb5
速报
2.京东探索研究院NLP水平超越微软 织女Vega v1模型位居GLUE榜首
在近日公布的全球自然语言处理领域顶级测试GLUE中,京东探索研究院联合悉尼大学、武汉大学以及北京航空航天大学组成梦之队(JDExplore Dream Team, d-team)参与其中,其提出的织女模型Vega v1以总平均分91.3分荣登榜首夺冠,再次刷新自然语言理解技术世界纪录,超越同场竞技的微软、Facebook、斯坦福大学等企业和高校团队。
值得提及的是,测试中织女模型在九个子任务中的四个单项任务,即情感分类任务SST-2(The Stanford Sentiment Treebank)、语义相似度任务MRPC (Microsoft Research Paraphrase Corpus)、问句语义等价任务QQP(The Quora Question Pairs)和指代消解任务WNLI(winograd NLI)中均位列第一。尤其在情感分析任务SST 和指代消解任务WNLI 中首次超越人类智能水平,充分证明了京东探索研究院自然语言处理技术水平在超级深度学习领域的全球领先地位。
据了解,本次夺冠的织女模型Vega v1采用了“预训练-微调”范式,依托于多个重要预训练的技术创新实现突破,例如采用了高效节能的并行化训练框架以及数据利用方法,使用了数十亿参数量的创新模型架构、更好的自监督信号以及多粒度句子级表征等。据介绍,未来还将考虑融合可信人工智能等技术对织女模型进行全面升级,让其不仅具有强大的文本理解能力,还能具备稳定性、可解释性、保护隐私、公平性等重要属性。
https://t.hk.uy/aFb7
速报
3.Python程序构建依赖分析
近日,中国科学院软件研究所软件工程技术研究开发中心在Python程序构建中的依赖分析推断方面取得研究进展,提出知识驱动的Python程序依赖推断方法及工具,帮助开发人员提高代码复用效率,减少依赖缺失和依赖版本错误导致的Python程序构建和运行错误,为提升开发运维一体化中的应用构建自动化能力起到支撑作用。
Python语言广泛应用于科学计算等,开发者常常通过代码复用提高开发效率。但Python程序运行环境复杂,依赖于Python包、系统库和特定版本的Python解释器。缺少程序依赖或者依赖版本不兼容,会导致程序构建失败和运行错误。
针对该问题,研究提出一种知识驱动的Python程序依赖推断方法,包括知识图谱构建和程序依赖推断两个阶段。在知识图谱构建阶段,该方法收集大量多源异构数据,进行知识的抽取和融合,构建Python领域知识图谱。在程序依赖推断阶段,该方法基于领域知识图谱,通过程序分析和约束求解方法推断目标Python程序的多层次依赖。
基于上述方法,该研究开发了PyEGo:知识驱动的Python程序依赖推断工具。实验结果显示,PyEGo工具的依赖推断成功率是已有方法的1.5—4.5倍,极大提升了程序构建的正确率和执行效率。
https://t.hk.uy/aFb4
VulGraph漏洞知识图谱
速报
4.VulGraph漏洞知识图谱
安全自动化防御平台北京中科微澜科技有限公司宣布完成千万元天使轮融资,本轮融资由英诺天使基金投资,据悉,本轮融资将用于加速打造基于认知智能技术的新一代安全动态防御产品体系 。
中科微澜创新性的将知识图谱等人工智能技术应用于网络安全领域,自研了VulGraph 漏洞图谱,通过智能化的漏洞管理建立动态防御平台Vtopia,提升企业对安全威胁的防护能力,对于攻击自动化具有先发优势,并实现攻防认知差逆转。
VulGraph是中科微澜创新的安全漏洞领域知识图谱:可以在全网范围实时获取漏洞信息、软件信息、安全事件、恶意程序等多维度信息;结合自然语言处理和知识图谱技术对信息进行自动化组织,形成全面的漏洞知识并深度挖掘潜在关联;利用漏洞知识,实现漏洞检测、威胁评估、修复指导与修复手段。
https://t.hk.uy/aBPH
速报
5.Instaclustr旨在构建开源数据基础设施生态系统
托管开源技术提供商 Instaclustr 宣布在 Instaclustr 平台上全面推出 PostgreSQL。Instaclustr for Postgre 的推出使客户能够在 Instaclustr 的专业远程团队的支持下,使用PostgreSQL来监控、优化和扩展他们的数据基础设施。
Instaclustr 将为客户提供托管支持,以帮助监控、保护、优化和扩展 PostgreSQL,以便现场团队可以有效地利用该技术并避免被锁定在单一供应商生态系统中。
Instaclustr 是开源服务市场的众多提供商之一,该市场 2021 年的市场价值为 217 亿美元。其他提供商包括 Datastax 和 Aivan 等名称,它们为客户提供托管支持以帮助他们配置 PostgreSQL 和 Apache Cassandra 等开源技术,因此他们可以从最佳的基础设施性能中受益——即使他们没有现场配置这些所需的专业知识。
https://t.hk.uy/aBPJ
速报
6.NICE 在最新更新中添加了基于 AI 的 RPA 功能
NICE 正在引入新的人工智能功能,使组织能够最大限度地利用机器人流程自动化 (RPA) 为其业务带来的好处。
NICE RPA 的新功能包括在 7.6 版中,包括文档数字化、基于 ROI 的理想自动化流程推荐以及免费资源中心,其中包含现成的低代码/无代码资源以供共享。
据供应商称,除了减少流程分析时间和自动化手动任务外,这些创新的新功能还可以帮助组织提高投资回报率并最大限度地提高自动化项目对业务的价值。
https://t.hk.uy/aAfp
速报
7.重庆合川联合360打造云端MDR服务样板
12月23日,360重庆合川区安全运营中心被IDC评选为中国智慧城市安全运营中心最佳实践。
近年来,重庆合川区联合三六零集团旗下的360政企安全集团积极扩容城市“安全大脑”,依托360本地安全大脑MDR服务,重庆合川区安全运营中心为城市网络安全基础设施提供动态防护、实时检测、精准识别、自动响应的云端安全运营服务,建立集合态势感知、安全运营、指挥控制、应急响应等市区两级联动的协同机制。
不同于传统MDR服务,360本地安全大脑MDR服务的优势尤为突出:从知识沉淀和积累角度看,360本地安全大脑MDR服务依托360云端全球独有的安全样本库、世界上规模最大的安全大数据和多年积累的基于实战的攻防战法、技术、程序和大量独有知识库,形成了基于攻防战法的安全运营知识图谱,帮助重庆合川区全面排查存在的安全隐患。
360本地安全大脑MDR服务的应用落地,从“事前对相关单位进行漏洞层面的监控预警”、“事中定位网络安全攻击所处阶段、安全专家协助处置”、“事后归纳总结,结合安全大数据分析指导未来网络安全建设方向”三个层面提升了重庆合川区的安全防护能力。
https://t.hk.uy/aBPN
会议讲座
速报1
SWAT4HCLS 2022
时间:SWAT4HCLS 2022于2022年1月10日至13日在线上举办。
SWAT4HCLS(医疗保健和生命科学的语义 Web 应用程序和工具)会议是一个展示和讨论语义和 W3C Web 技术在生物医学和临床领域应用的新想法、经验和问题的场所。从 2008 年开始,SWAT4HCLS 已经连续举办了 12 年多,从一天的研讨会扩展到为期四天的由教程、会议和黑客马拉松组成的活动。
SWAT4HCLS 旨在提供一个跨越学术界、行业和机构参与者的开放和充满活力的讨论空间。
详情请访问
http://www.swat4ls.org/
速报2
ISD6
The Sixth Image Schema Day将于2022年1月20至21日在瑞士举行。图像模式日(ISD)是一个致力于图像模式的跨学科研究领域的系列研讨会。作为一个研讨会,其重点在于讨论进步的研究,建立新的合作,并向高度专业化的观众展示进步的研究。
详情请访问
https://imageschema.net/image-schema-day
速报3
ICPECA 2022
IEEE 2nd International Conference on Power, Electronics and Computer Applications将于2022年1月21至23日在中国沈阳举行.
ICPECA旨在汇集领先的学术科学家、研究人员和研究学者,交流和分享他们的经验。它还为研究人员、从业人员和教育工作者提供首屈一指的多学科论坛,以展示和讨论最新的创新、趋势和关注点、遇到的实际挑战以及在电力、电子和计算机应用的新兴趋势和技术领域采用的解决方案。
详情请访问
http://icpeca.org/
数据集推荐
速报1
EKG
这篇论文刚刚放在arxiv上的一篇综述What is Event Knowledge Graph: A Survey,深入介绍了事件知识图谱的历史、现状和未来,作者来自中国科学院计算技术研究所。
谷歌于2012年提出的知识图谱(KG),现成为一种流行的知识表示形式。除了关注实体间关系的静态知识,现实世界中还存在大量传递动态程序性信息的事件信息,以事件为中心的知识图谱表示(Event KG)将实体和事件结合在一起,在智能搜索、问答、推荐系统、文本生成等领域得到广泛应用。
这篇文章从历史、概念、实例和应用的视角对事件知识图谱的过去、现在和未来进行了广泛的综述,叙述清晰,参考文献多达215个,对读者了解相关领域会有很大帮助。
从历史发展的视角,事件知识图谱的研究开始于上世纪50年代,早期致力于研究事件的构成;2000年以来事件元素抽取和表示的标准制定,出现了ACE、SemEval等标准数据集和竞赛;自从2012年知识图谱的概念提出后,事件知识图谱也逐渐发展起来;以至到近年来事件逻辑图谱逐渐形成,并引发了一系列事件推理的研究。下图呈现了事件知识图谱的发展历程。
与普通的知识图谱相比,事件知识图谱包含2种节点:事件和实体,并包含了3种边:事件-事件关系、事件-实体关系、实体-实体关系。从这个意义上,普通的静态知识图谱可以视为事件知识图谱的特例。下面的表格阐述了几种不同的知识图谱概念的差别。
从本体的视角,作者介绍了事件模式归纳和脚本归纳任务的经典和最新方法;从实例视角,作者叙述了事件获取四个关键步骤(事件抽取、事件关系抽取、事件共指消解、事件参数补全)的主要方法,并介绍了若干专用和通用领域有代表性的事件知识图谱;从应用视角,作者介绍了事件知识图谱在脚本事件预测、时间知识图谱预测、搜索、问答、推荐、文本生成等任务中的应用。
在未来方向部分,作者指出,高性能的事件获取、多模态知识处理、可解释的以及实际可用的事件知识图谱研究还存在较大的研究空白,值得进一步探索。
速报2
KGE+关系预测
论文是发表于2021年AKBC的文章RelationPrediction as an Auxiliary Training Objective for Improving Multi-RelationalGraph Representations,通过简单地将关系预测任务纳入传统KG嵌入的1vsAll目标以学习实体和关系的向量表示,在一系列链接预测数据集上达到了新的sota,并且代码、模型和参数配置均已开源。作者来自伦敦大学。
以补全缺失条目为目标的知识图谱补全(又称链接预测)任务在构建大规模知识图谱过程中发挥重要作用。过去几年的研究主要集中于知识图谱嵌入模型,通过学习实体和关系的嵌入表示,来预测新的关系是否存在,这些模型大致可以分为平移距离模型、语义匹配模型、神经网络模型等。一些工作发现在这些模型中,训练策略、超参数设置和训练目标等对结果的影响很大,甚至超过了模型结构本身。
本文在嵌入模型中引入一个关系预测的损失作为辅助训练目标,将传统的KBC的自回归训练目标转为类似蒙面语言模型的自监督训练目标,实验证明这种简单的辅助训练显著提高了模型在下游数据集的链接预测表现。下面两个公式展示了本文方法与以往传统方法的区别,即在传统的头尾实体预测之外简单地加入一个关系预测损失。
文章在FB15K-237、WN18RR、Aristo-v4等链接预测经典数据集上进行了实验。实验结果表明本文提出的方法在不同数据集、不同模型上都有很大提升,在关系数量较多的KB中表现尤为突出;并且通过一些可视化的分析,证明模型学到了更好的实体和关系的嵌入表示。此外,本文的方法在最新的链接预测数据集codex(s/m/l)和ogbl-biokg、ogbl-wikikg2上都达到了新的sota,证明了方法在建模多关系KG上的有效性和适用性。
本文简单地将关系预测的自监督训练目标引入传统KGE的学习之中,成功在链接预测任务上取得了最新的成果,尽管下游的基于实体排名的评估任务看起来与关系预测并不相关,实验结果还是证明了方法的有效性。文章启发了在多关系的知识图谱上采用自监督学习的可行性,或将成为今后的一个研究热潮。另一个有趣的研究方向是尝试在链接预测任务之外更多的下游任务,分析和注入一些新的辅助目标,以进一步提高多关系知识图谱的表示。文章的代码、模型和参数配置均已开源,感兴趣的读者可以前去尝试:https://github.com/facebookresearch/ssl-relation-prediction
速报3
CKGG
OpenKG地址:http://openkg.cn/dataset/ckgg
GitHub地址:https://github.com/nju-websoft/CKGG
数据地址:https://doi.org/10.5281/zenodo.4668711
论文地址:https://doi.org/10.1007/978-3-030-88361-4_25
开放许可协议:CC BY-SA 4.0
贡献者:南京大学(沈俞霖,陈子恒,程龚,瞿裕忠)
为解决高质量高中地理知识图谱缺乏的问题,我们首先从教辅资料中构建了覆盖高中地理核心概念的本体。以此为基础,我们构建了中文高中地理知识图谱 CKGG (Chinese Knowledge Graph for Geography),覆盖高中阶段的核心知识。我们基于 GeoNames 和 Wikidata 的实体合并得到了 CKGG 中的地点实体,并使用了多种工具整合了不同来源不同格式的数据。CKGG 共包含 15 亿个 RDF 三元组,120 余万实体。下图概述了 CKGG 的数据来源。
CKGG 的本体包含 755 个类,304 个简单属性,89 个复杂属性。CKGG本体的一个示例如下。
我们使用7步法构建本体,详细过程为:
明确范围:CKGG 需覆盖高中地理教材/教辅中的大部分核心概念,我们使用教辅资料作为本体的数据源。
考虑重用:我们重用了标准的 RDF 和 RDFS 术语表达实体的名称和类型,重用了 WGS84 Geo Positioning 术语 (wgs84_pos:lat, wgs84_pos:long) 表达实体的经纬度信息,并重用了 Clinga 本体的行政区划层级关系。
列举术语:我们人工从教辅资料中收集了术语,并加入了少量的常识术语(如“公共设施”)
定义类:我们使用自顶向下的方法,定义了地理实体大类,在大类下定义了地点、气候类型等子类,并根据教辅资料和常识对类进行了进一步细分。
定义属性:我们将收集到的术语中的属性关联到其对应的 rdfs:domain 类型上。大多数属性的 rdfs:domain 类型为“地点”,例如海拔高度、气候类型、受洋流影响等。此外我们定义了“上级地点”属性,表述地点之间的从属关系。
定义约束:对每个属性,我们通过定义 rdfs:range 属性设置了它们的取值范围。对于一些枚举类型的属性,我们使用了 owl:oneOf 进行定义。例如“科技水平”被定义为可取值“极高”、“高”、“中”、“低”、“极低”,以便表达此类定性的属性值。
创建实例:对于 CKGG 的本体,我们没有定义对应实例,实例将在 CKGG 的图谱中构建时进行定义。
CKGG的图谱构建主要分为实体构建、基本属性构建和其他属性构建,此外我们还构建了地点的重要性分数属性以便下游应用进行消歧。下面对各个步骤进行详细介绍。
实体构建:我们收集了 GeoNames 的所有实体和 Wikidata 的含中文标签和经纬度的地理实体。我们使用了两个数据源中原有的实体之间的对应关系。此外,我们使用启发式的方法得到了 GeoNames 中可能重复的实体之间的关系。最后我们使用这些对应关系将相同实体合并为 CKGG 中的一个实体。
基本属性构建:我们考虑地点的类型、名称和经纬度作为基本属性,要求 CKGG 中每个地点必须包含这三个属性。我们使用 AgreeMakerLight 跨语言本体对齐工具得到了 CKGG 本体和 GeoNames 特征码的对齐,进行人工验证后,使用该信息设置地点的类型。地点的名称我们使用了 Wikidata 和 GeoNames 的所有中文名,以及 GeoNames 中的标准英文名。对于地点的经纬度,由于之前实体合并的影响,可能存在多值,我们选择中心点作为地点的标准经纬度。
其他属性构建:我们收集了地点的气温、降水量、太阳辐射量、多边形范围、洋流、气候、统计信息等数据。
对气温、降水量、太阳辐射量,我们使用了网格数据源,数据源中地表按经纬度划分为了多个网格,每格对应了一个值。我们使用上一步得到的标准经纬度对每个地点的属性进行赋值。
对地点多边形范围,我们使用了 GIS 多边形数据源。将地点的多边形范围赋值后,我们根据此范围推算出了地点的包含关系。
对地点的洋流、气候等数据,我们使用了 GIS 工具将书本中的气候图和 Wikipedia 中的洋流图分别标注为多边形和折线段,后根据地点与其关系得到地点的气候类型和影响地点的洋流。
对地点的统计信息数据,我们目前对国内的地点进行了处理。我们收集了国家统计局网站上的分省统计数据,并使用自动化与人工结合的方法与本体进行了对齐。此外,我们还收集了国家统计局的行政区划数据,与 CKGG 中的地点进行对齐,以得到行政区的区划代码,使用该代码将统计数据与地点进行关联。
实体重要性属性构建:我们使用实体对应的 Wikipedia 文章的入链接量表示实体的重要性,该数据可以有效在无上下文的情况下对实体消歧。例如包含“北京”的重要性最高的实体是中国的首都,而非其他同名的地点。
CKGG 共包含 121.9 万个实体与 15 亿条三元组。对 CKGG 的质量,我们通过人工抽样的方式评估了地点实体的覆盖率、地点合并的准确率、实体包含关系的准确率。其中,地点合并的准确率超过 93%,实体包含关系的准确率达到 100%。CKGG 实体对高中地理教材的覆盖约为 79%,我们发现主要原因为复杂抽象实体(某河流流域、某河流河谷)较少被来源数据源描述。
我们通过对高质量的地理数据源进行格式转换,得到了 CKGG 知识图谱,这项工作被语义网领域国际顶会ISWC 2021授予最佳资源论文提名奖。虽然其构建目的主要为针对高中地理教育的应用,我们的图谱也能用于其他地理应用。下一步工作我们将向 CKGG 中填充更多数据,并研究 CKGG 在问答系统中的应用。
知识图谱AI大本营
知识图谱AI大本营 是一个追踪、解读、讨论和报道知识图谱、深度学习、机器学习等AI前沿成果的学术平台,致力于让人工智能领域的国内外优秀科研工作者们得到交流学习的机会
扫二维码 关注我们
扫二维码 关注我们
知识图谱| 机器学习
深度学习|AI前沿成果
Knowledge-Graph