欢迎注册 CCKS2021 全国知识图谱与语义计算大会 知万物过去 · 谱AI未来 2021年8月18日至8月21日 广州 http://sigkg.cn/ccks2021 主办:中国中文信息学会语言与知识计算专业委员会 承办:广东外语外贸大学 |
早期注册 1800元/人 2021年7月28日前(含)晚期注册 2000元/人 2021年7月28日 - 2021年8月18日(含)现场注册 2200元/人 欢迎注册参会(点击阅读原文,进入注册页面) |
广州逸林假日酒店 |
|
第27期:知识图谱前沿技术与应用(CIPS ATT27)(线上举行) |
2021年8月18日(星期三) |
08:50 – 09:00 | 讲习班开班仪式09:00 – 12:00 | 常识知识的获取与推理宋阳秋(香港科大)14:00 – 17:00 | 因果启发的学习和推理崔鹏(清华大学) |
2021年8月19日(星期四) |
09:00 – 10:30 | 自然语言处理中符号规则方法的神经网络化屠可伟(上海科大)10:40 – 12:10 | 基于深度学习的自然语言语义解析陈波(中科院软件所)14:00 – 15:30 | 工业级知识图谱构建及实践张杰(明略数据)15:40 – 17:10 | 知识图谱在故障分析场景下的构建与问答应用实践文辉(达观数据) |
CCKS2021主会(线下举行) |
2021年8月20日(星期五) |
08:30 – 09:00 | 开幕式09:00 – 10:00 | 特邀报告:Mining Structured Knowledge from Massive Unstructured TextJiawei Han ( University of Illinois at Urbana-Champaign )10:00 – 11:00 | 特邀报告:复杂推理的进展和挑战周明( 创新工场 )11:30 – 12:30 | 知识图谱相关顶级会议回顾及研究进展报告程龚(南京大学)陈玉博(中科院自动化所)张静(中国人民大学) |
2021年8月21日(星期六) |
08:30 – 09:30 | 特邀报告:图神经网络 (GNN) 及自监督学习唐杰 ( 清华大学 )09:30 – 10:30 | 青年学者论坛陈文亮(苏州大学)张伟(华东师范大学)余建兴(中山大学)14:00 – 17:30 | 知识图谱工业界论坛(4 Sessions)尚书 ( 清华大学 )苗喜江 ( 卫宁健康 )茹海燕 ( 智通云联 )张凯 (vivo)宋劼 ( 文因互联 )翟士丹 ( 海致科技集团 )李凤麟 ( 阿里巴巴 )张鸿志 ( 美团搜索与NLP部NLP中心 )赵学敏 ( 京东 )王鹏程 (小米)陈曦 ( 腾讯 )裘靖宇 ( 维智 ) |
报告一 Mining Structured Knowledge from Massive Unstructured Text Abstract:理解人类语言需要复杂的世界知识。近年来,常识知识的获取和推理越来越受到研究界的关注。本报告将简要介绍我们如何获得常识知识并形成知识库或知识图谱,以及最近的基准数据集和在常识问答上的表现。 报告人简介:Jiawei Han is Michael Aiken Chair Professor in the Department of Computer Science, University of Illinois at Urbana-Champaign. He received ACM SIGKDD Innovation Award (2004), IEEE Computer Society Technical Achievement Award (2005), IEEE Computer Society W. Wallace McDowell Award (2009), and Japan’s Funai Achievement Award (2018). He is Fellow of ACM and Fellow of IEEE and served as the Director of Information Network Academic Research Center (INARC) (2009-2016) supported by the Network Science-Collaborative Technology Alliance (NS-CTA) program of U.S. Army Research Lab and co-Director of KnowEnG, a Center of Excellence in Big Data Computing (2014-2019), funded by NIH Big Data to Knowledge (BD2K) Initiative. 报告摘要:The real-world big data are largely dynamic, interconnected and unstructured text. It is highly desirable to transform such massive unstructured data into structured knowledge. Many researchers rely on labor-intensive labeling and curation to extract knowledge from such data. Such approaches, however, are not scalable. We vision that massive text data itself may disclose a large body of hidden structures and knowledge. Equipped with pretrained language models and text embedding methods, it is promising to transform unstructured data into structured knowledge. In this talk, we introduce a set of methods developed recently in our group for such an exploration, including joint spherical text embedding, discriminative topic mining, taxonomy construction, text classification, and taxonomy-guided text analysis. We show that data-driven approach could be promising at transforming massive text data into structured knowledge. |
报告二 复杂推理的进展和挑战 报告人简介:周明现任创新工场首席科学家、澜舟科技创始人和CEO、中国计算机学会副理事长、中国中文信息学会常务理事。他曾任微软亚洲研究院副院长、 国际计算语言学协会(ACL)主席。他还担任哈工大、天津大学、南开大学、北航、中国科技大学等高校的博士导师。他是2018年首都劳动奖章获得者。 报告摘要:近年来,复杂推理的研究受到了越来越多的关注,它需要理解相关信息并应用复杂规则得到正确的推论。作为人类智能决策的一项重要能力,复杂推理在许多复杂的现实场景中发挥了作用,如数学应用题、辩论谈判和医学诊断等。我们通过对美国司法学院入学考试LSAT中的三种任务(分析推理、逻辑推理和阅读理解)来探索复杂推理研究目前的进展和挑战。我们比较了符号方法、神经方法和神经符号方法的优缺点,并针对三种任务分别提出了对应的模型以探索复杂推理的能力,尤其是极具挑战性的逻辑推理能力。我们实验了大规模预训练模型和任务特定的推理模块相结合,以及符号知识和离散推理步骤相结合等多种方法。我们既看到了有意思的进展,也遇到了很大的困难。本演讲将介绍我们在这些方面的一系列进展,分析复杂推理的存在的挑战,并探究未来可能的研究方向。 |
报告三 图神经网络 (GNN) 及自监督学习 Abstract:近几年深度学习和神经网络方法已成为自然语言处理领域的主流方法,但传统的符号主义方法仍然具有一些独特的优点。在本次报告中,我将讨论把传统符号规则方法和神经网络方法进行结合,使其相互取长补短的一些近期工作。首先,我将介绍如何把诸如正则表达式这样的符号规则融合入神经网络,得到结合两者优点的模型。其次,我将介绍利用神经网络技术进行句法规则和形式文法的无监督学习的一系列工作。 报告人简介:唐杰,清华大学计算机系教授、系副主任,获杰青。研究人工智能、认知图谱、数据挖掘、社交网络和机器学习。发表论文300余篇,引用18000余次,获ACM SIGKDD Test-of-Time Award(十年最佳论文)。主持研发了研究者社会网络挖掘系统AMiner。担任IEEE T. on Big Data、AI OPEN主编以及WWW’21、CIKM’16、WSDM’15的PC Chair。获北京市科技进步一等奖、人工智能学会一等奖、KDD杰出贡献奖。 报告摘要:图神经网络将深度学习方法延伸到非欧几里得的图数据上,大大提高了图数据应用的精度。在这个报告中,我将简单回顾一下图神经网络(GNN)并探讨如何提高GNN在图数据上的表示学习能力,并且有效避免传统GNN存在的过平滑(Over-smoothing)、过拟合(Over-fitting)以及鲁棒性差的问题,同时我也会探讨负采样在GNN表示学习中的重要性。其次我会介绍最近我们在GNN自监督学习(Self-supervised Learning)方面的一些工作。我还将简单介绍一下如何将图神经网络应用于决策。 |
报告一 常识知识的获取与推理 Abstract:理解人类语言需要复杂的世界知识。近年来,常识知识的获取和推理越来越受到研究界的关注。本报告将简要介绍我们如何获得常识知识并形成知识库或知识图谱,以及最近的基准数据集和在常识问答上的表现。 宋阳秋,现任香港科技大学助理教授,清华大学学士、博士。曾在多家工业界研究机构(Google、IBM、微软、华为)以及学校(香港科技大学、伊利诺伊香槟分校、西弗吉尼亚大学)从事研究工作。在数据挖掘、人工智能、自然语言处理领域发表多篇文章,曾获KDD2017 Data Science Track最佳论文、IUI2015最佳论文提名、KDD2014优选发表TKDD论文(九篇之一)及PAKDD2007最佳论文提名。担任JAIR编委、IJCAI2019 Local Chair等职位。 |
报告二 因果启发的学习和推理 Abstract:近年来人工智能技术的发展,在诸多垂直领域取得了性能突破。但当我们将这些技术应用于医疗、司法、工业生产等风险敏感领域时,发现当前人工智能在稳定性、可解释性、公平性、可回溯性等“四性”方面存在严重缺陷。究其深层次原因,当前统计机器学习的基础——关联统计自身不稳定、不可解释、不公平、不可回溯可能是问题的根源。相对于关联统计,因果统计在保证“四性”方面具有更好的理论基础。但如何将因果统计融入机器学习框架,是一个开放并有挑战的基础性问题。本报告中,讲者将重点介绍因果推断的基础原理以及最新进展,因果启发的稳定学习理论和方法,及其在解决OOD泛化问题方面的机会和挑战。 崔鹏,清华大学计算机系长聘副教授,博士生导师。研究兴趣聚焦于大数据驱动的因果推理和稳定预测、大规模网络表征学习等。在数据挖掘及人工智能领域顶级国际会议发表论文100余篇,先后5次获得顶级国际会议或期刊论文奖,并先后两次入选数据挖掘领域顶级国际会议KDD最佳论文专刊。担任IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD等国际顶级期刊编委。曾获得国家自然科学二等奖、教育部自然科学一等奖、电子学会自然科学一等奖、北京市科技进步一等奖、中国计算机学会青年科学家奖、国际计算机协会(ACM)杰出科学家。 |
报告三 自然语言处理中符号规则方法的神经网络化 Abstract:近几年深度学习和神经网络方法已成为自然语言处理领域的主流方法,但传统的符号主义方法仍然具有一些独特的优点。在本次报告中,我将讨论把传统符号规则方法和神经网络方法进行结合,使其相互取长补短的一些近期工作。首先,我将介绍如何把诸如正则表达式这样的符号规则融合入神经网络,得到结合两者优点的模型。其次,我将介绍利用神经网络技术进行句法规则和形式文法的无监督学习的一系列工作。 屠可伟,博士,上海科技大学信息科学与技术学院长聘副教授、研究员、博士生导师。美国爱荷华州立大学计算机博士;美国加州大学洛杉矶分校统计系与计算机系博士后。研究方向包括自然语言处理、机器学习、知识表示、计算机视觉等人工智能领域,目前侧重于研究语言结构的表示、学习与应用。发表论文近百篇,主要发表于ACL、EMNLP、NAACL、AAAI、IJCAI、NeurIPS、ICCV等顶级会议。曾担任ACL、EMNLP、NAACL等多个顶级会议程序委员会委员和领域主席。 |
报告四 基于深度学习的自然语言语义解析 Abstract:自然语言语义解析是实现自然语言理解的关键技术之一,能广泛应用于智能问答、语音助手、智能机器人等人工智能服务。本报告将简要介绍语义解析领域目前主流的基于深度学习的方法、基于大规模预训练的方法,以及热门的语义解析任务(如表格解析)。 陈波,博士,现任中国科学院软件研究所副研究员,2018年获得中国科学院大学工学博士学位,并荣获优秀毕业生,2020年获评中科院软件所优秀青年科技人才计划。研究方向为语义解析和自然语言处理。迄今在包括ACL、AAAI、IJCAI、CIKM、COLING、NAACL等在内的国际顶级会议发表学术论文多篇。主持一项国家青年科学基金项目,参与多项国家自然科学基金重点课题以及企业合作科研项目的研发。 |
报告五 工业级知识图谱构建实践 Abstract:在传统行业纷纷做数字化转型的背景下,如何利用知识图谱技术有效地沉淀和管理知识资产,成为企业保持持续创新力的关键问题。本报告结合明略科技在营销、金融、轨交等多个领域的项目经验,介绍工业级知识图谱构建过程中涉及到的两类用户(知识工程师、知识官)、三类知识(事实知识、原理知识、技能知识)和四项能力(知识抽取、知识管理、知识计算、知识演化),并针对行业应用中的痛点,介绍知识图谱在可视化洞察、搜索、推荐、问答等落地场景中的实践。 张杰,明略科学院知识工程实验室主任,天津大学计算机专业博士,曾任职于华为中央研究院、金融科技公司CTO。研究方向为知识工程、自然语言处理,技术专著1部,国家项目8项,学术论文10余篇,发明专利100余项。主持开发推荐引擎、知识问答系统、客服机器人、大数据风控系统、行业知识图谱等多项系统,累计销售额数亿元。 |
报告六 知识图谱在故障分析场景下的构建与问答应用实践 Abstract:本次分享重点介绍故障分析场景下知识图谱的构建和问答技术算法应用和实践,具体内容包括:1)在少量标注样本下基于开放Bert进行实体抽取效果优化,以及基于触发词的关系抽取效果优化;2)基于失效知识图谱的实体链接和意图识别模型训练,探讨如何基于图谱+模板生成意图识别的样本数据;3)达观知识图谱平台架构演化以及项目实践和经验。 文辉,达观数据联合创始人,主要负责达观数据知识图谱方向产品和技术研发。 在知识图谱、搜索推荐、自然语言处理、分布式平台架构设计等方面具备10年的研发和实践经验。熟悉知识图谱构建原理、架构和算法,先后负责多个知识图谱、推荐、搜索相关大型项目,具有丰富的知识图谱应用落地化经验。对图挖掘分析、图谱问答、搜索推荐等关键算法有着深厚理解和丰富实践经验。 |
报告一 区块链遇上知识图谱 Abstract:随着近年区块链技术的高速发展,计算和存储两大基础能力越来越强,其应用场景也从共享账本放大到了共享数据库。恰逢此时,基于区块链打造一个共享知识图谱库成为可能。本次分享将重点介绍基于区块链技术搭建共建共享共益知识图谱协作平台的思路与实践,讲述在新机制下的高效率与新挑战。 尚书,清华大学计算机硕士。前 Nebulas 架构师兼首席研发。Conflux 技术商务总监兼生态总监。EpiK Protocol 知识生态大使。区块链视频专栏《尚书房》主播。 |
报告二 知识图谱在健康领域的挑战和实践 Abstract:医疗是高度知识密集型的行业,医疗信息系统在医疗决策及医院管理中发挥着关键作用,是医疗智能化革新的基石。医疗相关知识体系是医疗信息系统的核心,具有知识范围广、结构复杂、数量庞大的特点,对知识体系的组织及表示形成挑战。知识图谱由于其系统性及形象化的优势,是知识表示的重要方法,兼具医疗业务逻辑推理的功能。而知识图谱在临床实践中成功应用,从使用者的角度,适时地、合规地、可靠地传达知识,则离不开以信息化系统的数据标准和数据共享为基础的高质量的患者数据。 苗喜江,卫宁健康产品总监。苗喜江博士于西安工业大学、北京邮电大学及美国南卡罗莱纳大学获得学士、硕士及博士学位,2007加入世界领先的医疗信息系统软件公司Epic Systems从事产品开发,回国后加入卫宁健康科技集团,负责卫宁新一代医院信息化系统的产品架构设计,在医疗行业有丰富的业界经验及洞见。 |
报告三 基于知识图谱的工业APP开发与应用示范 Abstract:基于知识图谱的工业互联网解决方案以数据-信息-知识-智慧的D-I-K-W模型为基础,实现数据采集、知识提炼的开放工具与服务,形成不同行业的知识图谱,即行业大脑。同时,面向不同应用场景,提供基于知识图谱的智能应用APP。解决方案基于知识图谱这一人工智能领域的重要分支技术,充分发掘事物背后的隐性关系,将隐性关系变成数据,并以可视化的形式展示在人们面前。基于知识图谱智能技术的工业互联网解决方案,将“三不”变为“三可”,即将“过去不可见的要素可见,过去不可计算的要素可计算,过去不可联接的要素可联接”,其推广应用具有重要的现实意义。例如,在石化行业,打造了基于知识图谱的知识中心,并面向勘探开发科研、生产等业务打造了十余个工业APP,帮助实现全面、准确、快速的知识获取与共享应用。 茹海燕,智通云联咨询总监,6sigma黑带、MATRIZ(国际TRIZ协会)三级发明专家、中国创新方法研究会企业分会理事 。在知识图谱构建与应用、技术创新与规划、行业知识管理与知识工程规划等方面具有丰富经验,曾帮助中国石化、蒙牛、国家电网、自然资源部、中船集团等众多领域客户在知识图谱产品方面取得了良好的落地性应用。 |
报告四 翻译X理解:知识图谱辅助机器翻译 Abstract:翻译的核心任务是帮助人们理解另一种形式的外界信息,现有的机器翻译能够较好地进行语言的转换,但对于特定领域的实体术语或表达往往理解欠佳例如菜单翻译,本次分享探讨如何通过知识图谱增强机器翻译的领域表现,并帮助用户更好地理解原始信息。 张凯,高级算法工程师,vivo机器翻译工程团队负责人,主要研究方向包括知识图谱、自然语言处理、对话系统、推荐系统、机器翻译等,拥有多年算法落地经验。业内首本聊天机器人专业书籍作者之一。主导构建了开放通用知识图谱《七律》,参与编写发布了《知识图谱评测标准》以及国内首份《知识图谱白皮书》。 |
报告五 基于金融知识图谱打造”数字白领“ Abstract:中国金融监管机构在近期发布了多个监管科技建设工作的顶层设计文件,这标志着金融监管科技已进入了大规模实施的阶段,特别是进入了“监管3.0”时代,以大规模的自动化信息处理和人工智能的广泛应用为特征。在这一建设过程中, 各个层面都面临着很大的挑战,主要表现在数据的机器可处理性和知识的机器可处理性。自然语言处理(NLP)技术可以帮助我们极大扩展数据的机器可处理性,知识图谱(KG)技术可以帮助我们实现知识的机器可处理性。通过知识提取技术从文档(招股说明书、债券募集说明书、公告等)中提取出关键数据,这些数据也构成了金融知识图谱的底层数据。基于此,可以在之上构造诸如财务知识图谱、风险图谱等进一步应用,打造”数字白领“。具体可划分为三个方面:自动化手-”搬移“(记录、填表、发送),自动化眼-“识别”(审核、预警、检查)和自动化脑-“管理”(规划、分配、决策),助力产业全面自动化。 宋劼,文因互联首席科学家,西班牙马德里理工大学人工智能博士,曾任瑞士苏黎世联邦理工学院客座研究员。宋劼有丰富的本体工程、语义建模和平台开发经验,其研究主要集中在物联网、语义网、本体工程、语义建模、规则推理,以及知识图谱在智能设备管理的应用,包括物联网领域的语义数据建模、链接数据的信任和隐私管理和工业互联网。曾任ISWC会议组委,中国人工智能学会会员工委会副秘书长等。 |
报告六 万亿级分布式高性能图数据库的构建 Abstract:本报告将介绍基于Rust语言构建的新一代分布式图数据库AtlasGraph的实践,对核心存储及计算引擎设计进行分享,并对构建图数据库过程中所面临的技术挑战进行总结。基于Rust语言开发的分布式高性能图数据存储引擎,该系统针对高性能存储设备(如NvmeSSD)特性,结合LSM-Tree算法支持高性能数据写入及B-Tree算法支持高性能读取的特点,实现一种新的Bw-Tree算法兼顾高性能读写,支持万亿规模点边数据存储及毫秒级查询;基于Timely-dataflow模型,设计并实现一套分布式并行图计算引擎,支持对低延迟的循环数据流计算,统一流式计算和迭代计算模型,基于代码生成及JIT技术,充分利用多核CPU、SIMD指令集及缓存的优势,实现对图数据的并行向量化计算处理;结合图查询语言的国际标准制定进程,实现GQL(GraphQueryLanguage)语言查询层,支持图数据库的数据管理及查询能力。 翟士丹,海致科技集团算法专家, 主要负责知识图谱构建、知识图谱问答以及图谱动态自适应能力的算法研发,申请了多项相关领域发明专利,全面主导海致科技集团分布式图数据库AtlasGraph、知识图谱分析平台Atlas的研发工作。曾担任搜狐畅游数据开发组负责人,有丰富的知识图谱平台及图数据库构建经验,深度结合行业应用场景,推进知识图谱技术在金融、电力、政府机构等领域的落地。 |
报告七 面向直播的新零售多模态知识图谱建设与应用 Abstract:自2012年谷歌提出”Things,NOT Strings”的概念以来,知识图谱在搜索、推荐和决策分析等场景得到了广泛的应用。在过去的4年期间,我们阿里小蜜知识云团队也一直致力于探索知识图谱在问答和直播业务场景的应用。继2018年双11首次在业界落地解决复杂问题的KBQA技术之后,我们重点探索了新零售领域常识知识的建设与应用,沉淀了百万级常识三元组,在店小蜜的导购推荐、卖点生成等场景中取得了良好的业务效果。从2020年上半年开始,我们扩展至多模态领域,建设了千万级包含文本、图片和视频等多种模态的多模态商品素材知识图谱,强有力的支持了虚拟主播的结构化剧本播报和短视频自动生成等新兴业务的发展。在本次Talk中,我们将重点介绍领域常识和多模态商品素材知识的建设与应用,并和大家分享我们团队在知识图谱实践过程中学习到的经验和教训。 李凤麟,意大利特伦托大学博士,阿里巴巴达摩院算法专家,阿里小蜜知识云算法负责人。主要工作内容为自然语言处理和知识图谱方向,负责阿里小蜜家族智能加速器(AIBoost)和知识云(Knowledge Cloud)两款产品的算法工作。目前已经发表国际会议论文20余篇,并申请专利多项。 |
报告八 生活服务标签图谱构建与应用实践 Abstract:本分享主要介绍标签图谱构建方法,以及标签图谱在搜索、推荐和问答中的落地的实践经验。我们以生活服务领域的海量评论数据作为主要知识来源,通过标签挖掘、标签间关系挖掘以及标签-商户关联等关键技术,自底向上梳理用户的需求、场景和主要关注点,完成图谱构建。所构建的标签图谱,一方面可直接应用于知识问答以及搜索和推荐的标签召回;另一方面,我们探索通过知识预训练方法,将图谱知识更好地融入推荐等下游任务中。 张鸿志,博士,主要研究方向为自然语言理解,知识图谱问答等。目前在美团NLP中心知识图谱组负责标签图谱构建与应用落地,深度参与KBQA方案设计和算法实现。研发的知识图谱问答技术曾获得CCKS2020技术创新奖,并于2021年联合组织CCKS相关评测任务。 |
报告九 金融知识图谱在京东科技业务中的探索与实践 Abstract:金融领域在进行投资研究时,分析师需要从新闻、财报、研报等各个渠道充分获取数据,输出可供投资决策的看法和建议。通过构建金融知识图谱,可以帮助投研人员提高信息获取和数据分析的效率。在实际的金融图谱应用中,由于数据来源多、数据量大,有效信息往往容易被淹没在其中,给相关的自然语言任务带来了很大的挑战。由于金融领域的专业性,标注数据的获取成本较高,因此需要提高数据利用效率、提升标注数据的质量,图谱构建过程中也需要通过算法来进行数据质量检测,这些将直接影响到相关应用的算法效果。本报告主要介绍京东科技将金融知识图谱用于智能投研等领域的一些具体探索和实践,对其中用到的核心技术、落地过程中遇到的问题及对应解决方案进行分享。 赵学敏,目前就职于京东科技自然语言算法团队,博士毕业于中国科学院语言声学与内容理解重点实验室,主要研究方向为知识图谱和口语对话系统。在入职京东前曾在中科院声学所担任副研究员、在阿里巴巴云小蜜团队担任高级算法专家,研发的客服对话系统在中移动、浙江政务等多个系统中上线使用。 |
报告十 小米电商和游戏业务场景下的知识图谱构建 Abstract:随着人工智能技术的不断发展,知识图谱不断加速在各类垂直领域落地。本次分享主要介绍在小米电商和游戏业务场景下商品图谱和游戏图谱的构建方法。商品图谱主要介绍商品节点的构建方法,包括商品属性挖掘、商品评论观点抽取、自动文案生成等,场景词节点构建方法以及上位节点的构建方法。游戏图谱着重分享标签抽取、游戏属性挖掘、游戏评论观点抽取以及一些技术落地的思考。 王鹏程,小米高级算法工程师,目前主要负责小米通用知识图谱流程机制建设以及行业图谱的研究与应用。在知识图谱领域耕耘多年,曾获得过多项机器学习算法竞赛冠军。致力于知识图谱在小爱知识类问答、小米电商、游戏、广告等业务中的落地。 |
报告十一 腾讯医疗知识图谱构建与应用 Abstract:知识图谱可以有效刻画医疗领域大规模复杂专业知识,是基于AI实现医疗智能化的核心能力。本次报告将介绍腾讯医疗知识图谱构建中遇到的主要挑战,着重分享在知识抽取、知识融合及知识校验等关键技术上的算法探索,最后将介绍知识图谱在医疗辅助决策引擎、医疗搜索问答等方向上的应用效果。 陈曦,浙江大学计算机博士,佐治亚理工学院访问学者,中国中文信息学会语言与知识专委会委员,腾讯PCG内容平台部NLP和知识图谱负责人,曾参与主导电商、金融、医疗等多个领域知识图谱研发工作,已在NIPS、IJCAI、ACL、WWW、EMNLP、NAACL等国际顶级会议及期刊发表论文30余篇,授权专利10余项,先后获得NLP国际竞赛SuperGLUE第二名、CCKS和CHIP实体识别和关系抽取等多个竞赛冠军。 |
报告十二 时空图谱赋能智慧城市 Abstract:时空智能是城市数字化新基建的底座。通过对整个城市承载空间的数字化,数智化重构,生成城市管理的核心要素数智资产。经由时空图谱赋能平台对各委办局赋能,实现城市治理的场景化和智能化。 裘靖宇,维智科技合伙人。负责管理时空智能的数据资产生产和数据智能赋能等核心业务。美国Rice大学EE硕士,在美国华盛顿大学MBA。他在西雅图微软总部工作十余年,参与了Windows 2000, Windows XP, Office 等多款核心产品的发布,负责Windows Lync的全球合作伙伴生态,两次获得微软最高级别’Gold Star Award’。2011年回国后,历任PPTV的平台产品部和海外事业部总经理,以及两家创业公司的创始合伙人和CEO。 |
报告一 知识图谱研究进展之语义网视角 程龚,副教授,南京大学计算机科学与技术系副教授、博士生导师。目前主要面向智能软件系统,研究语义网与知识图谱技术,研究主题包括语义搜索、数据摘要、智能问答等。主持国家重点研发计划、国家自然科学基金等资助的多个项目课题。研究成果主要发表在TKDE、WWW、ISWC等期刊会议,获ISWC等国际会议最佳论文奖或提名奖5次,论文总引用2200余次。现任中国计算机学会系统软件专委委员、中国中文信息学会语言与知识计算专委委员、江苏省人工智能学会知识工程与智能服务专委副秘书长,担任过ISWC短文程序委员会主席、CCKS领域主席等职务。 |
报告二 知识图谱研究进展之自然语言处理视角 陈玉博,副研究员,中国科学院自动化研究所。2017年获得中国科学院大学工学博士学位,2017年7月至今在中国科学院自动化研究所模式识别国家重点实验室工作。研究方向为信息抽取、知识图谱和自然语言处理。在ACL、EMNLP、COLING、AAAI、IJCAII等国际重要会议和期刊发表学术论文40余篇,参与出版《知识图谱》专著一本,多次获得最佳论文奖(NLP-NABD 2016、CCKS 2017、CCL 2020),Google Scholar引用量1900余次。主持国家自然科学基金青年基金项目,参与国家自然科学基金重点项目、973计划子课题、重点研发计划子课题以及多项企业合作科研项目的研发,同时也开发了事件抽取、关系抽取、实体识别等多项工具和软件。目前为中国中文信息学会青年工作委员会执行委员、中国中文信息学会语言与知识计算专委会委员。获2018年中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖(个人排名第四)、2019年北京市科学技术进步奖一等奖(个人排名第五),入选第五届中国科协青年人才托举工程。。 |
报告三 知识图谱神经符号推理研究进展 张静,副教授,中国人民大学。中国人民大学信息学院计算机系副教授。目前主要研究方向是图神经网络与知识图谱推理。发表论文50余篇,其中包括KDD、SIGIR、IJCAI、AAAI、WSDM、CIKM、PKDD/ECML等领域内国际顶级会议以及国际顶级期刊TKDE、TOIS论文。Google引用次数4000余次。近年来任IJCAI’21与PKDD/ECML’21程序委员会高级委员以及SIGKDD’21、CIKM’21、SIGKDD’20、SIGKDD’19等程序委员会委员以及TKDE与中国科学等知名杂志审稿人。任AI Open杂志Associate Editor。 |
报告一 基于多策略的中文知识图谱问答系统 Abstract:本次报告主要介绍中文知识图谱问答系统。首先报告回顾中文知识图谱问答系统的历史,接着介绍中文知识图谱问答系统的构建方法。在KBQA系统中,先通过问句意图分析和答案类型分析获取用户输入的基本要素。对于链式查询,采用Beam Search来完成简单多跳查询和受限约束查询。对于逻辑推理问句,分别进行逻辑判断、数值计算和比较选择等操作。最后结合答案类型识别,输出问答系统的最终结果。 陈文亮,苏州大学计算机科学与技术学院教授、博士生导师,苏州大学人类语言技术研究所副所长。近年来在国内外主要期刊杂志和学术会议上发表三十多篇学术论文,如国际主要学术会议ACL、AAAI等,国际顶级杂志如ACM/IEEE等。曾在国际主要学术会议IJCNLP-2013和COLING-2014上作讲习报告(Tutorial)。出版英文专著一本,获得中国专利三项、美国专利一项。 报告二 基于关系图学习的个性化推荐 Abstract:在推荐系统领域,被推荐物品之间富含丰富的关系,例如共现关系、语义关系等。共现关系:物品在同一用户行为序列中相邻出现 。语义关系:华为手机与苹果手机之间的竞争关系,手机与手机壳之间的互补关系 。基于上述关系构建的关系图,本报告关注如何进行有效的关系图学习并提升推荐效果。 张伟,华东师范大学紫江青年学者。博士毕业于清华大学,研究领域为数据挖掘,在CCF A类会议和期刊上发表论文多篇。获2020年度ACM SIGMOD中国新星奖,多次担任顶级会议程序委员会委员,主持国家自然科学面上基金在内项目多项。 |
报告三 基于知识推理的机器阅读理解技术 Abstract:机器阅读理解旨在让机器通过阅读语言内容并理解其语义来精确返回答案,帮助人们从海量语言信息中快速聚焦相关主题,提升信息获取的能效。这项技术在文本理解、信息抽取、人机对话等领域均具有巨大的应用价值。由于用户的信息需求多样,我们不但需要机器具有基本的检索能力,更需要其具备逻辑推理、知识归纳、语义理解等语言认知能力。这给机器阅读理解带来了巨大的挑战。当前许多模型的实际效果还不尽如意,特别是缺乏高阶的知识推理能力。针对这些难点,这里我们分享一些新技术,介绍如何抓住逻辑关联进行知识推理,如何解决训练数据稀缺性的问题,如何实现基于少量的标注样本充分学习;进而推动建立一套从算法可知识推理,标注低成本生成,到模型少样本学习的新方法。 余建兴,中山大学人工智能学院副教授。博士毕业于新加坡国立大学。在CCFA、B类的国际权威学术会议和期刊发表接近20篇论文,申请发明专利40来项,主持和参与各类国家及省市级项目10来项,目前主持的项目科研经费超过320万。此外他还获得广东省2020年和2019年计算机学会优秀论文奖励;入选广东省珠海市青年优秀人才计划;荣获广东省珠海市产业发展与创新人才奖;担任中国计算机学会数据库专委会通讯委员和广东省计算机学会数据库专委会委员等职务。 |
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。