1. 数据科学是什么?数据科学家在做什么?
2. 描述性数据分析(IJCAI2017)
3. 知识库(IJCAI2017)
(1) BabelNet 自动构建的、开放领域的、多语言的语义网络
(2) YAGO2 以Wikipedia为知识来源,包含空间、时间维度的高密度大规模知识库
4. 什么是知识?
(1)表示形式和传承方式:人类的自然语言、创作的绘画和音乐、数学语言、物理模型、化学公式。
(2)关键问题:怎样用计算机易于理解的方式表示知识。
(3)NN也是一种知识表示形式。
5. 两大学派
smart AI 联结主义:学习(感知、识别、判断),如深度学习(DL)
knowledgeable AI 符号主义:推理(思考、语言、推理),如知识图谱(KG)和专家系统
AI的未来:联结主义+符号主义 学习+推理 感知+认知(Learning+Reasoning)
6. 什么是知识表示(KR)
(1)简单而言,KR是易于计算机处理的方式来描述人脑的知识。
(2)关键:KR可以用于推理。
(3)KR的用途
a. A KR is a surrogate
b. A KR is a set of ontological commitments
c. A KR is a theory of intelligent reasoning
d. A KR is a medium for efficient computation
e. A KR is a medium of human expression
(4)KR分类
基于离散符号的KR:RDF,OWL,各种Rule Language等(显式知识、强逻辑约束、易于解释、推理不易扩展)
基于连续向量的KR:Tensor,各种Embedding,神经网络表示等(隐式知识、弱逻辑约束、不易解释、对接神经网络)
7. 知识图谱的应用:Google知识图谱、Facebook兴趣图谱
8. 知识图谱的历史起源
语义网络(1960),本体论(1980),Web万维网(1989),知识图谱(2012)
9. 知识图谱的本质
分别从Web、NLP、KR、AI、DB视角
10. 应用
(1)KG辅助搜索:KG4SEO(搜索引擎优化),从网页搜索到语义搜索
(2)KG辅助问答:KG4BOTS、KBQA(知识库问答)、Visual QA
(3)KG辅助决策:预测性分析
(4)KG辅助语言理解:Machine Reading(利用KB辅助背景知识,将概念性知识作为NN的输入)
(5)KG辅助AI:常识推理
11. 知识图谱工程:知识表示、知识抽取、知识融合、知识链接、知识存储、知识众包、知识推理、可视化、语义搜索、知识问答
12. 各种知识图谱项目:通用的、基于某领域的、基于中文的等
13. KG构建与获取
(1)FreeBase:Google收购的,开放免费(CC BY SA)
(2)WikiData:全世界最大的免费知识库
(3)Schema.org:在网页、邮件、应用程序当中嵌入语义数据,用于SEO
(4)ConceptNet:起源于MIT
(5)事实
a. 大规模KG依赖开放域知识抽取和开放社区协同方式
b. NLP/ML只是获得KG的手段
c. 构建KG的成本非常高
d. KG共同问题是知识缺失严重
14. 关于Open的解读:OpenKG ≠ Open Data
15. 开源的数据:可商业化的开放数据许可协议、常用数据库的许可协议
(1)Creative Common:CC0,CC-BY,CC-BY-SA
(2)Open Knowledge Foundation:PDDL,ODC-BY,ODbL
16. 关于OpenKG
(1)OpenKG DATA(百科知识),Open Schema(通用常识域),Open Bots(QA测试),Open Models
(2)开源的知识库:openkg.cn
(3)工具:protege(知识建模),DeepDive(知识抽取),gStore(知识存储),YodaQA(知识问答),Limes(知识融合)
17. schema.org运行机理
18. schema.org和cnschema.org(中文),cnschema.org用于KG数据建模与推理
思考
1. 利用知识图谱能够实现可解释性的人工智能吗?
2. 行业知识图谱很缺乏吗?
3. “类”和“属性”有什么区别呢?
4. 知识图谱未来是否可能实现自动抽取呢?