教你打造智能知识图谱平台-构建企业知识图谱方法和应用

1.   知识图谱平台架构如何搭建

上一篇文章讲过基础的搜索引擎可先不部署OCR功能,此时搭建的图谱功能只能称为一个简单的专家系统。

如果想打造出成熟的图谱系统,还是不能偷懒,按照完整的图谱平台框架构建。如下图:


图谱架构图

2.   模型训练工具(知识获取+知识融合)

1.    开放形知识领域:业内广泛采用NLP训练模型,实现海量数据的自动化抽取和构建。Standford NLP提供了开放信息抽取OpenIE功能用于提取三元组SPO,所以使用Standford NLP更贴合知识图谱构建任务。

2.    垂直形知识领域:Deepdive一款被广泛使用的知识抽取开源工具,能处理文本、表格、图表、图片等多种格式的无结构数据,从中抽取结构化的信息。

 

3.   模型训练成果

3.1.  中文分词和词性标注

根据语义模型自动将汉字字符串切分为符合语义理解的词汇,并进一步运用词性标注技术自动识别相应的词性。

3.2.  命名实体识别

对实体名词进行识别,如人名、地名、物品名称等,如果是特定行业领域用户,需要定制领域训练模型。

3.3.  依存句法解析

通过分析词语之间的搭配与依存关系来解释句法结构,使计算机模拟人类理解句子语义。

3.4.  自定义语义标签

通过深度学习模型:综合考虑词频、词性、词语位置等特征因子,提取重要信息形成语义标签,并计算出每个标签的重要程度。


4.   图分析应用汇总

4.1.  图遍历:广度优先遍历、深度优先遍历

应用:广度优先和深度优先都应用于求解问题的最短路径、最少步骤、最有解决方案。

说明:广度优先分层次搜索;深度优先先遍历当前节点,然后下次只先探索一个当前节点的临近节点,直到达到最大深度。两者搜索的顺序不同。

4.2.  最短路径查询: Dijkstra(迪杰斯特拉算法)、Floyd(弗洛伊德算法)

应用:在networkx、neo4j等图数据库中进行节点关联分析等场景中有直接应用。

说明:算法计算给定的两个节点之间最短(最小权重和)的路径,能够给出关系传播的度数(degree)以及两点之间的最短距离,并计算两点之间成本最低的路线。

4.3.  路径探寻:给定两个或多个节点,发现它们之间的关联关系

应用:用于风控,电商推荐,网络安全等。预测缺失链路或未来可能出现的链路。

说明:链路预测场景中主要完成的是对网络中的两个节点是否可能存在链路进行预测。例如,在推荐系统中,我们推荐的是高度“连接”的产品,可以用GNN训练模型来预测这种链路是否存在。

4.4.  权威节点分析:PageRank算法

应用:通过 PageRank思想的可以得到相应重要的词语或者句子,完成关键词提取或者摘要生成的任务。

说明:

1)所有的中心性算法中最为出名的一个,并在当前的网页排名,文本关键词抽取中使用十分广泛。

2)该算法统计到节点的传入关系的数量和质量,从而决定该节点的重要性,不但考虑节点的直接影响,也考虑 “邻居” 的影响力。例如,一个节点拥有一个有影响力的 “邻居”,可能比拥有很多不太有影响力的 “邻居” 更有影响力。

4.5.  族群发现:最大流算法

应用:关联关系识别犯罪团伙,通过无监督方法识别出一个个联通的社区,其社区背后业务可能是集团性经营。

说明:用于发现相似节点的子集,并将它们分组在一起。

4.6.  相似节点发现:基于节点属性、关系的相似度算法

应用:将一个文本作为一个图的节点,可应用于节点标签分类,包括新闻分类、答疑分类等。

说明:旨在基于其他标记的节点和网络拓扑来确定节点的标签,在网络安全攻击中,可以通过已知具有攻击行为的站点来对未知标签的站点进行预测。

你可能感兴趣的:(教你打造智能知识图谱平台-构建企业知识图谱方法和应用)