#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型

对于非结构化数据进行数据抽取时需要用到实体识别、关系抽取、属性抽取等众多信息抽取算法。gBuilder在非结构化抽取功能中提供了一系列算法和算子,可通过拖拽的方式进行抽取流程流水线设计。

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第1张图片

但在实际业务场景中,gBuilder内置的信息抽取模型并不能满足业务的需要,或者使用者本身具有较强研发能力,能够设计准确度更高的算法和模型。因此gBuilder提供了模型标注和训练功能,能够对现在平台已经提供的算法和模型进行重新训练。同时在模型方面采用了松耦合设计,即gBuilder使用者可以通过注册的方式来使用自己本地的模型,该模型运行在使用者本地环境,数据也具有很高安全性保障。

1. 模型标注

1.1 试用版

在模型标注功能上试用版和正式商用版提供不同的功能,商用版的模型标注更加便捷。

1.1.1 标注类型管理

用户在本部分进行标签管理,用户可增加自己在后面实体抽取和关系抽取过程中需要的标签。

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第2张图片

可选择增加实体和关系类型的标注:

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第3张图片

例如增加机构标注实体:

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第4张图片

可根据增加的实体和关系类型名称来进行实体和关系的标注。

1.1.2 NER标注

该部分用户使用已经添加好的NER(实体)类型的标注,来对文本进行标注。首先输入要标注的文本内容:

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第5张图片

例如我们输入一句“小明出生于重庆,毕业于北京大学,小明的弟弟是小洪。”文本:

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第6张图片

然后开始标注,选择实体类型和实体名称即可实现标注:

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第7张图片

同时可在本界面实现标注好的数据的导入导出。

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第8张图片

导出的数据格式如下所示:

1.1.3 RE标注

同样的用户也可对关系进行标注,选择关系类型和对应的实体开始标注:

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第9张图片

标注好关系后,导出的数据格式如下所示:

1.2 正式版(商用)

在商用版提供更加丰富和简单的模型标注功能。可通过直接在页面选择文本进行标注以及直接通过拉线的方式进行关系的标注,极其简单易用,降低标注难度。同时针对标注部分,我们团队研发了专业的标注平台gMark,复杂数据标注人员快速标注数据,并支持多人协同标注工作。在后续weekly中也会进行详细介绍。

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第10张图片

2. 模型训练

用户可在模型中心对非结构化抽取中的模型进行训练,该功能可将gBuilder现有模型来适应具体的应用场景和数据需要。

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第11张图片

选择模型,然后上传训练数据进行模型训练:

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第12张图片

模型上传的训练数据会有一个训练文件示例,可根据模板进行数据准备,也可利用模型标注后的数据导出再上传到该部分进行模型训练,具体的数据示例如下所示:

训练过程中如下所示:

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第13张图片

若模型训练出错也会进行响应信息提示,训练成功会现实训练完成,同时也可在该页面对单个模型的详细信息进行查看:

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第14张图片

3. 模型注册

针对本身具有信息抽取能力的使用者,可通过自定义端点(Endpoint),可以灵活地将自己的数据处理模型或代码嵌入到 gBuilder 非结构化数据知识图谱构建流程中。从而高效、准确、快速的实现非结构化数据的抽取,实现自定义端点的方法及说明请参见文档与示例(https://github.com/pkumod/gbuilder-endpoint-example)。具体如下图所示:

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第15张图片

注册模型需要设置端点名称、URL地址以及模型的类型等信息,通过该功能就可以在gBuilder流水线抽取流程构建进行使用开发者自己的模型。

#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型_第16张图片

若大家在实际项目中需要使用gBuilder可联系运营同学或者发送邮件进行项目层面合作沟通。

你可能感兴趣的:(人工智能,python,机器学习,知识图谱,算法,图数据库)