UIE实体关系抽取解读

通过UIE默认抽取关系

from paddlenlp import Taskflow

schema = {'图书':['作者']}
ie = Taskflow('information_extraction',schema=schema)
a = ie("《老公请回家》是绯茵创作的网络小说,发表于17K小说网")
print(a)
# 打印的值:[{}]

通过预训练模型直接抽取,数据没有返回。

先看下通过finetune预训练模型后的结果如下:

from paddlenlp import Taskflow

schema = {'图书':['作者']}
ie = Taskflow('information_extraction',schema=schema,task_path="./checkpoint/model_best")
a = ie("《老公请回家》是绯茵创作的网络小说,发表于17K小说网")
print(a)
# 打印的值:[{'图书': [{'text': '老公请回家', 'start': 1, 'end': 6, 'probability': 0.9590976332847134, 'relations': {'作者': [{'text': '绯茵', 'start': 8, 'end': 10, 'probability': 0.9995966935723786}]}}]}]

那我们接下来看怎么进行关系抽取?

数据下载 doccano 导出标注文本格式如下:

#doccano_ext.jsonl
{"id":136,"text":"《物流作业方法》是2003年由广东经济出版社出版发行的图书,作者是李培亮","entities":[{"id":126,"label":"图书","start_offset":1,"end_offset":7},{"id":127,"label":"姓名","start_offset":33,"end_offset":36}],"relations":[{"id":12,"from_id":126,"to_id":127,"type":"作者"}],"spo_list":null}
{"id":143,"text":"《开会是门技术活儿》是湖南文艺出版社出版的图书,作者是简宁","entities":[{"id":135,"label":"图书","start_offset":1,"end_offset":9},{"id":136,"label":"姓名","start_offset":27,"end_offset":29}],"relations":[{"id":16,"from_id":135,"to_id":136,"type":"作者"}],"spo_list":null}
{"id":151,"text":"因为有了童年的情绪的发酵和自己父母的离婚事件作为底色,所以德里克·斯安弗朗斯创作起《蓝色情人节》的剧本来也就得心应手,他只用了三个月就把剧本写作出来了","entities":[{"id":112,"label":"图书","start_offset":42,"end_offset":47},{"id":113,"label":"姓名","start_offset":29,"end_offset":38}],"relations":[{"id":5,"from_id":112,"to_id":113,"type":"作者"}],"spo_list":null}
{"id":152,"text":"图书信息书名: 戳脚汇宗  发行时间: 2004年6月  地区: 大陆  语言: 简体中文内容简介驰名京城的老武术家刘学勃将数十年习武授拳的心得体悟写成《戳脚汇宗》,是又一部挖掘整理武术遗产的著作","entities":[{"id":120,"label":"图书","start_offset":77,"end_offset":81},{"id":121,"label":"姓名","start_offset":58,"end_offset":61}],"relations":[{"id":9,"from_id":120,"to_id":121,"type":"作者"}],"spo_list":null}
{"id":154,"text":"从《我是太阳》到《我是我的神》,著名作家邓一光再献力作","entities":[{"id":129,"label":"图书","start_offset":9,"end_offset":14},{"id":130,"label":"图书","start_offset":2,"end_offset":6},{"id":131,"label":"姓名","start_offset":20,"end_offset":23}],"relations":[{"id":13,"from_id":130,"to_id":131,"type":"作者"},{"id":14,"from_id":129,"to_id":131,"type":"作者"}],"spo_list":null}

转化脚本

python doccano.py \
    --doccano_file ./data/doccano_ext.jsonl \
    --task_type ext \
    --save_dir ./data \
    --splits 0.8 0.2 0

格式如下:

#train.txt
{"content": "因为有了童年的情绪的发酵和自己父母的离婚事件作为底色,所以德里克·斯安弗朗斯创作起《蓝色情人节》的剧本来也就得心应手,他只用了三个月就把剧本写作出来了", "result_list": [{"text": "德里克·斯安弗朗斯", "start": 29, "end": 38}], "prompt": "蓝色情人节的作者"}
{"content": "《星座牵绊》是连载于潇湘书院的小说,作者是幻溟妖娆", "result_list": [{"text": "星座牵绊", "start": 1, "end": 5}], "prompt": "图书"}
{"content": "《人间喜剧第十卷》是1997年人民文学出版社出版的图书,作者是巴尔扎克", "result_list": [{"text": "巴尔扎克", "start": 31, "end": 35}], "prompt": "人间喜剧第十卷的作者"}
{"content": "从《我是太阳》到《我是我的神》,著名作家邓一光再献力作", "result_list": [{"text": "我是我的神", "start": 9, "end": 14}, {"text": "我是太阳", "start": 2, "end": 6}], "prompt": "图书"}
{"content": "《星座牵绊》是连载于潇湘书院的小说,作者是幻溟妖娆", "result_list": [{"text": "幻溟妖娆", "start": 21, "end": 25}], "prompt": "姓名"}
{"content": "从《我是太阳》到《我是我的神》,著名作家邓一光再献力作", "result_list": [{"text": "邓一光", "start": 20, "end": 23}], "prompt": "我是太阳的作者"}
{"content": "《纵横青春》是连载于17k小说网的网络小说,作者是沭尘", "result_list": [{"text": "沭尘", "start": 25, "end": 27}], "prompt": "纵横青春的作者"}
{"content": "《黑兔子·白兔子》是2010年黑龙江美术出版社出版的图书,作者是小爱", "result_list": [{"text": "黑兔子·白兔子", "start": 1, "end": 8}], "prompt": "图书"}
{"content": "《听赵教授讲家教的故事》是2007年石油工业出版社出版的图书,作者是赵忠心", "result_list": [{"text": "赵忠心", "start": 34, "end": 37}], "prompt": "姓名"}
{"content": "图书信息书名: 戳脚汇宗  发行时间: 2004年6月  地区: 大陆  语言: 简体中文内容简介驰名京城的老武术家刘学勃将数十年习武授拳的心得体悟写成《戳脚汇宗》,是又一部挖掘整理武术遗产的著作", "result_list": [{"text": "刘学勃", "start": 58, "end": 61}], "prompt": "戳脚汇宗的作者"}

关系中多了一个prompt,图书+作者,例:"人间喜剧第十卷的作者"。
训练和实体抽取一样

你可能感兴趣的:(UIE实体关系抽取解读)