开箱即用的百度开放域信息抽取的统一框架UIE

前言

在日常工作中,从文本中抽取各类信息是常见的基本任务,今天要给大家介绍的是百度开源的UIE框架,这一框架在实体抽取、关系抽取、事件抽取、情感分析等任务上都有着良好的泛化效果。其在医疗、金融等领域都有着不错的效果。

而且最重要的是其可以实现零样本(zero-shot)或者少样本(few-shot)抽取,达到了开箱即用的效果。

医疗领域效果:

开箱即用的百度开放域信息抽取的统一框架UIE_第1张图片

金融领域效果:

开箱即用的百度开放域信息抽取的统一框架UIE_第2张图片

框架地址:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie​github.com

怎么开始

这里就不多介绍了,其官方文档中都有demo,如:

开箱即用的百度开放域信息抽取的统一框架UIE_第3张图片

笔者自己也试了一下:

开箱即用的百度开放域信息抽取的统一框架UIE_第4张图片

开箱即用的百度开放域信息抽取的统一框架UIE_第5张图片

开箱即用的百度开放域信息抽取的统一框架UIE_第6张图片

更多用法大家可以自己试试,这里需要说的是整个框架是以ERNIE(百度的一个预训练模型)为backbone,基于prompt思想设计的,这里的prompt其实就是代码中的schema,可以看得出怎么设计prompt模版成为了最关键的点,而UIE把怎么设计模版这个问题下放给了用户,这样就满足了用户形形色色的需求。

作为用户,我们在使用的时候最应该关注点就是怎么设计自己的prompt模版,这里笔者也试了一下,通常来说prompt模版提示词最好在原文出现,不出现比较难抽取出来,当然了一些通用抽取类型比如“时间,地点,机构”啥的直接裸写就可以。

总结

其实不论是NLP亦或是CV等领域,模型、任务统一都是个趋势,Bert等预训练模型的出现其实相比以前就在一定程度上统一了一波,将来还会更统一,其实从最高的理想状态来说最好就一个大一统模型,它什么都可以完成,其不仅仅能完成一个模态中的各类任务,而且还能处理各种模态任务,哈哈,这个理想也许很远,但是确实一直在前进。

 关注

欢迎关注,下期再见啦~

欢迎关注笔者微信公众号:

开箱即用的百度开放域信息抽取的统一框架UIE_第7张图片

github:

Mryangkaitong · GitHubhttps://github.com/Mryangkaitong

知乎:

小小梦想 - 知乎

你可能感兴趣的:(深度学习,自然语言处理,机器学习)