预训练语言模型|情绪分析的多样化应用场景

预训练语言模型:

情绪分析的多样化应用场景

预训练语言模型|情绪分析的多样化应用场景_第1张图片

情绪分析,是目前预训练语言模型被最为广泛运用在量化投资领域的工具之一。量化投资需要将文本数量化,“情绪”便顺理成章,成为很好的中转媒介。在过往时间里,我们在语言预训练领域,尤其文本数据量化,有着长足的积累,在使用过程中,也发现了许多大家共同关心的问题,本文就不同场景下的情绪分析任务,进行系列的探讨,也期望对“情绪分析”这样一个大家已熟知的人工智能场景产生更深刻的理解。

1.情绪分析API介绍

我们目前已推出了社交媒体语言情绪分析,新闻情绪分析,两种BBT(BigBang Transformer乾元大模型,详情可见往期文章)大模型情绪类下游任务,后期还会推出研究报告情绪分析,公告情绪分析等多项情绪类的API接口。

图1:产品结构

预训练语言模型|情绪分析的多样化应用场景_第2张图片

这些接口通过输入的语料来源不同进行区分,以输入为整体进行情绪判断,最长1024个字节输入限制,基本适用各种场景下的文本。

2.细粒度情绪分析(Aspect Based Sentiment Analysis):结合BBT语言大模型的主体识别能力,进行细粒度情绪计算

我们已发布产品的情绪计算默认对文本最主要主体进行情绪判断或不带主体的纯语言内涵情绪判断。我们在研发下游任务的过程中发现,如果以主体+情绪,这样的情绪组为输出会复杂化对情绪分析规则的制定,例如“A公司和B公司合作拿到大笔订单”,那么对于A,B来说 都是利好消息,但如果是“A比B抢先拿到大笔订单”,那么对A来说就是利好,对B就是消极消息,但这两句话文本和描述的事件却非常相似。这仅仅是一些还比较明确的规则,当涉及到例如收购,合并等更复杂的商业事件中,多主体将会带来更复杂的规则,使得做到准确的情绪判断更加困难。

图2:多主语复杂语句

预训练语言模型|情绪分析的多样化应用场景_第3张图片

我们在对三分类的情绪(积极,中性,消极)判断准确率已经能达到80-90%的情况下,在尝试研发细粒度情绪指数,即对情绪进行更细致的分类,以产生更加具有特征性的情绪分布。细粒度情绪计算能将文本中与情绪表达相关的主体、类别、色彩偏向进行提取和计算。细粒度情绪分析也能帮助提高多主语复杂语句的分析能力。

图3:细粒度情绪指数

预训练语言模型|情绪分析的多样化应用场景_第4张图片

3.金融文本在不同场景下的数据特征

同为对情绪进行打分的下游任务,为何我们还会细分社交媒体,新闻,研报公告等等。这正是我们的专业金融大模型相对于通用语料训练出来的大模型的优势所在。传统大模型通过无差别的语料训练,训练出来一个通用的语义理解模型,但通用模型在专业领域的任务表现一般。

图4:社交媒体评论

图5:上市公司公告

预训练语言模型|情绪分析的多样化应用场景_第5张图片

图6:研报文本

如上图所示,同为金融类语料,不同来源之间有很大差距,社交媒体偏口语化,包含更多的语言本身所具有情绪色彩,通用大模型在这种场景下还能适用。当场景逐渐开始复杂起来,如新闻,上市公司公告的一些事件,很多语言本身的情绪色彩就被削弱了,更多的是陈述一个客观事实,而这个时候情绪也实际上非传统意义上的“情绪”,我们要开始对一些事件做定义。如我们知道有例外情况,但大多情况下回购股份代表现金流充裕,会推高股价,当一个专业的分析师看到这一个消息时便会认为这是利好消息,而我们也要让模型学习到分析师的这种能力。研报场景下,那么这种情绪会被进一步演化成平实的,具体专业性的逻辑推理与分析,如果用通用模型,出来的结果可能非常中性,因为这些“情绪”都被包含在了对金融类专业知识的理解当中。

为了学习到不同场景下的“专业”知识,我们在预训练阶段采用了创新性的预训练方法——来源提示法:对不同来源的语料在预训练阶段给予模型一定的提示,使其在底层就形成了一定的场景化理解能力,在预测过程达到更高的准确率。

同时由于我们的语料库十分庞大,以至于在模型预训练的全过程中也只能采样约百分之十的文本进行训练,因此模型势必要对不同来源的语料进行随机采样,如果对所有语料进行简单随机采样,则事实上是对不同来源的语料按大小规模进行混合,这就会导致少部分规模较大的语料主导整个训练过程,所以针我们对不同来源的预训练语料使用了来源相似度加权采样算法,减少模型重复学习,大大提高了模型的学习效率。

图7:来源提示法

预训练语言模型|情绪分析的多样化应用场景_第6张图片

图8:不同数据源的比例带来不同的模型理解能力

预训练语言模型|情绪分析的多样化应用场景_第7张图片

图9 :基于来源比例法的语言预训练方法,Base 版本模型准确度超过T5模型近10%

预训练语言模型|情绪分析的多样化应用场景_第8张图片

“情绪”作为从文本到数字的重要量化媒介,在BBT大模型的金融专业类语料的训练下,已经从简单的判断语言情绪色彩升级到了对专业知识以及逻辑的理解。

4.预训练语言模型能力随参数变大增强

传统NLP模型是以任务为导向,是监督学习,每一个具体任务都需要进行具体的数据标注,建立词典进行分词,再做训练和预测。预训练大模型是自监督学习,可以用MLM(mask language model)将海量未标注的语料进行预训练,预训练语言模型可以微调之后应用于大量下游任务,微调过程只需小样本乃至零样本,预训练语言大模型在各项下游任务都达到了SOTA,准确率超出传统NLP模型,这里的样本更多的是起到指导模型任务形式的作用,而真正的语义理解能力并非来源于训练样本数据。这点可以在两个方面得到佐证:

下游任务中3w训练集和6w训练集表现相同

预训练模型

评估

数据集

data1/PLMs/FinMT5_base

bule_score:0.5822

3w

data1/PLMs/FinMT5_base

bule_score:0.5825

6w

2亿参数模型情绪判断准确度不及10亿

参数

2亿

10亿

情绪准确率

53%

95%

5.BBT大模型下游任务评测数据集

图10:模型网站

预训练语言模型|情绪分析的多样化应用场景_第9张图片

BBT预训练大模型下游任务的训练集,由金融专家制定规则,通过交叉打标签对比得出。BBT大模型官网(https://www.ssymmetry.com:4433/bbt/index.html)公布了下游任务评测数据集。欢迎不同的金融语言模型团队应用BBT金融评测数据集测试模型的准确度,一起推动金融人工智能算法的发展。

你可能感兴趣的:(语言模型,人工智能,自然语言处理)