yinizhilianlove

重磅！ICLR 2020 「自然语言处理（NLP）」【Prosus AI】金融情感分析FinBERT模型（含源码）！！

来源：AINLPer微信公众号（点击了解一下吧）
编辑: ShuYini
校稿: ShuYini
时间: 2020-1-15

TILE: FinBERT: Financial Sentiment Analysis with Pre-trained Language Models.
Contributor : Prosus AI
Paper: https://openreview.net/pdf?id=HylznxrYDr
Code: https://github.com/ProsusAI/finBERT

文章摘要

当前许多情感分类解决方案在产品或电影评论数据集中获得了很高的分数，但是在金融领域中，这些方法的性能却大大落后。 出现这种差距的原因是行业专用语言表达，它降低了现有模型的适用性，并且缺乏高质量的标记数据来学习特定领域的积极和消极的新上下文。在没有大量训练数据集的情况下，迁移学习可以成功地适应新领域。本文探讨了NLP迁移学习在金融情感分类中的有效性。本文提出了一个基于BERT的语言模型FinBERT，它将一个金融情绪分类任务在FinancialPhrasebank数据集中的最新性能提高了14个百分点。

文章贡献

1、引入FinBERT，这是一个基于BERT的语言模型，用于金融NLP任务。并在在两个金融情感分析数据集（FiQA、Financial PhraseBank）上得到了比较好的效果。
2、使用另外两个预训练语言模型ULMFit和ELMo进行金融情感分析，并将其与FinBERT进行比较。
3、对模型的几个方面做了进一步的实验研究，包括:进一步的预训练对金融语料库的影响，防止灾难性遗忘的训练策略，以及仅对模型层的一小部分进行微调以减少训练时间，而不会显著降低性能。

文章主要内容

背景介绍

由于每天都要产生数量空前的文本数据，因此分析来自医学或金融等不同领域的大量文本非常重要。然而，在这些专业领域中应用监督的NLP方法(如文本分类)比应用于更一般的语言要困难得多。其两个主要困难因素为: 1)利用复杂神经网络的分类方法需要大量的标记数据，而标记特定领域的文本片段需要昂贵的专业知识。2)在一般语料库上训练的NLP模型不适用于监督任务，因为特定领域的文本有专门的语言和独特的词汇和表达。

NLP迁移学习方法是解决上述问题的有效方法，也是本文研究的重点。**迁移模型背后的核心思想是，首先在非常大的语料库上训练语言模型，然后使用从语言建模任务中学的权重初始化下游模型，其中初始化层的范围可以从单个单词嵌入层到整个模型。**这种方法应该减少所需的标记数据的大小，因为语言模型通过预测下一个单词，以一种无监督的方式在一个非常大的未标记语料库上学习语言语法和语义。通过在特定于域的未标记语料库上进一步对语言模型进行预训练，该模型可以学习目标域文本中的语义关系，该语义关系可能与普通语料库的分布有所不同。

在本文中，主要探索使用微调预训练语言模型BERT的有效性。并使用Malo等人创建的金融情感分类Financial PhraseBank数据集以及Maia等人的FiQA Task-1情感评分数据集进行验证。

模型介绍

BERT是一种由一组Transfer叠加而成的语言模型。它以一种新颖的方式定义了语言建模。BERT不是根据之前的单词预测下一个单词，而是随机选择所有token的15%作为mask。在最后一个编码器层之上的词汇表上有一个softmax层，可以预测被掩膜的token。BERT训练的第二个任务是“下一个句子预测”。给定两个句子，该模型预测这两个句子是否相有关系。

继先前关于在特定领域上进一步对语言模型进行预训练的有效性的工作（Howard＆Ruder，2018）之后，我们尝试了两种方法：第一种是在特定领域下，即在较大金融语料库上对BERT语言模型进行了预训练。第二种方法是只对训练分类数据集中的句子进行预处理。通过在tokens最后一个隐藏状态之后添加一个稠密层来进行情绪分类。这是将BERT用于任何分类任务的推荐实践(Devlin et al.2018) 。然后，在标记的情感数据集上训练分类器网络。主要训练流程图如下图所示：虽然本文的重点是分类，但我们也在具有连续目标的不同数据集上实现了具有几乎相同架构的回归。这里的唯一区别是损失函数采用的是均方误差而不是交叉熵损失。正如Howard & Ruder(2018)所指出的，采用这种微调方法会有灾难性遗忘问题。因为当模型试图适应新任务时，微调过程可能会迅速导致模型“忘记”来自语言建模任务的信息。为了解决这一现象，我们采用了Howard & Ruder(2018)提出的三种技术:倾斜三角形学习率（slanted triangular learning rates）、有区别微调（discriminative fine-tuning）和逐步解冻（gradual unfreezing）。

实验结果

实验准备

为了进一步优化FinBert，文章使用了一个叫做TRC2-financial的金融语料库（它是路透社TRC21的一个子集，后者由路透社在2008年至2010年间发表的180万篇新闻文章组成）。本文使用的主要情感分析数据集Financial PhraseBank。该数据集由从LexisNexis数据库中随机挑选的4845个英语句子组成，其中这些句子由16名具有金融和商业背景的人进行注释。FiQA Maia数据集等是为WWW ’18会议金融观点挖掘和问题解答Challenge3创建的数据集。我们使用任务1的数据，其中包括1,174个金融新闻标题和推文及其相应的情感评分。

基线方法对比

在对比实验中，我们考虑了三种不同方法的基线:基于GLoVe 的LSTM分类器、基于ELMo 的LSTM分类器和ULMFit分类器。这里使用召回得分来进行评价。在Financial PhraseBank数据集上的对比结果如下：其中LPS、HSC和FinSSLX的结果取自各自的论文。
FiQA情感数据集的结果如表3所示。本文模型在MSE和R2方面都优于最先进的模型。

预训练对分类器性能的影响
我们比较了三种模型:1)没有进一步的预训练(Vanilla BERT表示)，2)在分类训练集上进一步的预训练(FinBERT-task表示)，3)在特定领域语料库上进一步的预训练，TRC2-financial (FinBERT-domain表示)。模型通过损失、准确性和测试数据集上的宏观平均F1分数进行评估。结果见表4，但是可以发现，进一步在金融领域语料库上进行预处理的分类器表现最好，但差异不是很大。

灾难性遗忘性能评估
我们尝试了四种不同的设置:无调整(NA)、只使用倾斜三角形学习率(STL)、倾斜三角形学习率和渐进解冻(STL+GU)以及(STL+DFT)，并进行了有区别的微调。实验结果发现应用这三种策略可以在测试损失和准确性方面产生最佳性能。实验结果可见下图：

=分割线========

往期回顾

入门基础
「自然语言处理（NLP）」入门系列（一）初识NLP
「自然语言处理（NLP）」入门系列（二）什么才是深度学习？
「自然语言处理（NLP）」入门系列（三）单词表示、损失优化、文本标记化
「自然语言处理（NLP）」入门系列（四）如何训练word2vec ！！

论文阅读

「自然语言处理（NLP）」【爱丁堡大学】基于实体模型的数据文本生成！！
「自然语言处理（NLP）」【Borealis AI】跨域文本连贯生成神经网络模型！！
「自然语言处理（NLP）」CTRL：16.3亿个参数的条件转换语言模型
无情！「自然语言处理(NLP)」统一预训练UniLM模型(NLU+NLG)

学术圈

「自然语言处理（NLP）」你必须要知道的八个国际顶级会议！
「重磅！！」深度学习十年技术“进化史”
【圣诞福利】ICLR2020开源代码的paper集合（共计198篇）
收藏！「自然语言处理（NLP）」全球学术界”巨佬“信息大盘点（一）！

Attention

更多自然语言处理相关知识，还请关注 AINLPer公众号 ，极品干货即刻送达。

秀米基本功能介绍锅炉工的自我修养
论文推送基本架构题目字体设置校徽标题DUT-Wind(海纳百川自强不息厚德笃学知行合一)分割线(红蓝样式)文本阴影>子标题，##有序列表与无序列表二级标题设置###标题下划线颜色设置特殊子标题设置对话框acondesign嵌入图片，动态图片，figtitlesetting后记特殊标题（orfigure）【AI设计】对话框线框字体设置与选择文本背景，网格设置微信公众号推送。内容推送博士答辩新闻Mod
[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--大模型相关、扩散模型、视觉导航晓理紫每日论文机器人
专属领域论文订阅VX关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持。VX关注晓理紫，并留下邮箱可免费获取每日论文推送服务分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割==LLM==标题:ACloserLookatAUROCandAUPRCunderClassImbalance作者:MatthewB.A.McDermot
[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--机器人、视觉相关晓理紫每日论文机器人
专属领域论文订阅VX关注{晓理紫}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持VX关注晓理紫，并留下邮箱可免费获取每日论文推送服务分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割晓理紫今日论文推送==具身智能，机器人==标题:AugmentedRealityUserInterfaceforCommand,Control,andSupervi
[晓理紫]每日论文推送(有中文摘要或代码或者项目地址) 晓理紫每日论文每日论文
[晓理紫]每日论文推送(有中文摘要或代码或者项目地址)每日更新论文，关注晓理紫获取每日最新论文[晓理紫]标题:AComprehensiveStudyofKnowledgeEditingforLargeLanguageModels作者:NingyuZhang,YunzhiYao,BozhongTian摘要:LargeLanguageModels(LLMs)haveshownextraordinary
每日论文推送（有中文摘或源码地址或项目地址）晓理紫每日论文人工智能 chatgpt
***VX搜索“晓理紫”并关注就可以每日获取最新论文***标题:“It’snotlikeJarvis,butit’sprettyclose!”–ExaminingChatGPT’sUsageamongUndergraduateStudentsinComputerScience作者:IshikaJoshi,RitvikBudhiraja,HarshalDAkolekar摘要:Largelanguag
【论文推送】跨域学习、跨域小样本学习Cross-Domain(持续更新...) 诸葛灬孔暗小样本学习 cross-domain 小样本学习
深度神经网络(DNN)的泛化性能相当依赖于训练集的规模(size)和丰富性(variations).但是在很多场景下无法搜集到如此多的数据,如皮肤病,卫星图片(飞机残骸).尽管每种特殊的情况发生的概率很低,人为处理的成本也很低,但当我们有大量的”特殊情况”时,问题就变得复杂了起来.如何利用一个或一些成熟域上的先验知识，去解决另一个样缺少样本域上的复杂任务是跨域少样本学习(Cross-DomainF
【20210122期AI简报】保姆级深度学习环境配置指南、寒武纪首颗AI训练芯片亮相... RT-Thread物联网操作系统芯片编程语言人工智能深度学习 java
导读：本期为AI简报20210122期，将为您带来9条相关新闻，新增论文推送，在文章底部，祝各位牛年大吉~本文一共3700字，通篇阅读结束需要7~10分钟1.保姆级教程：深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解）|极市平台该文章是市面上比较详细的一篇环境配置文章了文章来源于Datawhale，作者Datawhale俗话说，环境配不对，学习两行泪。本文为保姆级别的教程，详细
「自然语言处理(NLP)论文推送」会话响应生成（含源码）【美国卡耐基梅隆大学】 yinizhilianlove 论文推送
来源：AINLPer微信公众号编辑:ShuYini校稿:ShuYini时间:2019-8-24引言本次主要给大家介绍两篇文章。第一篇文章主要讲的是会话响应生成，其主要针对的是当前神经网络对话系统倾向于在语料库中生成响应的问题，这样不利于会话响应的多样性。第二篇文章主要针对的是模型会话一致检测的问题，怎么才能评估呢？作者提出一种自动在数据集提取实例进行评估的方法。PS：欢迎关注AINLPer
「自然语言处理(NLP)论文推送」ACL&&中科院&&微信AI团队 809 Shu灬下雨天
来源：AINLPer微信公众号编辑:ShuYini校稿:ShuYini时间:2019-8-12引言本篇给大家继续介绍中国科学院&&微信AI团队今年入围ACL的两篇文章，这两篇文章都是关于神经网络翻译。其中第一篇主要解释了暴露偏差和过度校正现象，提出了一种新的解决方法并该方法与试图解决该类问题的其他方法进行了对比。第二篇针对神经机器翻译模型，非自回归模型容易产生过翻译和漏翻译错误，作者提出了
「自然语言处理(NLP)论文推送」ACL&&微信AI团队（含源码）808 Shu灬下雨天
来源：AINLPer微信公众号编辑:ShuYini校稿:ShuYini时间:2019-8-8引言本次给大家分享的是今年腾讯微信AI团队入选ACL的两篇文章，第一篇文章主要是针对中文诗歌生成的问题，介绍中文现代诗歌生产的修饰控制编码器，该编码器具有隐喻、拟人化等修辞功能。第二篇文章主要是针对递归神经网络RNNs在全局信息建模上的不足，提出了一种全局上下文增强的深度转换架构（美其名曰：GCDT
中华麻醉播客若萤若水
大家好，欢迎收听《中华麻醉学杂志》播客论文推送，我是播报员张玉强。今天为大家推送的是由上海长征医院袁红斌教授今年发表的综述，题目是《骨关节置换术高龄患者的麻醉与加速康复》。随着我国人口的老龄化，接受骨关节置换的患者越来越多。袁红斌教授研究发现，对于合并心、脑、肺、大血管疾病的高龄患者，手术治疗的结局与麻醉管理密切相关。这就需要麻醉医生对此类患者实施“精准”麻醉，促进术后康复。有效的术前访视可以缓解
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。