观点、情感以及与之相关的许多概念,如评价、态度、感情和心情,与我们主观的感觉和感受密切相关。我们对于现实世界的感知和感受,包括我们做出的任何选择,也很大程度上受到他人对于当前世界的洞察和观点的影响。情感分析伴随着网络社会媒体(如评论、论坛、微博、新闻资讯网站)的兴起而快速发展。这些也被称为用户生成内容(ugc)的社会媒体数据,社会媒体中用户生成内容蕴含了大量的用户观点信息,要从中挖掘有用知识需要对情感计算与观点挖掘问题进行研究。自2000年来年初以来,情感计算已称为自然语言处理领域最活跃的研究问题之一。情感计算系统几乎在每一个企业、卫生机构、政府乃至整个社会都有广泛应用。
情感计算任务
根据所处理文本的颗粒度,情感计算研究可以划分为三个级别:篇章级、句子级和属性级。下面进行简要介绍:
篇章级情感分析的目标是判断整篇文档表达了褒义倾向还是贬义倾向。如一篇商品评论,我们需要判别出这篇评论对于目标商品总体上持褒义情感倾向还是贬义的情感倾向。这一任务的基本假设是认为一篇文档只对一个实体(如一个商品或者服务)进行了评价。这种假设与实际情况显然是不符的,在现实中,很多文档会同时对多个实体进行了评价或比较,因此需要对目标文档需要做更细粒度的情感分析。因缺乏使用价值,篇章级情感分析目前研究较少。
句子级情感分析任务是判别一个句子是否包含了褒义、贬义或者中性的情感。这里的中性情感往往意味着没有表达任何观点。
无论篇章级还是句子级情感分析,都无法确切知道用户到底喜欢或者不喜欢的是什么东西。前面两个级别的分析方法都无法获取观点评价的对象。例如我们仅仅知道“我喜欢iphone12”中包含褒义情感,这对于实际应用来说显然是不够的,我们需要知道用户对iphone12表达了褒义的情感。句子级情感分析假设:如果一个句子中含有褒义观点,则认为用户对于这个句子中所有提到的事物都表达了褒义的观点。如:apple在这个贫困的国家销售收入表现良好,很难说这句话应该被分成褒义情感还是贬义情感,因为这里表扬了apple但是吐槽了经济。为了得到更细粒度的结果,我们需要细粒度的情感分析,属性级情感分析直接关注的是观点级观点的目标(观点评价对象target),在实际应用中,如评论:虽然服务很差,但我依然很喜欢这家餐厅,观点评价对象(餐厅和服务)通常是一个实体或者实体的属性。所以属性级情感分析的目标是挖掘与发现评论在实体及其属性的观点摘要。在工业界,几乎所有的情感计算系统都是在这个级别上进行分析。
除了按文本颗粒度对情感分析进行划分外,我们还可以根据观点类型的不同划分为常规型观点和比较型观点。
常规型观点通常针对一个目标实体或者其属性表达情感倾向。如茶非常好喝,评论者对茶表达了褒义的情感倾向。
比较型观点比较多个实体的共同属性,如这家店的服务好于上次去的那家,评论者将这家店和上次的店在服务(属性)上进行的比较。
情感分析的发展也是经历了从规则系统(通过构建情感词典,每个词都有对应的情感极性,根据正向和负向情感词的数量投票及其他规则得到情感倾向)、机器学习系统(svm、gbdt、随机森林等)、深度学习(textcnn、bilsttm等)、到现在的预训练语言模型continue pretrain+finetune的标准范式sota方法。
淘宝属性级情感分析
在电商领域,淘宝天猫商品积累了海量的商品评论,人们在购买某一产品之前,往往会查看该产品的相关评论,获得其他购买过用户对商品各个维度的反馈,并通过与其他产品的对比来作最终的决策。由于商品评价量十分巨大,用户没有足够的时间和精力浏览全部的评论信息,导致最终的决策带有风险性。因此如果能对整体评价的无结构文本进行结构化分析,得到 <商品的属性、情感词、情感极性>三元组并汇总成观点,就能够让用户对整体评价有个大体的印象,同时结合个性化推荐,有助于解决用户这方面的痛点。技术上涉及到属性级情感分析和评论级情感分析,个性化推荐。
消费者经常会在一个评论中针对不同的属性(又称方面)发表观点,而针对不同属性aspect对应的观点(情感词opinion word)情感极性可能不同。如“料子很好,码数合适,但是有色差“包含了三个属性”料子“、”码数“和“色差”,针对”料子”、“码数”表达了褒义的情感,而对“色差”表达了贬义的情感。属性级情感分析可以对上层情感分析任务提供基础,如观点摘要系统,例如用户需要分别查看对某个实体/商品X就某个方面Y的正面和负面评价,如下图淘宝的大家印象。
电商情感分析业务的目标是提取出一些买家对商品的描述标签,这些标签尽量能够从各个维度、生动具体的描述商品的购买体验,所以需要兼顾生动性和多样性。生动性的话需要我们能够细致的找到买家在形容的商品特点,而不是一些广泛的概念,比如“材质结实”比“质量不错”更有信息量;多样性是指我们希望在优先的产品空间内,能够尽量多的展示商品各个维度的特征。
结合上述需求,我们将问题定义为Aspect Sentiment Triplet Extraction 的问题,需要抽取<属性词-情感词-情感极性>三元组。
属性词是指
(1)、商品的一个部件或者一部分,比如笔记本电脑的电池,
(2)、商品本身的属性,比如价格、材质等,
(3)、商品的组件或其中一部分的属性,比如电池的寿命。
情感词是用户对属性表达主观情感倾向词语,解释了情感倾向是正/负/中性的原因,比如:电池的寿命长,句子表达的是用户电池寿命的正向情感,情感词是“长”,解释了情感倾向的原因。
情感倾向是指情感词对应的情感极性,我们主要关注了正向、负向、中性三类。
示例如下图所示:
淘宝有百级别一级核心品类,万级别叶子类目,不同一级核心品类/叶子类目评论的商品属性和情感表达存在非常大的差异性如服饰的属性有面料、款式、版型、风格等属性,美妆的属性保湿、遮瑕、防晒等属性。同时相同的情感表达在不同领域情感极性也会不同,如冰箱声音大是负向,但音响声音大是正向。如何充分利用类目表达的差异性和共性的知识是很大的挑战。
在真实的淘宝评论里因为各种商业利益评论区的正向表达和负向表达也非常不均衡,不同类目达到10:1-20:1,给模型性能带来了非常大的挑战。
标注数据稀缺,标注任务因为复杂而导致标注成本昂贵,给整个任务都带了很大挑战。
总之,如何解决好不同领域表达的差异性和共性,更高效的利用标注数据和未标注数据是我们的核心痛点,我们在具体的方案设计中也充分考虑这些难点和挑战。
我们把属性级情感分析拆解为3个子任务,给定一个句子,一个是自动抽取句子中的所有属性和情感词,一个是属性情感词搭配关系,还有就是是针对不同的属性判断其情感极性。通过这一套pipeline系统,印象词的CTR从0.9%提升到400%。
对无结构化的评价文本,通过建模抽取句子中的属性词和情感词,是一个典型的序列标注的任务。
在电商的评价的属性、情感抽取场景,语料包含了几十多个类别,每个类别只有数目有限的标注语料,各个类别之间的属性情感既有相同的部分(比如价格、质量、服务态度等),也有差异很大的地方(比如食品和锅具评价中的味道)。
具体实现:在常用序列标注任务基线模型Bert + Bilstm + CRF的基础上,首先通过在评价语料上的continue pretrain,F1值有0.6%的提升。其次多领域迁移问题进行优化,通过把lstm输出的向量映射到领域共用和私有的空间,对每个领域,都有共享的和私有的两部分表示,来获得领域共性和差异性的表达,同时领域私有的表示会和其他领域表示做attention,最终把三部分表示concat起来,实验叠加bert的continue pretrain,有F1值1.8%的提升。
属性归一化是为了解决同一个属性存在多个相似表达的问题,如时尚感、时尚风、时尚、潮流都是在说时尚这一属性,我们把他们归一化成时尚这一aspect。
具体的做法是对评论预料进行continue pretrain后,对抽取出来的属性用sentence-bert进行finetune,然后对属性进行分布式表示后通过dbscan对所有的属性进行聚类到归一化属性。
预训练在情感计算领域有大量成功案例,在标注语料偏少情况下,对领域数持续预训练能取得很好的效果。在我们场景会面临标注成本高,标注语料少,还有就是真实的评论里正向/负向情感比例分布不均衡问题(不同类目10:1-20:1)导致的负向情感性能偏低,因此做预训练是非常有必要的。电商领域下的任务如atsa,acsa,句子级情感分类,评论问答等任务中直接依赖和情感表达相关的知识(如属性/情感词),但原生的bert,roberta预训练仅仅mask了字级别,且有字之间的独立性假设,SpanBert mask了词,但不一定是和领域相关,有实验表明不做phrase级别的mask会导致抽取不完整/错误。
在属性级情感分类中,我们采取了融入知识的roberta continue pretrain+ bert finetune的范式来解决面临的问题:
1、获得领域global 表达,提升部分类目少样本性能,
2、引入item-aware的知识,缓解不同实体相同情感表述,表达的极性不一致问题,
3、针对疑难问题,比如否定表达情感分类效果提升。预训练模型结构如下:
模型融入知识的方式是在embedding层显示的嵌入类目信息,词性信息。mask阶段根据挖掘出来的情感知识库:属性-情感pair,情感词,情感词对应的情感极性,优先mask属性-情感pair,情感词。优化目标上除了mask language model loss还显示地预测aspect-sentiment word pair,情感词,情感词对应的情感极性,词性预测任务。
融入知识的情感预训练模型在负向情感f1上提升了4个点。融合各类情感知识预训练的模型效果如下:
印象词个性化排序
印象词直接按照按标签出现的频数topk进行展示,有一定的缺陷:挖掘的丰富的印象词因频数低获得曝光机会偏少,不同的用户关注的印象词可能不一样而导致用户需求得不到满足。
排序模型我们使用了经典的排序模型din,通过使用个性化排序算法,CTR +25% ,uvctr +20%。模型结构如下:
用到的主要特征有用基础的用户画像特征、用户在印象词的一些行为序列、商品侧特征和一些用户写评论时所关注的属性等特征来捕获用户对商品的关注点。
句子级情感分析
句子级(sentence-level)情感分析,主要分析句子作为一个整体的情感倾向,我们分为2分类:正向、负向。训练语料构建:在句子级情感分类上我们利用淘宝评论中好、中、差标签,结合天猫评论用户打分的结果,取出置信度较高的评价作为训练集,并通过回译的方式做了数据增强,通过采用bert+uda的方式在全量评论数据上产出评论级情感分类模型,正向f1值:0.986,负向f1值:0.931。
损失函数:
有监督损失项(Supervised Cross-entropy Loss):计算有标签数据的误差,用交叉熵作为目标。
无监督损失项(Unsupervised Consistency Loss):用来计算无标签数据的误差。具体的方式是,对于任何一个无标签数据,首先运用回译对于该数据进行一次操作。接下来,利用模型对于增强前后的数据分别进行预测,从而获取到模型对于同一条数据在增强前后的不同结果。最后,利用KL 散度来度量这两个预测结果的距离。整个训练的过程就是要让这个距离尽可能小。
业务场景落地
总结与展望
本文主要针对淘系评论场景,对情感计算在ugc的应用进行了一些理解探讨,从而引出了属性级情感分析和评论级情感分析与相关应用,在印象词业务上及其他业务上都取得了不错的效果,但是依然很多的不足。
在后续工作中,比如多实体基于属性的情感分析、对比句、转折句等复杂表达,以及减少pipeline系统的累积误差的Aspect Sentiment Triplet Extraction,属性级情感分类End2End任务,我们将进行更加深入的探索。期待各位有兴趣的同学进行探讨。
Reference
1.Transfer Learning for Sequence to Sequence Tagging with Hierarchical Recurrent Networks
2.Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts
3.BERT Post-Training for Review Reading Comprehension and Aspect-based Sentiment Analysis
4.A Self-Training Approach for Short Text Clustering
5.A Survey of Clustering With Deep Learning: From the Perspective of Network Architecture
6.Unsupervised Deep Embedding for Clustering Analysis
7.Structural Deep Clustering Network
8.Attributed Graph Clustering: A Deep Attentional Embedding Approach
9.Embedding Graph Auto-Encoder with Joint Clustering via Adjacency Sharing
10.A Unified Model for Opinion Target Extraction and Target Sentiment Prediction
11.An Interactive Multi-Task Learning Network for End-to-End Aspect-Based Sentiment Analysis
12.Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence
13.Attentional Encoder Network for Targeted Sentiment Classification
14. Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
15. SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis
16. E-BERT: Adapting BERT to E-commerce with Adaptive Hybrid Masking and Neighbor Product Reconstruction
17.Unsupervised Data Augmentation for Consistency Training
✿ 拓展阅读
作者|蓝曦、云舫、肖荣、丰子
编辑|橙子君
出品|阿里巴巴新零售淘系技术