Raymond_MY

IAAA 2018| Improving Review Representations with User and Product Attention Sentiment Classification

最近有一个计划——40篇论文储备计划，是老班要求的。有的解读可能会放上来，有的不会。同时会把论文的地址放出来，希望能传播一些好文章吧~

论文名称：Improving Review Representations with User Attention and Product Attention for Sentiment Classification
论文链接：https://arxiv.org/abs/1801.07861

Improving Review Representations with User Attention and Product Attention for Sentiment Classification

Abstract
Introduction
Background

LSTM
Attention Mechanism
Document-level Sentiment Classification

Method/Model

Hierarchical User Attention
Hierarchical Product Attention
Combined Strategy

Experiments

Experiments Settings
Baselines
Model Analysis: Effect of User Attention and Product Attention
Model Analysis: Effect of the Different Weighted Loss

Conclusion

on)

Abstract

神经网络方法在情感分类中取得了巨大的成功。最近，一些工作通过结合用户和产品信息来生成评论表示，在分类结果上取得了一些进步。但是通过观察，发现在用户评论中，有一些句子或是词表示了很强的用户个人看法，也有一些句子或是词表示了产品的相关特性。在直觉上，这两种不同的信息在情感分类中起到了不同的作用。因此，将这两种信息结合在一起来编码来形成一种表示是不太合理的。

在本文中，作者提供了一种全新的框架来编码用户信息和产品信息。首先，应用了两种独立的遗传神经网络来生成两种不同的表示；然后，设计了一种将这两种表示结合在一起的策略，以便之后进行最终的训练和预测。

在IMDB和Yelp数据集上的实验证明了这种方法性能好于目前的最新方法，并且通过可视化的方法来给出一些词与用户或是产品的相关性，证明了文中方法的有效性。

Introduction

随着在线评论网站如Amazon，Yelp，IMDB的快速增长，情感分析引起了研究者和工业界的重视。在这篇文章中，作者的工作关注了Document-level的情感分类问题。

尽管神经网络在情感分类中十分有效，但是前人的一些工作主要关注了文本相关，但是忽略了用户和产品信息的重要影响。用户的喜好和产品的特性对于评分有着重要的影响。对于不同的用户，同样的词可能表示了不同了意思，比如一个宽容的用户可能会使用“good”来评价一个正常的产品，但是一个苛刻的用户可能会使用“good”来表达非常棒的意思。同样的，产品特性也会对评论分数产生影响，一个好的产品评分肯定比一个坏的产品分数高。

为了将用户信息和产品信息在情感分类中加以运用，前人的一些工作有：

[Tang, Qin, and Liu 2015b] Tang, D.; Qin, B.; and Liu, T. 2015b. Learning semantic representations of users and products
for document level sentiment classification.引入word-level的偏好矩阵，表示用户和产品的向量，使用CNN来进行分类。但是模型复杂度太高，只考虑了word-level，没有考虑的semantic-level
[Chen et al. 2016a] Chen, H.; Sun, M.; Tu, C.; Lin, Y.; and Liu, Z. 2016a. Neural sentiment classification with user and product attention.在一个句子中引入注意机制，但是将用户信息和产品信息放在一起考虑了，丢失了一些信息

在本文中，针对之前研究中的问题，作者应用了两种独立的遗传神经网络来生成两种不同的表示；然后，设计了一种将这两种表示结合在一起的策略，以便之后进行最终的训练和预测。

本文的主要贡献：

提出了一个全新的框架来从两个角度来编码用户评论。分别使用了用户注意机制和产品注意机制生成了两种表示，之后将二者拼接在一起进行下一步分类。
为了更好的学习结果，引入了一个结合策略来提升表示。使用了带权的损失函数证明了两种角度都对分类效果有提升。
实验证明了本文中的模型比现有方法对分类结果有显著提升。

Background

LSTM

Attention Mechanism

Document-level Sentiment Classification

Method/Model

本节将介绍文中出现的模型——HUAPA

Hierarchical User Attention

从一个用户的角度来看，不是所有的词都同等意义上表现了用户的情感。为了突出一些重要的词，引入了用户注意机制来提取这些词。最终，一个句子的表示将会聚集这些重要的词。一个增强型的用户角度表示的句子公式如下

其中， $h^u_{ij}$ 表示第i个句子的第j个词的隐藏状态， $\alpha^u_{ij}$ 是对 $h^u_{ij}$ 的注意力权值，描述了第j个词对于当前用户的重要程度。作者将每个用户都映射到一个连续的向量u中，这里 $\in R^{d_u}$ ， $d_u$ 表示了用户向量的维度。对于每个隐藏状态的权值 $\alpha^u_{ij}$ 计算如下

其中， $v^u_w$ 是一个权值向量， $W^u_{wh}$ 和 $W^u_{wu}$ 是权值矩阵。 $e ()$ 函数用于对一个词的重要性进行评估。

前面我们看到的是word级别的，而在作者的目标是形成一个文档级别的分类效果，所以还有句子级别的扩展如下：

其中， $h^u_{i}$ 表示第i个句子在评论中的隐藏状态， $\beta^u_{i}$ 是对 $h^u_{i}$ 的注意力权值，描述了第i个句子对于当前用户的重要程度，计算方法同上所述。

Hierarchical Product Attention

这里的模型和上面的用户角度完全一样，唯一区别就是分开训练，预先设定的参数不同。

其中， $\alpha^p_{ij}$ 是对 $h^p_{ij}$ 在单词级别上的权重， $\beta^p_{i}$ 是对 $h^u_{i}$ 在句子级别上的权重。

Combined Strategy

为了充分利用之前生成的用户角度和产品角度信息，需要考虑将两个表示结合起来形成一个最终的表示。

使用了一个线性的softmax来输出预测结果

在本模型中，使用交叉熵损失函数cross-entropy error来描述预测值和真实值之间的损失

其中， $p^g_c$ 表示了情感标签c的可能性的真实值，0或是1， $T$ 是训练集的大小。
同理，对于两个角度的损失函数，同样有下面的式子

之后，我们定义总的损失函数 $L$
通过改变不同的权值，可以得到不同的训练效果。

Experiments

Experiments Settings

使用的数据集：IMDB，Yelp Dataset Challenge in 2013 and 2014.数据集划分是80%训练集，10%验证集，10%测试集。
使用 $A c c u r a c y$ 来衡量准确率， $R M S E$ 即标准差来衡量偏差程度。

其中， $T$ 是预测正确的数目 $N$ 是样本总数 $gd_k$ 表示正确的标签 $pr_k$ 表示预测的标签
具体的设置：

在每个数据集上预先训练了200维的词向量SkipGram（Word2Vec的一种）对用户角度和产品角度使用了相同的词向量。
设定用户的代表向量为200维，是从均匀分布 $U (- 0.01, 0.01)$ 中随机初始化而成的。
LSTM的隐藏层维度为100维，这样BiLSTM的输出就是200维。
为了加速学习进程，评论文本不超过40句，每句不多于50个单词。
使用了Adam算法来更新参数，初始学习率设定为0.005.
没有使用正则化或是随机失活方法来提升模型表现

Baselines

Model Analysis: Effect of User Attention and Product Attention

为了研究用户角度和产品角度的影响，作者从还分别建立了两个模型。HUA是用户角度，HPA是产品角度。上图中展现了它们的效果，从上图中，我们可以发现：

通过与未使用注意力机制的最好方法NSC+LA(BiLSTM)比较，发现无论是HUA还是HPA都有一些提升，这证明了引入注意力机制是合理的。
从HUA和HPA的对比中可以发现，用户角度有更好的效果。可以这样思考，尽管产品各有各的特性，但是打分还是用户主观性较强的。所以用户角度的表现会更好。
从HUAPA和HUA/HPA的比较可以发现，结合了用户和产品角度的结果比单个角度的结果要好。这证明了模型中的注意力机制确实可以找到用户的喜爱和产品的特性。

Model Analysis: Effect of the Different Weighted Loss

$\lambda_1,\lambda_2,\lambda_3$ 分别是损失函数分量 $loss_1,loss_2,loss_3$ 的权重。通过设置权重，可以调整侧重的角度。上表中给出了权重不同时的一些表现。从上图中，可以发现：

和现有方法比较，在没有 $loss_2,loss_3$ 参与的情况下，模型仍能取得较好的效果。
在有 $loss_2,loss_3$ 参与的情况下，模型可以取得更好的效果。

Conclusion

在本文中，作者提供了一种全新的框架来编码用户信息和产品信息。首先，应用了两种独立的遗传神经网络来生成两种不同的表示；然后，设计了一种将这两种表示结合在一起的策略，以便之后进行最终的训练和预测。实验结果表明了这种模型比现有方法有明显的进步。

Focal Loss论文解读和调参教程 Jumbo星深度学习人工智能计算机视觉
论文：FocalLossforDenseObjectDetection论文papar地址：ICCV2017OpenAccessRepository在各个主流深度学习框架里基本都有实现，本文会以mmcv里的focalloss实现为例（基于pytorch）简介：本文是何恺明团队ICCV2017的一篇文章，主要针对检测场景类别不均衡导致一阶段算法没有二阶段算法精度高，在CEloss的基础上进行改进，提出
如何复现大佬论文的代码？庄闪闪 R数据科学科研必备 python 机器学习人工智能深度学习
简介今天赵小编给大家推荐一个非常实用的网站paperswithcode在这个网站上你可以检索论文并且还能获得该论文对应的代码，这样就可以通过复现他人的实验结果来加深对论文方法的理解，赶紧收藏链接吧~详细介绍网站首页包含了最新趋势的研究论文，以及菜单栏包含了数据集、方法等。下面给出每篇文章的标题，摘要，年份，使用的语言以及红色框框给出了papar原文和code源代码。点击文章标题，得到下面界面相应代
I3D论文解读(Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset) 湖心亭nineships 深度学习
论文：QuoVadis,ActionRecognition?ANewModelandtheKineticsDataset期刊：CVPR2017papar:https://arxiv.org/pdf/1705.07750v1.pdf相关工作：相关工作就是下面这个图文章两个重大贡献：1提出了kinetics数据集。2提出了双流3D卷积模型3DConvNet模型细节：是原论文中C3D的变种。8层卷积、5
Perl 算号器 XiaoCon
周末在家没事干，突然想写算3d号码的计算器。但是没写完，因为有事情要忙。。先记录下，下午出去回来继续改。#!/usr/bin/perl useDBI; #生成随机数字0-999 $num=int(rand(999)); #查找已经出过奖的数字 #这个是已出过的中奖号码 $old=read_db("select*fromold_papar"); #这个是自己买的，且没中过的
图搜索-使用文本关键词搜索connected API subgraph HarryHuang1990 数据挖掘软件开发软件工程
今天跟大家分享一篇挺有意思的关于graphsearching的papar。这片paper来自FSE2012。有兴趣的童鞋请下载详读。《SearchingConnectedAPISubgraphviaTextPhrase》。先简要介绍一下本文的作者。第一第二作者都来自港中文。Wing-KwanChan是在读博士生，主要方向是数据挖掘。HongCheng是该校的助理教授，在伊利诺伊大学厄本那香槟分校拿
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen