目录
41.The power of numbers: an examination of the relationship between numerical cues in online review comments and perceived review helpfulness. (Journal of Research in Interactive Marketing)
42.Emotions for attention in online consumer reviews: the moderated mediating role of review helpfulness. (Industrial Management & Data Systems)
43.Elaboration likelihood model, endogenous quality indicators, and online review helpfulness. (Decision Support Systems)
44.Prediction and modelling online reviews helpfulness using 1D Convolutional Neural Networks. (Expert Systems with Applications)
45.Complementary or Substitutive? A Novel Deep Learning Method to Leverage Text-image Interactions for Multimodal Review Helpfulness Prediction. (Expert Systems with Applications)
46.The Role of Sentiment Tendency in Affecting Review Helpfulness for Durable Products: Nonlinearity and Complementarity. (Information Systems Frontiers)
47.Mining the determinants of review helpfulness: a novel approach using intelligent feature engineering and explainable AI. (Data Technologies and Applications)
48.A prediction framework on the helpfulness of reviews for processing Chinese and English hotel reviews. (International Journal of Contemporary Hospitality Management)
49.I Like My Anonymity: An Empirical Investigation of the Effect of Multidimensional Review Text and Role Anonymity on Helpfulness of Employer Reviews. (Information Systems Frontiers)
50.How does mobile device usage influence review helpfulness through consumer evaluation? Evidence from TripAdvisor. (Decision Support Systems)
这篇文章主要从文本特征方面去研究在线评论有用性的,但是在大数据背景下这篇文章不一定实用,这篇文章也是采取问卷调查的形式来做的研究。 文章基于SOR(刺激-组织-反应)模型和线索总和理论来说明了数字信息以及消费者心理反应对评论有用性的作用。文章假设评论文本中包含数字能影响评论有用性、数字可以激发阅读者的信任和认知从而提高评论有用性。
实验的方法也很简单,首先是经典问卷调查,积极消极评论、带数字不带数字分开四条评论,首先做个预实验,先评价一下积极评论与消极评论的有用性水平,确定有区别后然后再去评价有无数字的区别。结论自然是有数字的评论更加有用。
第二个实验则是用问卷星去收集数据,主要是想看看认知层面和信任层面对评论有用性的影响,然后跑了一个线性回归得出认知层面和新人层面会影响评论有用性,中介效应跑了个我看不懂的模型,效果也显著。
总的来说这种问卷型的文章都比较好懂,但是在大数据背景下,这个特征是否实用还是打一个问号的,因为我去某东上看了一些评论,基本都不包含数字,而且怎么提取数字特征也要打一个问号。嗯,就扯这么多把。
这篇文章在研究评论有用性的基础上,同时进一步研究了评论有用性对评论参与度的影响。文章采用了豆瓣的影评来进行研究,文章采取爬虫爬取了总计5万条评论。
文章的研究分了两块,第一块是评论有用性的研究,因变量文章选择了文章受到的总有用性投票,自变量的选择上文章选择了积极情感词的占比和消极情感词的占比、评论者专业知识以及常见的控制变量,包括长度、极性、极性方差、是否有图片、设备、注册年限、粉丝数量、好友数量等。在模型的选择上文章采用了负二项回归来进行拟合,结果也很Nice。
在评论有用性上,正向情感对评论有用性起负向作用,负面情感对评论有用性起积极作用。评论者约有经验,则该评论者书写的评论中积极情感表现的作用更强,负向情感作用更弱。模型3和4则表明评论情感对评论参与度也有显著影响。
同时文章也证明了积极情感和消极情感通过评论有用性的中介作用来间接影响评论参与度,并且影响都是负向的。文章进一步分析了评论情感只有在程度高时才会有显著的负效应,低情感和中性情感都不会显著的影响的评论参与度。
总结一下,这篇文章模型分析的方法值得学习,首先是常规的负二项回归然后是路径分析,然后是调节效应的研究厘清了三种情感程度对评论参与度的影响。还有就是作图方法,如下图所示,这是其他论文中很常见的一种可视化方法,可以在论文中学习。
这篇文章也是研究评论有用性影响因素的文章,这篇文章基于ELM模型来分析评论有用性,ELM模型指出评论阅读者阅读一条评论时有两条分析路径,分别是中心路径和外围路径,文章分析指出质量指标和情感指标在传统是都是启发式线索,但是随着评论阅读者的深入思考一条评论之后,这些启发式线索就会变成中心线索,需要阅读者进行思考,因此文章提出了一个修正的ELM模型,同时提出了两个问题:未观察的质量特征和不同情绪水平的情感如何影响评论有用性。
有用性的文章分析框架比较流程化,自变量、因变量、模型。因变量文章采用了有用性投票的总数。自变量则包含四部分,未观察的质量特征、质量特征、情感特征和控制变量,文章的分析模型中比较费解的就是为观察到的质量特征。可观察的质量特征包括:长度、可读性、主题包含数、评论者排名。情感特征首先文章考虑了正负情感,其次考虑了情感的情绪程度,不管是积极情感还是消极情感,情感词语中包含的情绪程度是不同的,这是这篇文章的一个创新点,不过AROUSAL这个维度在NLP中怎么去度量的文章说的好像不是很清楚,也可能是我没有看懂,但是这个还是很值得学习的新特征。重头还是未观察的质量特征,这篇文章考虑了内生性的问题,解决内生性问题传统计量经济学采用的是工具变量法,但不是很方便,这篇文章不用工具变量法,直接从质量特征中提取了新变量作为未观察的质量特征,最终模型的结果也很nice。
文章获取了三个网站的三个数据集,因此模型结果有三个,最终结果现实情感的情绪分类对有用性是有显著预测作用的,同时未观察的质量特征中长度和排名也是显著的。文章的主题提取结果并不显著,文章用了NMF的方法去提取主题结果效果并不是很好,但是可能也有模型的限制因素在里面,后面可以考虑机器学习的方法来进行分析。
总的来讲文章的情感特征提得很不错,内生性特征的提取也很具有启发性,行文思路也很清晰,值得学习。
这篇文章从机器学习的角度去分析了在线评论的有用性,这种类型的文章我之前读的比较少,因此这篇文章我认真的研读了一番。过去研究评论有用性的文章都是从评论文本的特征出发,尽可能的从评论文本、评论者特征等方面去提取出可能影响评论有用性的特征,并构建模型来对评论有用性进行预测,但是过去更多的研究采取的线性模型,也有支持向量机、随机森林等非线性模型的引入来进行预测,很少有从神经网络方面对评论有用性进行研究的。这篇文章采用了神经网络中比较经典的CNN进行研究。
CNN在计算机视觉领域有广泛的应用,在自然语言领域也可以采用1D-CNN进行模型的训练。文章首先对常见的文献进行了一个很系统的总结,分别从数据来源,产品类型以及文献所采用的各种特征来进行分析,第一张图是特征提取方面的文献,基本都是采用TOBIT回归模型。第二张图是采用机器学习方法来进行模型训练的。从文献方面来说,用神经网络来训练模型的还是比较少的。
这篇文章采用了WORD2VEC、CNN、DENSE LAYER的网络结构来进行模型训练,在线评论的数据来源是Ciao,文章收集了1千多条的评论,然后经过数据清洗后,再经过词向量训练,然后丢进模型进行训练,训练中还有很多细节,比如训练集、测试集划分,网络参数的设定等。
训练集的准确率接近80%表现还行,但是文章更深入一步,文章指出之前的研究注重了训练的效果,没有对W2V训练出来的特征所反应的评论内容进行更深一步的研究,文章利用PCA的方法将W2V的特征压缩成2维,然后画在图上看分类的情况,然后利用KMeans聚类将样本聚成了4类,文章分类后利用TF-IDF的方法提取出每一类文本中的关键词,来分析由CNN学习到的特征进行聚类的效果。
总而言之,文章利用机器学习的方法对评论有用性进行研究值得学习,在未来的改进上可以采用GLOVE,FASTTEXT等词向量学习方法来进行研究。
这篇文章是从深度学习的视角去研究评论有用性的,和以往的文章的研究范式不一样,以前的文章是通过提取评论文本或者评论者的特征,构成面板型数据然后采用机器学习的方法或者计量经济学的方法来进行模型训练。而深度学习对文本的处理则是先将评论文本用词嵌入的方法先将文本表示成向量,然后用神经网络的模型来进行训练。
第44篇文章是单独从文本的角度出发,利用W2V模型学习出词向量,然后用CNN/DNN的方法去进行学习,现在这篇文章的技术就比较硬核,这篇文章不仅考虑了文本,而且考虑了图片,之前其实也有考虑了图片的深度学习的文章,可以看我之前博客的第11篇论文,那篇文章的做法就比较取巧,直接将词向量和图片标签的词向量拼成一个矩阵,然后直接跑模型进行拟合。
首先先看看这篇文章的架构图,先文本预处理,然后用预训练好的VGG16和BERT模型来对图片和文本进行学习,文章这里有点模糊,没有说明预训练的详细过程,预训练也是一块很重要的内容,我对深度学习这块也不是很了解,后面再来学习填补这一块知识。然后学习到向量之后再用LSTM和注意力机制把最终的向量表示出来。最后一层由两个损失函数,一部分是补充效应损失函数,另一部分是替代效应损失函数,这是这篇文章的创新点,能够学习出评论文本与评论图片的交互效应,之前的文章从来没有研究过评论文本与评论图片的交互效应的,其实这在面板数据特征提取方面可以很好的进行参考一下。
然后在基线模型上,文章5.2部分说的很明白,很多我就不赘述了,最终的结果是本文自创的CS-IMD方法取得了最好的AUC成绩,同时文章更进一步,用各种基线模型表示出来的特征放入传统的机器学习模型中进行拟合训练,这里应该就是表示学习的内容了,一直在听表示学习但是不知道是什么意思,这篇文章让我悟了一下,文章最终的结果是用CS-IMD进行表示学习的结果然后丢进XGB里表现的结果是最好的。同时文章也进行了很多灵敏度分析,这里不再赘述。
这篇文章是复旦大佬写的,技术涉及很多我的盲区,不管是行文、理论还是结果都是相当NICE的,只是很勉强的看懂了在干嘛,后面技术好了可以再回来研究研究。
这篇文章是比较经典的研究评论有用性的文章,整体文章难度不是很高,研究范式也比较规范, 这种文章我的研读思路就是看他的自变量、因变量、模型、研究假设以及结论和结果。这篇文章是为了研究评论感情倾向对顾客满意度和评论有用性的影响,情感倾向对这两个因变量有线性的效用和非线性的效应,评论长度对评论有用性的影响前面的文章已经研究的很通透了,有线性、非线性还有研究评论长度阈值的,研究还是很丰富的。
首先是文章的数据来源,文章采用了汽车之家的68万条评论数据来进行研究。其次是文章的自变量,首先是情感取向(直接用SNOWNLP提取情感概率标签),长度、平均句子长度、汽车历程、汽车价格、是否有回复、评论时间。因变量是投票比例和满意度,投票比例是用浏览量做分母,满意度是顾客对汽车八个方面的星级评分的平均数。
从自变量上看是没有什么新式的,文章研究了顾客情感对满意度和有用性的影响,同时研究了长度对有用性的影响,同时还研究了满意度与长度和情感的交叉项对评论有用性的影响,最后一个研究是文章的创新点,第45篇文章研究了评论图片和评论文本的互补效应和替代效应,这个效应在计量文章中还比较少见,这篇文章就研究了情感取向、长度和满意度的交互效应。
在模型上,文章选择了OLS回归来做研究,最终文章得出结论顾客的情感取向和满意度是有互补作用的,高的情感取向和情感满意度能更好的提高评论的有用性。但是评论长度的交互效应并不显著。得出的结论还是很漂亮的
文章的计量模型表格很多,很多结论之前的研究都有,创新在于交互效应的研究以及对顾客满意度的研究。后面的研究中可以去研究更多的交互效应,很有启发性。
这篇文章也是一篇从机器学习的角度去探讨评论有用性的文章,从标题可以看出这篇文章强调了特征工程以及机器学习模型的可解释性,机器学习模型具有很强的预测能力,但是和计量经济学模型不同,计量经济学模型得到的结果可以从多个方面去解释一个特征,能够得到特征对于因变量的明显含义,具有很强的可解释性,但是机器学习模型对于模型的特征却很难得进行解释,因此这是机器学习方法得一个弊端,但是其强力的预测能力又让许多学者想要尝试去破解这个黑箱,这篇文章就是在进行了特征工程以及模型训练之后,对模型进行了解释,这是这篇文章的一个创新点。
文章首先从TRIPADVISOR中爬取了38000多条评论数据,然后通过特征工程的方式提取了一系列的自变量,包括排名、星级、星级极性、评论者特征等常见特征,在情感方面有VADER/SENTINET/BERT提取了三种情感打分值,还有可读性指标、拼写错误率和评论中提及的产品属性。
文章的因变量就是有用性投票总数,这篇文章的一个重头戏是放在机器学习模型的解释以及可视化上面,这篇文章画了很多可视化图形,每一张图我都花了点时间去研究了一下。
这幅图是评论星级不一致性以及相应的评价有用性投票折线图,左边是实际均值,右边是预测均值,可以看出负面评论的有用性投票均值是会高于正向评论的。
然后是一个气泡图,横轴是评论者历史平均有用性投票,纵轴是评论极性,气泡大小代表了数据集样本量的大小,颜色的深浅代表了有用性投票预测值的大小,可以看出评论者专业水平是会影响到有用性投票的,同时评论极性也有比较明显的影响。
然后是一幅情感取向对评论有用性的影响,可以看出情感越负向,对评论有用性的影响就越大。当然我不知道这幅图应该叫做什么图。
然后是一幅用LGBM跑的一个特征重要性图。
以及用SHAP画的一个特征重要性的影响图。红色代表对评论有用性的积极影响,反之消极,可以去分析每个特征对评论有用性的影响。例如评论长度,越长就对评论有用性的影响更显著。同时文章还做了各个模型的特征重要性排名图。
总而言之,文章的创新点在于用BERT提取了感情得分,并且对机器学习模型进行了解释,可以从这篇文章看出,一些在计量经济学中显著的特征可能在机器学习模型中并不重要,因为机器学习模型能够学习出特征于因变量之间复杂的非线性关系,在实际工作中准确的预测能力是至关重要的,因此我们在注重解释性的同时也要去提取能够提高模型表现的特征。这篇文章对我的启发性很大。
这篇文章是从机器学习的视角去研究评论有用性的,同时和以前的文章不同,文章的数据采集了中文和英文两种数据集,然后借助霍夫斯泰德文化五维度理论以及模型特征重要性去解释了为什么两个不同文化属性的国家在评论有用性的判定模式上存在区别。
这篇文章的插图除了这个框架图基本都放在附录里面,看的很难受,看评论有用性的文章首先我先看了文章选取的因变量,因变量的度量方式文章总结了有四种:有用性投票总数、有用性投票比例、二分类以及语义相似度度量。文章采用了有用性投票除以评论发布时间并进行有用性阈值分类的方式,一方面避免了发布时间对投票总数的影响,另一方面变成了二分类问题。
在因变量上,文章选择了三方面内容,分别是酒店、评论、评论者三方面的特征,特征都是常规特征,但是一个问题是不同的语言不能放在同一个程序中去度量,因此textblob/snownlp/jieba等程序库被用来度量不同的特性,主观性上采用了刘焕庸的主观性度量库,这个在之前的一篇中文文章中有提到过,这篇文章给出了Github地址,比较良心(GitHub - liuhuanyong/ZhuguanDetection: Chinese Subjective Dectection based on subjective knowlegebase, 中文主观性计算。基于中文主观性知识库的句子主观性评定方法。),因此文章处理不同文字的思路就是用不同的程序库提取相同的特征,这样就放进同一个模型中去训练了。
训练上,文章首先用全部数据丢进同一个模型跑,然后用ERT模型先把评论区分成高质量和低质量评论,然后对高质量评论再进行训练,发现这种分类方法能够提高模型的表现,并且做了表格对比。这种做法值得借鉴一下,先用简单的模型把评论先过个筛子,然后再去训练可以节省很多内存。
同时文章还用随机森林对中英文数据集跑了分类预测和特征重要性,然后用霍夫斯泰德文化维度理论去解释了为什么特征重要性排名不同,得出了一个关于消费者的结论。但是这里有一个问题是不同的模型会有不同的特征排名,怎么可以这么轻易的就得出一个关于消费者文化的结论呢!我觉得太草率了,可以多尝试几个集成模型,如果排名类似,那么解释起来更加具有说服力。
总结一下,多国数据集的方法可以尝试考虑一下,同时过筛子的做法也可以尝试一下,用理论去解释特征重要性的做法也可以尝试一下,但是武断给出结论需要避免。
这篇文章是传统类型的研究评论有用性的文章,标题取得很fashion,首先是匿名性,其次是求职者评论,点名了这是一篇面向求职者评论有用性的文章。和之前的评论有用性研究不同的是,之前的研究更加关注商品的评论有用性的影响范围,而这篇文章则是从求职者视角出发来研究什么样的评论对求职者是有用的。
首先是这篇文章的数据来源,文章采用了GLASSDOOR的网站获取了6万条评论,这个网站是求职者专门的网站,可以看到在职人员和离职人员对任职公司正反两面的评价。在因变量上,文章直接直接采用了有用性投票总数。
在自变量上,GLASSDOOR网站将评论的正面评价和负面评价分为了两个部分,因此一条评论中评论者既要书写正面评价也要书写反面评价,因此变量长度就分为了两个部分,同时还选取了匿名性变量,看评论者是否在网站上表明自己的职位。同时还有一系列控制变量,包括星级、情感、主观度、就职经验等多个维度来进行评价。
在模型选择上,选择了传统的TOBIT回归模型,最终的结论是评论长度都会积极影响有用性,匿名性也会积极影响有用性,同时匿名性对评论长度对评论有用性的作用有调节效应。总体结论很nice,但是他这篇文章发现评论星级与评论有用性呈正U型关系,但是文章没有提及这点。
同时文章还进一步的对匿名与非匿名的评论做了主题分析,丰富了文章的工作。总的来说文章还算中规中矩,很扎实。
这篇文章研究了移动设备对评论有用性的影响以及一些中介效应。之前的研究中也有一部分会把顾客发表评论的设备作为一个自变量加入到模型中去的,但是都没有从理论层面去解释移动设备这个变量是如何去影响评论有用性的,还有一些中介效应也值得去研究。因变量用有用性投票总数来进行度量。
文章的因变量都比较常规,情感星级时间地点排名价格极性等等,其中有一个变量比较新,就是评论者购买商品的时间和书写评价的时间之间的差值,研究显示评论时间差距越大消费者就会越理性,倾向于给好评且感情比较温和,因为较长时间过后消费者对于一些产品细节可能会有遗忘。
文章采用了TRIPADVISOR的数据进行分析。首先文章进行了均值分析,结果表示星级不一致性、评论长度、情感、是否包含照片、多维星级评价都存在差异。同时文章在回归分析上有一个我没见过的做法,就是在因变量的选择上,不止选择了有用性投票同时还选择了评论极性等常见了因变量,来验证移动设备的实用对这些自变量的影响。结合均值分析更具有说服力。同时在最终模型上发现移动设备的使用对评论有用性有负面影响。
并且文章进一步研究了中介效应, 并且做了BOOTSTRAP检验,这个功能应该是内置在软件里面的。
下一步文章结合了评论时间差来做了相同的回归实验和中介效应实验,发现移动设备通过中介效应会仙湖的影响评论长度和多维星级这两个方面,文章把这两个方面归因于使用成本,但是文章没有说明白手机设备使用成本是什么东西。对于管理者而言可以建议评论字数,并且把多维星级评价设置为必填项。
总的来讲这篇文章可以作为综述的补充,但是在行文方面感觉略微牵强。