目录
21.A study of factors that contribute to online review helpfulness. (Computers in Human Behavior)
22.The influence of reviewer engagement characteristics on online review helpfulness: A text regression model. (Decision Support Systems)
23.Online review helpfulness: Impact of reviewer profile image. (Decision Support Systems)
25.An empirical investigation of online review helpfulness: A big data perspective. (Decision Support Systems)
26.Is It the Review or the Reviewer? a Multi-Method Approach to Determine the Antecedents of Online Review Helpfulness(2011 44th Hawaii International Conference on System Sciences)
27.Understanding the determinants of online review helpfulness: A meta-analytic investigation. (Decision Support Systems)
28.Evaluating content quality and helpfulness of online product reviews: The interplay of review helpfulness vs. review content. (Electronic Commerce Research and Applications)
29.Online review helpfulness: Role of qualitative factors. (Psychology & Marketing)
30.A concept-level approach to the analysis of online review helpfulness. (Computers in Human Behavior)
前面写了20篇中文论文了,我觉得应该再看看外文文献了,所以21-30篇论文我打算都写写英文文献的阅读笔记。这篇文章也是一篇比较传统的用计量经济学方法去研究评论有用性影响因素的文章。论文数据采用了亚马逊的数据,分别收集了手机、打印机、相机、音乐播放器、CD机、视频游戏六种产品,总共2209条评论进行分析。
评论有用性的研究首先是看自变量的选取,这篇文章的自变量选择了有用性投票,是连续性变量,因此模型做的就是回归分析,由于自变量和因变量的特性,因此在模型的选择上选择了TOBIT回归模型。
在自变量的选择上,文章选择了文本长度、评论者经验、评论者影响力、评论者累计影响力、产品星级来进行建模。不同的平台给予的公开信息是不同的,有的自变量在不同的平台上就不能得到数据。文本长度就是评论文本的长度;评论者经验指的是过去发表的评论总数;评论者影响力指的是过去的总得赞数(有用性投票累计);评论者累计影响力是(过去有用投票数总数/过去评论总得票数);产品星级值得是评论给产品的打分。
文章也给出了假设,结论做的还是相当漂亮的,文章给出了结论,评论文本的字数在一定范围内时,文本的有用性与字数呈显著正相关关系;对于高赞用户而言,字数就不是一个显著性的影响因素。同时评论者经验、评论者影响力都不是显著因素,评论者累计影响力是一个影响评论有用性的显著性因素。评论星级是一个显著影响评论有用性的预测因素,并且是正向影响关系,即星级越高,获得高赞的概率就越高。
文章采用了将数据集按条件进行切分,然后分开跑回归的方式,验证了字数的阈值为144个字,通过回归系数的显著性来判断出评论字数在144个字之内是一个分水岭,超过144个字的评论就会引起阅读疲劳、降低阅读者阅读的兴趣。这篇文章还有一个创新就是对高赞用户的行为与低赞用户的行为分别进行了描述性统计分析,这个可以考虑一下在自己后面的研究中引入这种方法。
总结一下,文章的贡献我认为在于给出了一个评论文本字数的有效阈值,后面的研究都可以引用或者类比这种方法进行细致研究。同时评论的星级也是一个重要影响因素。同时文章末尾的建议中也给出了评论者的人口统计学因素没有被引入进来,前面那么多文章中,确实没有人口统计学因素的引入,这是因为平台对这部分数据进行了保护,如果后面的研究者可以得到这部分数据,可以对其进行深入研究。
这篇文章主要是做了特征提取方面的工作,通过提取文本特征、评论者特征以及特征降维的技术来判断特征的重要性,从文章标题可以得知,文章将评论有用性问题视为了一个回归问题,在因变量的选择上很自然的选择了有用性投票数。在数据集的选择上,文章获取了亚马逊网站的584条书评以及7465条Yelp上的餐馆评论。在分类模型上,与前面的文章不同,这篇文章只采用了SVR模型作为分类器来进行回归效果的研究,能够更好的将解释篇幅放在自变量上,而不是模型之间的比较上。
在自变量的选择上,文章采用了zeroR模型作为baseline,然后分别采用了没有经过任何处理的BOW模型、用四种降维技术处理过后的BOW'模型、评论者RFM变量与BOW'模型的融合。在评价指标上,采取了常用的均方误差等回归模型常用的指标来度量变量的效果。这种研究模式就很常规了,分批加入变量然后看变量的效果。
这里需要补充一下评论者RFM变量,文章借用了金融方面的知识。R指的的RECENCY,即评论者最新一条评论与上一条评论之间差距的时间;F指FREQUENCY,即过去发表的评论的总数;M指MONETATY VALUE,文章用过去评论获得的平均有用性投票来进行度量。前两个变量度量了评论者在平台上的活跃程度,M变量衡量了评论者的过去的评论质量。
然后在模型训练上,文章分别对书评数据集和餐馆数据集分别进行回归训练,加入变量的次序是一样的,这样操作能够使数据集之间形成相互对比,更能说明变量的重要性。文章模型众多,两个数据集,每个数据集14个变种模型弄出来了28个模型,这边只做了一部分截取,下图说明了提取了文本特征之后进行回归分析显著降低了各项误差指标。
别的部分相对而言都是常规的,毕竟是比较早的文章了,其创新点在于提取了用户的RFM特征,并且提取了词袋特征来表示文本,提高了模型的表现,这种研究思路值得模仿借鉴。 在特征选择模块,我对于CFS这个特征选择算法有点模糊,不过还有很多其他可以替代的算法,因此我这里我就不过多深究了。如果有懂得可以在底下放个链接,我去研究一哈。
这篇文章脑洞有点大,提出的变量比较前卫,我看到了image这个单词以为是研究图像对评论有用性的影响的文章,但是再一看是研究评论者头像对评论有用性的影响,这个显然是相当细节了。研究评论有用性的文章主要关注文章选取了自变量、因变量、分析模型以及数据来源等方面的信息。
这篇文章数据选取了Google Play的游戏应用的2178条评论数据,一共选取了9款应用程序的评论,文章提出,在评论数据量很大的情况下,用户是无法阅读全部评论数据的,第1300条和第1500条评论所带来的效应可能是一致的,因此文章采用了采样的方法选取了有代表性的评论来表示整体评论数据集,文章选取样本的解释性部分我没看懂他说的意思,但是大概意思就是选取代表性样本,选取方法可以因人而异,我觉得有道理即可。
在因变量的选择上,文章选择了评论的有用性排名,排名为1代表了最为有用的模型,具体排名做法文章没有明说,不过可以猜测,可以根据评论有用性投票的多少来对文本评论进行排序。
在自变量的选择上,文章选择了传统的文本长度、用户软件打分、软件平均星级、评论星级不确定性、用户头像有用性、软件评论总数、评论者性别等变量。软件打分就是用户对软件的打分,评论不确定性也可以理解为评论极端性,是从用户打分中衍生出来的变量。头像则是自定义头像和系统默认头像的区别,同时文章还做了细化,对自拍照和风景卡通等风格头像进行了研究。
在模型选择上,文章采用了传统的线性回归模型,我下载的论文看不到图,所以只能根据公式去猜测了。最终得到的结论是自定义头像和默认头像对评论有用性是有显著影响的,而头像的风格,比如自拍照或者其他风格的照片对评论有用性的影响不显著。
文章引用了市场营销学的知识,认为用户头像具有装饰功能和信息功能,装饰功能给阅读者带来了情感上的温暖,为简单的文本提供了美学价值,从而提高了阅读者对评论文本的理解。信息功能就是通过头像来使阅读者判断评论者的身份信息等。
总而言之,论文提出的头像这个变量还是挺有创新性的,但是在大数据背景下,如何应用这篇文章的结论还是有一定问题的。
研究在线评论有用性的范式还是比较清楚的,一个评论的有用性取决于评论内容的信息以及来自评论者的信息。过去的文章从评论中提取信息的框架主要有信息接受理论、知识接受模型等等。这篇文章是基于信号理论来研究在线评论有用性的,换汤不换药,主要探讨了从文本内容发出的信号和从评论者自身发出的信号。
文章在因变量的选取上,选择了文章的有用性投票占比,构成了一个回归问题。
文章在自变量的选取上,主要是根据了信号理论。与评论内容相关的信号包括:与产品质量相关词汇的数量占总体词汇的比例、评论的情感取向(当顾客打分高于平均水平时,根据情感词典统计积极词汇的占比,同理可以统计消极词汇的占比)、评论不确定性是根据“if”、“seem”这种含义模糊的单词的占比来度量的。与评论者相关的信号包括评论者排名(亚马逊提供)、是否展现真实姓名(这个与是否有头像的那篇论文有点像)。在控制变量的选取上,主要选择了产品类型、产品打分极性(与平均星级的差异大小)、评论长度、评论距离现在的时间、总投票数、评论可读性、评论产生的月份。这里我有点不太明白评论的可读性,文章是怎么去度量的,作者的解释我也没有看懂,后面有空可以去查查其他文献是怎么度量评论可读性的。
在模型选择上,主要选择了TOBIT回归模型,训练方式还是很常规的,分批加入变量然后查看变量的显著性来验证假设。在数据的获取上,主要获得了12330条评论,搜索型商品4067条,体验型商品8263条。
同时文章还度量了信号环境对这些变量的影响,结果仍然是显著的。低信号环境指评论只有10条或以下的商品,高信号环境就是总评论超过10条的商品。这个在前面的论文中有提到过这个观点,即评论集的倾斜程度和评论数据集的大小都会在一定程度上影响评论有用性。
总结一下,文章基于了信号理论提取了内容特征和评论者特征来进行分析,并且还分析了信号环境对评论有用性的影响,这个点比较新,值得学习一下。
这篇文章我感觉很硬核,从标题可以看出来评论有用性的分析是从大数据视角出发的,还是按照常规的阅读框架对这篇文章进行分析。文章从亚马逊平台上获取了14051211条评论数据,甚至到24个产品的类别,是我目前读过的原始数据量最大的一篇文章。这篇文章的研读我想分为自变量选择、因变量选择、模型选择、结论分析四个部分来分析,我感觉写的头头是道的。
在因变量的选择上,文章选择了有用性投票的百分比来度量评论有用性,因此在模型的选择上,和其他文章一样,也选择了TOBIT回归进行分析,但是文章同时也做了OLS回归来进行了对比,这个做法在其他文章上比较少见。
在自变量的选择上,前面的文章基本将自变量分为两类,一个是与评论文本相关的特征,另一个部分是与评论者相关的特征,文章也采用了这两部分的特征,同时还采用了与产品相关的特征,自变量三大块:review factors,source factors,context factors,作者是这样进行分类的,review factors包含了评论不一致性、评论极端性、评论长度,不一致性用平均星级的绝对差值来度量,极端性是二值变量(一星或五星编码为1,其他为0)。source factors包含评论者专业水平和评论者经验,专业水平用过去的总有用性投票比例来进行度量,经验用发表的总评论数来度量,将评论者专业知识和评论者经验这两个概念进行区分还是很不错的。context factors用产品无形性、产品满意度、受欢迎度、产品种类来度量,无形性是二值变量,数码产品是无形产品因此编码为1,产品满意度用产品的平均星级来度量,欢迎度是产品的搜索排名,产品种类是该类别下能搜索到的产品数量。
在结果上,有几个值比较值得引起注意:产品无形性、评论不一致性、产品满意度、产品种类、评论者经验对评论有用性是负相关的,评论极端性和产品无形性的交叉项是正相关的。评论者对专业知识对评论有用性有非常强的预测作用,系数相当大,说明这个指标提取的很成功,在后面的研究中,可以考虑加入这个变量,但是在度量方法上可能不能直接用。
综上,文章不管是实验做的还是论文的书写,都相当nice。
这篇文章是Mudambi 和 D. Schuff发表的,前面我读过的25篇文章,不说全部,起码有20篇都引用了这篇文章的结论,文章发表的时间比较早,算是对在线评论有用性进行研究的较早的一批学者了,整篇文章也相对比较好懂,用的方法都是方差分析的方法,研究是基于调查问卷的。
文章列举了可能影响评论有用性的一系列因素,总结的还是比较全面的,如果这些方面可以得到良好的度量的话,都可以考虑加入到自己的训练模型中去。
文章提出了四个假设,假设 1:对一个产品同时使用正面和负面陈述的评论会比只使用正面或负面陈述的评论更有帮助。假设 2:自我描述的专家写的综述比没有自我描述的专家写的综述更有帮助。假设 3:自我描述与读者相似的人写的评论比与读者不相似的人写的评论更有帮助。假设 4:一个人拥有的与产品领域相关的知识水平会影响他们发现什么是有帮助的。
然后用了均值检验的方法去检验不同组下的问卷均值是否存在差异,最后得出的结论是评论包含正反面描述对评论有用性没有显著帮助、自称专家的人写的评论对评论有用性有显著帮助、于评论者阅读者相似的人写的评论对评论有用性没有显著帮助、专业领域的知识可以影响评论有用性。
文章总体来讲还是比较好懂的,这些结论可以在写综述时看着使用,提出的变量如果好度量的话可以直接度量出来然后丢进机器学习模型里面去训练。
这篇文章不像前面的文章,做自变量因变量跑一个TOBIT回归模型进行分析,看标题知道这篇文章用了META-ANALYTIC的研究方法,做法就是将其他文献中的结果整合起来进行分析,和前面的用复杂网络进行在线评论文本的分析有异曲同工之妙,为在线评论领域的研究整出来了个新的小方向。
不同的作者采用不同的数据集,并且对数据自变量采用了不同的度量方式,导致了彼此之间的结论的不一致性,因此为了探究一众自变量对评论有用性的影响,就有必要进行元分析。因为是在别人的研究基础上进行分析,因此文章并没有提出什么新自变量。首先是文本特征:长度、可读性、评论星级、星级平方、发布天数;其次是评论者特征:评论者信息披露、评论者专业性、评论者专家标识、评论者好友数、粉丝数。这里有一个特征需要注意的就是评论可读性特征的度量,之前的文章好像没有度量评论可读性的,后面找篇文章读读看看对于可读性这个特征其他学者是怎么进行量化的。
文章还引入了产品类型、评论来源平台(内部评论和外部评论)等控制变量。在方法论上用了FISHER Z的系数,我没看懂文章也没讲的太细,因为最后也是直接软件跑出来的结果,知道过程意义也不大。文章给出了很多个分析结果表格,下表可以看出:不同的评论有用性度量方式下,评论长度都是积极显著的影响评论有用性的重要因素,而评论星级是正向影响的但是却不显著。文章表格信息传达的很清楚,解读方法就跟前面的解读一样,可以分析出各个因素在不同组别下的系数大小和显著性水平。
文章的表格非常长,看图说话说了好多页我就不BB了。最后结论是评论长度是正向显著影响评论有用性的,评论可读性正向影响评论有用性,星级正向影响,发布日期正向显著影响,评论者信息披露、专家标识正向显著影响有用性。
文章的结论可以放在综述部分慢慢陈述,新东西的话,应该是文章采用的分析方法把。
这篇文章我一整个爱住了,又是一篇学术写作范文,是研究评论有用性比较早的一篇文章了,上一篇文章提出了一个文本可读性的概念,我就寻思着找一篇文章看看文本可读性其他学者是怎么样去度量的,这篇文章就用了TOBIT回归模型并且加入了好几个文本可读性的指标,得出了一个相当漂亮的结论,结论不管是放在综述还是其他部分都相当NICE。
文章从amazon平台获取了3万多条评论数据进行分析。经典评论有用性的研究范式还是比较固定的,首先是因变量的确定,这篇文章采用了文本有用性投票率来作为因变量,和之前的文章是一样的。在自变量的选择上,文章选择了文本长度、文本星级、文本可读性三大块的变量来进行分析。文章提出了好多个假设,下面是一个假设的结论图。
在变量方面,比较新颖的变量是文本可读性,文章介绍了四种文本可读性指标,Gunning’s fog index,Flesch reading ease index,Automated readability index,The Coleman–Liau index。G和A是度量文本复杂程度的指标,F和C是度量文本难易程度的指标。
上面是文本可读性指标的度量公式,有的公式是基于英文体系的度量,因此在度量中文文本的时候需要对公式进行一定的改进或者设计合理的中文度量方式。然后跑回归的结果显示,文本如果越复杂,文本有用性就越低,文本越简单,文本的有用性就越高,并且变量都是显著的,结果相当的NICE。
文章还做了方差分析去验证了其他结论,这个可以看上面的结论截图,我觉得最有营养的部分就是文本可读性的度量了,我看的这么多文章好像还没有从文本可读性去进行研究分析的,做一定的改进之后MAYBE就是一个创新点。
这篇文章和前面那篇可读性的文章有点像,对自变量的研究进一步深入了一些。作者基于精细加工模型和理想点模型进行分析,和之前的文章一样,做的也是回归问题,在因变量的选取上,文章选择了有用性投票比例。
在自变量的选取上做了一定的创新,自变量分别是文本可读性、文本可读性平方、评论情感、评论情感平方、评论者经验、可读性与经验的交叉项、可读性平方与经验的交叉项、情感与经验的交叉项、情感平方与经验的交叉项。对变量进行平方操作就可以根据平方项的变量符号来判断这个变量对评论是否呈非线性关系,在之前的文章里面也有类似的操作。在进行变量交叉操作时,文章先将变量减去其均值然后再将它们相乘,文章称这种操作可以在一定程度上减少多重共线性的影响。各个指标的度量和之前的文章都一样,没有什么新的度量方式。
在模型上,很自然的选择了TOBIT回归模型,模型结果如上图所示,得到的结论也挺漂亮的,和评论文本长度一样,评论可读性、评论情感和评论有用性之间都存在着倒U型的关系,并且交叉项之间的调节效用都是显著的。评论情感和文本可读性的倒U型关系确实是其他学者没有去研究的,这篇文章算是补上了一个缺口。文章的结论部分也说了他们是first。
总结一下,文章主要关注了定性因素的影响,文本情感和情感平方。
emmmmm这篇文章我读的好费劲,在文章书写上我读的可太费力了,文章的篇幅不长,主要是提出了新的自变量:每个句子的观念词语的数量,或者翻译成属性词语的数量,这个在之前的文献里提到过这个概念,另一个是评论的类型,这个比较新颖,文章将评论分为了常规型、比较型、建议型评论,这个概念可以是对评论文本写作风格或者体裁的一个补充,但是在大规模的数据量下,怎么样去把这个概念给度量出来是个问题,如果能解决好就可以在大数据的背景下加入这个新特征。
因变量是常规的有用性投票率,然后模型用的是TOBIT回归,得到的结果也算OK,评论写作风格和属性词语的数量都能显著的影响评论有用性。
其他没有啥了,主要还是看大数据背景下能不能应用到这篇文章的特征。