前言:本文是关于在电子商务网站中早期购买行为的刻画和预测,是我们发表在2018年TKDE的工作,有问题请联系我,转载请注明出处。
本文作者:白婷,博士生,中国人民大学,大数据管理与分析方法研究北京市重点实验室。
研究方向为:推荐系统,深度学习,关注深度学习在推荐模型中的应用,电商用户行为分析建模和应用。
本文首发于知乎[RUC智能情报站],如需转载请告知作者并注明本专栏文章地址
论文: Characterizing and Predicting Early Reviewers for Effective Product Marketing on E-Commerce Websites. (TKDE'18)
作者: Ting Bai, Wayne Xin Zhao, Yulan He, Jian-Yun Nie, Ji-Rong Wen.
论文和 slides见个人主页:https://tbbaby.github.io/baiting_chinese.html
一、写作动机
电子商务网站中,是由用户和商品两个部分构成的相互依存的电商生态系统。用户在购买商品时,往往会很看重评论的信息。商品的销售也遵循着一种马太效应,商品评价越多,越好,越有可能被购买。本文即针对商品的早期评论者进行分析和预测,解决新商品的冷启动问题,帮助后期用户的购买决策。文章首次给出早期评论者的划分方法和定义,定量分析了早期评论者的属性、对商品评分、其评论的帮助性、文本长度,并在电子商务网站中,找到社会学中创新传播的理论的支撑;提出了预测早期购买者的模型,旨在为电商中新商品的推广启动和帮助用户购买决策提供理论支撑。
(注:用户一般在购买商品后才会发表评论,由于我们只能拿到评论数据,故后文中早期评论者也可以理解为早期购买者;区别于用户个性化推荐,本文着眼研究电商生态系统中的另一个重要组成部分:商品,为商品寻找早期评论者,进而帮助用户做购买决策)
对早期评论者的研究目前对电商网站具有重要的意义:
亚马逊的商家发现了新商品上市时,早期购买者的评价的重要性,提出亚马逊葡萄树,通过提供免费的商品试用,来鼓励一些早期用户写出详细完善的商品评论。再举一个贴近生活的例子,大家在淘宝网站购物收到商品的同时,也经常会收到商家寄来“好评返现”的纸片,尤其是刚刚起步的小众商家,或者推出的商品没有什么评论的时候。这些商家让出一部分利益来换取早期购买用户的优质评论,从而吸引更多的人来购买。
以上的例子都说明一个问题,在电子商务网站上,早期购买者对商品的评论非常重要,会影响到后续购买者的决策,从而影响商品的整个销量,影响电商的市场利益。本文对两个电商数据集Amazon 和Yelp, 对早期评论者进行定性和定量的分析,最后提出预测模型。
二、早期评论者定义和分析
早期评论者中很可能会存在由于商业目的而刷评论的垃圾用户,我们采用三种办法来过滤垃圾用户:基于用户评论的偏差性(如评分都很高),基于评论文本的属性(如文本重复等),基于评论时间(如短时间多条评论)。
2. 早期评论者统计学分析
3. 早期评论者评论属性的定量分析
以上两条定量分析我们在社会学家Roger( Diffusion of Innovations Theory)中找到了理论支撑,印证了在电子商务网站中,同样符合社会学中创新的传播规律:
4. 早期评论者对商品销量的影响
三、早期评论者的预测模型
给定商品p和候选的users集合,早期评论者预测任务即是预测tok-K个最早发表评论的用户,本质是所有用户的ranking 问题。
Challenge: 商品的冷启动问题
我们是解决商品的早期购买者问题,当一个新的商品发布时,用户购买评论行为几乎是没有的,下面我们将介绍我们提出的预测模型,来解决商品冷启动这一挑战。
2. 预测模型:Our Margin-based Embedding Model (MERM)
给定一个商品p, 用户u对商品p的早期评论评分函数(early index score),可以刻画为:
对所有用户的评分函数做ranking, 即可得到top-K个最早期评论者的预测结果。
采用competition-based viewpoint to the ranking task. 对于pairwise u 和u'(u 的评论时间早于u'), 我们保证早期评论评分值S(p, u)> S(p, u').
商品向量由带类别标签的doc2vec无监督学习,从而可以解决商品冷启动时,无用户数据的挑战,用户向量是训练过程中的学习参数,最后给定新商品和用户,我们可以得到其充当早期评论这的评分值,用作top-K的ranking.
3. 评价指标
4. 数据集和实验结果
我们选取了Amazon 和Yelp 两个数据集,数据统计和实验结果如下:
写在最后:这篇工作是我做的最久的一个,模型比较简单是因为是两年前的工作,期刊审稿周期差不多一年,拖到了现在(在投稿等待的过程中,新的模型做好也没有更新了)有两点思考希望能和大家分享: