百分点数据科学实验室:白酒零售行业商品搭售方案

​编者按:在白酒零售行业,随着数字化的深入,其信息支付终端机系统汇总了大量的白酒与非白酒类的销售数据,如何利用起其中的销售订单数据,进而沉淀出能够支撑起数字化市场服务的方案,是目前白酒行业中一线市场服务人员迫切需求的。百分点科技根据业务特点与需求提出了模型与业务方向的组合解决方案。
一、解决方案-模型层面
针对白酒行业一线市场服务人员对于商品销售数据的需求分析,项目组根据对商品销售数据的应用进行研究,在查阅了论文资料以及借鉴相关行业经验后,项目组对于白酒行业中商品销售数据应用主要聚焦在白酒与非白酒商品类的搭售。
利用关联分析模型挖掘出白酒与非酒类商品在不同季度、不同商店业态内的关联关系,生成能够与白酒进行搭配销售的非白酒类商品目录,为一线市场服务人员在维护客情的过程中提供优秀的商品搭售方案,帮助客户优化货架管理,提高白酒与非白酒类商品的搭售成功率,最终帮助一线市场服务人员拓宽市场服务工作的维度,进一步拉近与客户之间的服务距离,间接提高客户服务满意度,提高白酒渠道的活性。
对于商品推荐分析,使用得较多的是关联规则算法,由下图所收集的当前较为流行的推荐算法结构得知,在关联规则较为常用的有Apriori 和FP-Growth两种算法。

Apriori推荐算法
Apriori算法的优点是构造简单、使用方便,但是由于其算法原理,会产生大量潜在频繁项集,且需要每次对全体数据进行扫描,来判定潜在频繁项集是否频繁。所以在面对数以千万条计的数据时,会显现出内存占用大、计算时间长的弊端。
Apriori算法的算法过程:
第一步:通过迭代识别所有的频繁项集,要求频繁项集的支持率不低于用户设定的最小支持度。
第二步:是从频繁项集中构造可信度不低于用户设定的最小置信度的规则。
第三步:可视化显示、理解、评估关联规则。支持度计算公式:

置信度计算公式:

Apriori算法寻找频繁项集的过程
FP-Growth增长树算法
FP-Growth基于Apriori算法进行了一些改进,能够弥补前者在面对大数据时的不足,其原理是创建FP-Tree这一树状结构来存储数据信息,并通过对数据结构的递归来完成对频繁项集的挖掘,在整个过程中仅需对全体数据进行两次扫描。因此该算法相较Apriori算法,除开发实现难度较高,在空间与时间复杂度上都有较大提升,对于大数据的适应性也十分良好。
FP-Growth算法的主要任务是找出数据集中的频繁项集,大致步骤分为如下三步。
第一步:构建项头表,项头表记录了所有的频繁项(1项集)的集合和支持度计数,并按照支持度计数降序排列。
第二步:构建FP-Tree。
第三步:基于FP-Tree挖掘频繁项集。用一个构造实例来示范,现拥有如下商品实际销售组合列表,利用FP-Growth算法挖掘过程如下:

步骤1: 创建项头表,项头表由项ID、支持度、计数、节点链三部分构成,具体信息如 下图项头表所示,支持度计数按照由大到小的顺序排列,得到频繁1项集 = { { b: 8 } ,{ a: 6 } ,{ c: 5 } ,{ d: 4} ,{ e: 3} } 。其中节点链指向每个项在FP-Tree中的位置,将在步骤2中体现。

步骤2: 构建FP树,树的根节点设为null,再次扫描数据库按支持度降序的顺序处理事务,为每个事务创建一个分支,每项通过一个节点链指向它在树中的位置,构造好的FP-Tree如上图右树所示。
步骤 3:FP-Tree挖掘,FP-Tree的挖掘采用从下到上的方式,首先考虑项头表支持度计数最小项e为结尾的频繁项集,e出现在FP-Tree三个分支,所形成的路径是,e的条件模式基是它所对应的前缀路径

模型的选择
Apriori算法需要多次扫描交易数据库,每次利用候选频繁集产生频繁集;而FP-Growth则利用树形结构,无需产生候选频繁集而是直接得到频繁集,大大减少扫描交易数据库的次数,从而提高了算法的效率。考虑到系统落地与执行效率问题,因此在本次项目中,将使用FP-Growth算法通过寻找频繁项集的方式去找到合适的搭售商品目录。
二、解决方案-业务层面
项目组选择了FP-Growth算法作为实现需求的基础,并根据业务要求制定了一套的解决思路,首先对终端数据池里面的客户进行层级划分,然后根据每一层的客户群体订单比例使用奈曼分层抽样法进行数据抽样。
抽样比例按照业内惯例,为数据总量的10%,同时抽样的过程中考虑到了客户经营质量评分的因素,该评分用于对客户经营水平的量化。
样本在入选的过程中,将按照经营质量评分由高向低择优选入,接着对每一层优质样本所提供的数据进行建模,最终得出每一层级的商品目录,在每一层商品目录中还可以按照季度细分为春、夏、秋、冬季目录,也可以根据商品数据属性进行二次细分,如提供具有利润高、销量高、利润与销量平衡等标签的商品目录。建模框架如下:

业务建模过程
层级划分,提供群体差异化服务
由白酒客户的的标签组合而成,如经营等级+经营业态+经营商圈,若等级有7个,业态有5类,商圈有8种,则总划分层为280层,意味着每一层均有独立的商品目录。
客户经营质量评分,数据优中入选
每一个客户都会有经营质量的量化分数,满分为100,系统按照每个月的销售情况评估得出,分越高则说明经营质量越好,其提供的数据质量就越高,在层级划分基础上,择优入选样本空间。
样本量10%,避免全量计算
按照总体客户数量而定,目前总体客户户数为三十多万户,按照10%的抽样规则,则样本空间为三万多户,避免全量计算,减少服务器压力。
奈曼分层抽样,科学合理分配样本点
按照各层级客户群体的订单标准差与订单量来决定,来决定各自层级所需要的抽样客户数据是多少,如层级1客户群体标准差与订单量相乘后占总比12%,样本空间为5000户,则层级1客户群在样本空间的数量为5000* 12% = 600。具体算法如下:

细分商品标签属性,灵活调整搭售方案
项目组根据需求,将所有搭售的商品区分为利润与销量两个维度,在推荐算法给出搭售商品组合目录后,拓展商品属性,业务人员可根据被搭售商品的利润、销量两个维度进行筛选,如需求是寻找出利润最高的搭售组合,可按照利润率进行筛选,若需求是寻找出销量最高的搭售组合,可按照销量进行筛选,若需求是寻找出在利润与销量平衡的商品的搭售组合,可按照利润与销量综合查询。
结合下图所示矩阵图可找出最符合当前经营目标的搭售方案。

三、初步建设成果
在建立起搭售目录后,可在客户层级、季节因素、商品属性的标签基础上,通过组合不同的标签获得差异化的客群商品搭售目录。丰富搭售方案。
基于季节推送商品目录
根据季节气候进行商品目录的推送,我们发现夏季与冬季在商品搭售方面有着较为显著的区别,在夏季与白酒搭售较多的均为可乐与绿茶,而在冬季则为矿泉水与啤酒居多,说明在不同季节存在着不同的消费倾向。

基于客户层级与季度推送商品目录
在同一季节因素下不同的层级客户的搭售目录也不一样,在客户等级为层级5的夏季目录中,汽水类型的饮料均为听装330ml,同时与吸烟场景相关的烟灰缸与打火机均出现在目录中,而在客户等级为层级15的夏季目录中,可搭售消费的商品例如汽水饮料以大瓶装居多,同时也出现了啤酒与功能性饮料,说明层级15的客户所服务的消费者的消费能力更高。

基于商品标签推送商品目录
基于商品标签进行二次细分,发现销量高的均为汽水、水、功能性饮料等,其次为与吸烟相关较大的打火机,而在利润率方面,则集中在红酒,说明红酒的所带来的搭售利润最高。在未来,在形成搭售目录的前提下,结合销量与利润矩阵挖掘出在销量与利润之间达到平衡的商品,并组成可实现经营目标最优化的商品目录。

基于多维度组合推送商品目录
根据客户、商品、季节标签的组合搭配,可多维度钻取挖掘搭售商品目录,如在层级5客户在夏季销量最高的商品目录,可以发现集中在可乐、水等饮料快消品,而在层级20的客户在冬季利润最高的则集中在花雕酒、葡萄酒。

四、场景应用
本次结合推荐算法与业务需求所形成的搭售方案,主要应用于一线市场服务人员的实际走访过程,对客户进行商品搭售辅导,在商品层面给出经营建议,核心目的在于将优质样本空间中所提供的先进经验(商品目录)共享至其他客户,达到经营经验共享的目标。
在实际的实践过程中,通过移动办公的分析端口,市场服务人员可以帮助客户查询到自己所在层级中的优秀商品目录,结合自身的经营情况,及时调整商品货架结构,将与白酒畅销的非白酒类商品集合在相近的地方,进而提高通过白酒提高非白酒类商品的搭售成功率,实现初步的数字化应用转型。
注:研究代码收录于百分点大数据分析挖掘案例集,如有需要请联系400-6240-800。
参考资料
[1]邵伟 《基于FP-Tree的关联规则挖掘算法研究》[D].西安:西安电子科技大学,2010.
[2]韩村鸽 《FP-growth算法的研究与改进》 福建武夷山:武夷学院2020.9

你可能感兴趣的:(r语言,人工智能,算法)