试题如下:(来源于百度)
现在有一个大社区,该街区有A、B、C、D......、Z等26个小区,每个小区有100个居民,总共是2600个居民。全部居民都有唯一编号来识别身份:
比如:A小区的100个居民编号分别为A1,A2,A3,......,A100。B小区的100个居民编号分别为B1,B2,B3,......,B100。以此类推,Z小区的100个居民编号分别为Z1,Z2,Z3,......,Z100。
社区旁边5站公交的地方开了一家shopping mall,提供吃喝玩乐购物一条龙服务,命名为百度广场。百度广场希望进行一次以小区为单位的促销推广活动(如赠送积分购物卡),在做活动之前,需要确定这26个小区中的哪些小区的居民用户质量最高,最具备促销价值,然后定点投放。目前收集到了小区全部居民在8月1日——31日的全部数据,内容如下:出门①→公交②→百度广场购物③→百度广场看电影④→百度广场唱歌⑤→百度广场餐厅吃饭⑥
其中:
(1)①②③④⑤⑥的行为发生时间点都有记录
(2)③④⑤⑥的具体消费金额都有记录
(3)③的购物明细(购买了哪些商品)都有记录
(4)④的观看电影的节目单都有记录
(5)⑤的点歌单的明细都有记录
(6)⑥的菜单明细都有记录
(7)该社区只有888路公交车是抵达百度广场的,但是该社区公交站还有通往其他地方
的公交车,如514,521,602路
(8)①②③④⑤⑥不是完全连续发生的
问题如下:
(1)如何判断单个居民质量的高低?如何判定哪些用户最具备促销价值?
(2)如何选择一个最具促销价值的小区?
分析&方案
一、审题定义
1.居民质量高:定义为消费能力强、消费意愿(需求)强的居民
2.最具促销价值的的用户:没有来百度广场消费的居民;有消费能力但是消费意愿弱的居民;有消费意愿但是消费能力有限的居民
3.最具促销价值的小区:拥有最具促销价值用户最多的小区
二、要素整理分析
出门①→公交②→百度广场购物③→百度广场看电影④→百度广场唱歌⑤→百度广场吃饭⑥
要素:公交(交通工具选择)购物(时间、金额、明细)看电影(时间、金额、明细)唱歌(时间、金额、明细)吃饭(时间、金额、明细)
1.消费频率指数A:
统计得出③④⑤⑥8.1—8.31这31天内发生的次数,并对2600份用户数据做降序排列,对应排名记为A,A越小,表明消费意愿越强。
2.消费金额指数B:
统计得出③④⑤⑥8.1—8.31这31天内消费总额,并对2600份用户数据做降序排列,对应排名记为B1,B1越小,消费能力越高;
统计得出31天内单次消费最大金额,并对2600份用户数据做降序排列,对应排名记为B2,B2越小,消费能力越高;
统计购物明细中非生活必需品(含奢侈品)比重,并对2600份用户数据做降序排列,对应排名记为B3,B3越小,消费能力越高。
统计平均出门①到③/④/⑤/⑥发生所用时间,并对2600份用户数据做升序排列,对应排名记为B4,B4越小,消费能力越高
假定B1、B2、B3、B4的权值分别为0.1、0.25、0.25,0.4则按照加权即0.1*B1+0.25*B2+0.25*B3+0.4*B4的值记为B,B越小,表明消费能力越强。
这样,可得如下表格:
按照前面的定义居民质量高指的是消费能力强、消费意愿(需求)强的居民,实际上消费金额指数的作用要略高于消费频率指数,所以在确定居民质量高低时需要引进权值系数x,y,且要确保x略高于y——即x*A+y*B=C,(这里假设x=0.6,y=0.4),C值越低,表明该用户质量越高
按照前面定义,最具促销价值的的用户是指的没有来百度广场消费的居民;有消费能力但是消费意愿弱的居民;有消费意愿但是消费能力有限的居民
因此
对于发生①出门但是没有坐888路公交发生③/④/⑤/⑥的用户直接标记为目标用户集合H1;
对于有消费能力但是消费意愿弱的居民&有消费意愿但是消费能力有限的居民,我们假定存在合理的|A-B|,即消费频率指数和A消费金额指数B差值的绝对值,并对2600用户的该数值进行降序排列,对应排名记为I,即I值越小,该用户就越具备促销价值。对排名前35%(数据假定,未验证)的用户直接标记为目标用户集合H2;
——最具促销价值的的用户即为目标用户集合H1和目标用户集合H2的总和。
——最具促销价值的小区即为拥有最具促销价值用户最多的小区。