编者按:3月3日,由MobTech袤博科技主办的【CoderPark】第二季数智有为——以“数据科学赋能商业场景应用与决策”为主题在云端举行。MobTech袤博科技资深数据挖掘工程师叶秋在直播中详细分享了多维规则及前沿算法分析处理,助力商业地产决策进阶。以下为详细内容:
本次分享的主题聚焦商业地产垂直行业的数据应用,在商业地产这一垂直领域当中,数字化的进程相对金融科技等行业较慢,甚至慢于传统制造业,归根结底最大的原因是相关数据的匮乏和分析方法论的缺失。
一直以来,商业地产的运营主要依靠大量的线下调研和运营人员的过往经验,在数字化的今天,很多方法已经赶不上数据智能时代的步伐,越来越多的商场因为运营不善而歇业倒闭。如何快速准确的把握市场走势和消费情况,越发成为盘活商场的重大法宝。
▌商场客流的数据应用
商场客流作为商业地产数据应用的重要参数,在数据应用有至关重要的作用。商场需要关注周边竞对的客流趋势,客流的多少极大地反映了此地商业氛围是否浓厚,大家的消费欲望是否强烈。
1、算法详情:
A、参数的选择及其局限性根据行业人员的相关经验,一个商场主要受到以下几个方面影响:首先是需求,包括周边人口、交通的覆盖等,其次是供给,包括商业规模,周边的竞对商圈情况等。据此筛选出一些参数来辅助判断客流的日波动趋势,还增加了一些时间属性,如节假日、周末和工作日,从而丰富参数的可选性。例如:1 公里内公交站个数、1 公里内地铁站个数、周边 3 公里的居住人口等。而统计值和真实情况之间则会丢失大量信息,如公交站在 1 公里内的分布、步行的距离、人口的分布等都会影响参数自身的可用性。如果将底层改成使用像素和位置的场景来丰富信息,那简单的机器学习算法则无法适用。因此,需要考虑将模型改为深度神经网络模型,这对工程化的使用和数据的样本有一定的要求。
B、模型的选择及其局限性
在模型选择上,为了便于工程化的部署,并满足传统行业对可解释性的需求,本文在几个基本的回归机器学习算法中,选择了适用 cart 分类回归树作为决策树的随机森林模型,有以下几点好处:
- 通过调用 sklearn 中的 importance 函数,能够比较直观地看出各个参数对结果的影响大小(对后续特征工程优化,以及前端销售十分重要);
- 随机森林整体模型方差小,泛化性较强;
- 随机森林模型相比传统决策树,虽然可解释性差一些,但是鉴于原始数据异常值和噪声的情况较多,更看重其鲁棒性,且不需要剪枝,不需要关注超参,方便训练;
- 随机森林模型工程化简单,不需要太多的工程化代码和硬件支持,模型文件不大,压缩后一般在几兆到几十兆之间,单个服务器可以轻松加载
同时,随机森林也有其局限性,模型采用的是 cart 决策树作为单个学习器,预测的结果永远在样本的最大值和最小值之间。此外,值划分较多特征容易对 RF 的决策产生更大的影响,从而影响拟合的模型效果,而在商业地产场景中,无法生成大量丰富的样本来均衡这种样本特征分布不均的情况。同时,随机森林作为有监督模型,需加入 Y 值,而这在商业地产场景中是悖论,样本 Y 越多,模型的价值越低。
2、模型效果和产品展示
模型的整体效果较好,MAPE(就是平均百分比误差)为 9%,当前误差≥20%的占比为 9%。以 MobTech 袤博科技的智图产品为例,当前某商场客流已展示其中,并用作分析,例如疫情对客流的影响,圣诞活动效果的评估等。以下是具体案例:某商场 1 月受疫情影响,整体客流下降一半,圣诞节活动期间带动客流,圣诞日当日客流环比上周提升了 15%。
▌职住地分析的数据应用
除了客流以外,访客的居住地和工作地对商场的运营也有很大的辅助作用,商场可以以此估算自己的主力客群,并根据客群的属性制定自己的推广和运营策略。该算法主要由两部分组成:地块分类算法、dbscan聚类。
1、 地块分类算法
相关概念解释:
A 用户分布函数
用户当日日活累计百分比随着时间从0点0分0秒到23时59分59秒,从0增长至1。例如我们可以把以下序列准变为样本分布函数:
[1,3,4,6,9,10,15,18],在此案例中,每个跃度为1/n即1/8,可得样本分布图像为:
B wasserstein距离
用来计算两个分布的差异,又叫推土机距离,这是因为该距离定义中由一个分布转变为另一个分布所需要的代价和挖土填土的过程十分相似。
考虑两个离散的分布P和Q
为了让两个分布相同,我们一个个变量观察:
为了让P1和Q1相同,我们需要P1把手头上的3分2到P2去,这样P1和Q1都等于1,此时P2=4,其他数保持不变,这个过程是不是十分像挖掉P1的土填到P2上;
为了让P2和Q2相同,我们也要做类似的挖土填土工作,但注意,此时P2手头上由P1填的2,因此现在P2是4,但是Q2依然是2,因而P2也要挖2分土给P3,保持和Q2一样;
P3和Q3也是一样,但此时P3为3,Q3为4,因为我们只能先挖土再填土,因此要Q3挖1分土给Q4,这样P4和Q4也能够一样。
每一步的代价计算公式为: ,第0步我们规定为0,故有
所以最终的总代价,也即Wasserstein距离则为
该挖土填土的过程可以由下图表示
可以类似的将P、Q转化成样本分布:
P[1(3),2(2),3(1),4(4)],Q[1(1),2(2),3(4),4(3)]。与上面样本分布的例子不同的是,样本并非均等分为1/n,而是括号中的权重,同理,可以画出对应的图像:
蓝色分布和橙色分布所围成的“面积”即是所求的wasserstein距离
算法应用:根据以上原理,我们可以得出两个地块中不同时间下活跃人群的分布差异:
A地块和B地块原始活跃人群时间分布分别为以下:
转化为样本分布则为如下:
则这两个地块的不同时间下活跃人群的wasserstein距离为:5460
地块分类算法的整体效果和升级方向:当前基于地块人群时间分布函数的地块分类算法的准确度为70%~80%。采用卫星影像做实体分割是更准确、更有效的方法,可以参考达摩院的aiearth平台,但是此方法对于工程化以及卫星图像数据源有一定的要求。
上海部分区域的小区地块分布
2、DBSCAN聚类算法
dbscan聚类就是比较基础的一个聚类算法,只是在原有的算法基础上进行了加权。在计算核心对象时,时间正确且位置正确的点会得到更高的得分,更容易被计算为核心对象。其余和正常的dbscan聚类算法一致,最后会聚类出来一个簇,簇的中心点即为可能的经纬度,最后从多个簇中选择点位或停留天数最多的那个簇的中心点作为最后的结果。
如这里的示例,有两个簇,左边这个簇明显点位数更多
通过右图,可以很明显的看到居住地分布的密度大小,对于商场运营人员可以提供不小的帮助。
总结:
随着疫情逐渐消退和经济增长驱动转向国内消费,线下消费迎来了新一轮的增长风潮。商场商圈作为线下消费的重要组成部分引起了广泛关注,商场的开发和运营成为了地产开发商关注的核心议题。在这其中,客流决定着商场的基本盘,而职住地的分布情况又能说明客群的基础情况。以上分享核心聚焦商业地产垂直行业的数据应用,帮助读者了解更多数据智能在商业地产行业的应用赋能价值。