在线房地产平台越来越受欢迎,其核心问题是撮合经纪人与客户进行潜在的房屋交易。主流平台通过top-k推荐来匹配经纪人。我们通过大量的数据分析观察到,这种top-k推荐往往会使顶级经纪人过载,这明显降低了他们的服务质量。在本文中,我们建议通过从推荐到分配的范式转换来避免代理匹配中的这种过载。为此,我们设计了具有上下文强盗(LACB)的学习分配,这是一种数据驱动的容量感知分配方案,用于经纪人匹配,以在线方式估计经纪人特定的工作负载容量,并从全局角度将经纪人分配给客户,以最大化整体服务质量。对来自工业在线房地产平台的合成数据集和真实数据集的广泛评估验证了我们解决方案的效率和有效性。
在线房地产平台,如Compass1、Zillow2和Ke Holdings Inc.(又名北客)3正在越来越多地利用数据驱动的方法来提高业务和服务质量。这些平台的核心功能是将对购房感兴趣的客户与合适的经纪人相匹配,以获得后续服务。这种经纪人匹配的现状是top-k推荐[2],[3]。以中国最大的在线房地产平台北客为例。当客户端在平台app上点击某房子的详细信息时,app会向客户端推荐该房子关联的三个经纪人(如图1所示)。
通过对在线房地产平台的大量数据分析,我们发现:(1)经纪人工作量有限;(2)top-k推荐机制导致顶级经纪人过载,即超载现象,影响了服务质量和平台的长远发展。具体而言,我们的研究表明,由于top-k机制,如果经纪人每天响应超过40个客户请求,他们的注册率可能会从14.3% ~ 27.5%下降到2.5% ~ 17.8%(见第II-B节)。在这里,经纪人的注册率是服务质量的一个常用指标,它是与他/她注册的客户数量与他/她服务的客户总数之间的比率。在采用topk推荐机制时,我们还观察到马太效应[4]。也就是说,许多请求被顶级经纪人占据,其他人几乎没有机会提高他们的技能。这可能会打击那些被忽视的经纪人,并从长远来看损害平台。
我们认为,超载现象是由于忽略了代理的工作负载容量造成的,这促使我们采用分配[5]-[7]视角来进行容量感知代理匹配。也就是说,与其盲目地向所有客户推荐少数顶尖的经纪人,我们建议首先估算单个经纪人的工作量能力,然后在不压倒经纪人的情况下,从全局角度将其分配给客户。然而,实现broker匹配的容量感知分配面临两个实际挑战。
挑战1:如何以在线方式估计特定于经纪人的工作负载容量?我们观察到不同经纪人的工作负载能力不同(见第二节),因此有必要进行个性化估计。然而,提前收集所有可能工作负载下的代理服务质量数据是不现实的,这使得在线估计工作负载容量成为一种更好的选择。以往的工作负荷容量估计方案[8]、[9]均不支持这种个性化评估的在线学习。
挑战2:如何在容量限制下分配代理以随着时间的推移最大化整体效用?目前的房地产交易量影响到不久的将来,这是很常见的。因此,批之间的代理分配往往是相关的,这使得整体分配代理变得困难。大多数分配方案[10]、[11]都是独立考虑每个批次中的客户和经纪人,因此在多个批次的集合效用方面,它们都是次优的。
为了解决这些挑战,我们提出了具有上下文强盗的学习分配(LACB),这是一种用于房地产经纪人匹配的数据驱动的容量感知分配方案。它通过上下文强盗解决挑战1,实现数据高效和在线个性化容量估计。LACB通过容量感知价值函数克服了挑战2,它同时考虑了经纪人匹配的短期和长期效用。我们的主要贡献和成果总结如下。
在本文的其余部分,我们首先识别第二节中的过载现象,并在第三节中阐述问题。
然后,我们将在第IV节介绍我们的解决方案的概述,并分别在第V节和第VI节介绍每个模块。
我们在第7节中提出评估,在第8节中回顾相关工作,最后在第9节中得出结论。
我们通过北客(中国在线房地产平台)的测量来推动我们的研究。我们观察到一种被称为顶级经纪人过载的现象,其中一些经纪人的任务是处理超过他们能力的请求数量,这最终导致经纪人的服务质量和平台的整体效用下降。
我们的第一个动机是经纪人的能力有限。与其他服务行业一样,我们假设房地产经纪人的能力有限,即他/她在单位时间内可以提供高质量的服务数量。由于房屋交易中服务质量较低,容易导致客户流失,我们假设经纪人的服务质量会随着服务请求的增加而下降。我们通过下面的测量来检验这个假设。
测量。我们分析了中国两大城市在线房地产平台2021年6月1日至8月31日的数据,以探索经纪人服务质量与能力之间的关系。我们使用经纪人的注册率,即与经纪人注册的客户数量与总服务数量之间的比率,作为服务质量的代理。我们根据工作负载的增加来衡量注册率,即每天服务的请求数量,包括城市和个人级别。
观察。我们观察到,注册率往往随着工作量的增加而下降,下降模式似乎很复杂,而且是特定于经纪人的。
图2显示了随着日请求量的增加,两市券商的平均注册率。
以A市(蓝色区域)为例。如果每天处理的请求数低于40次,则平均注册率为14.3% ~ 27.5%。如果每天要处理40个以上的申请,平均注册率就会下降到2.5 ~ 17.8%。通过使用Welch的t检验,我们发现注册率与每天服务的请求数量在统计上显著相关(p值< 0.0001)。经纪人过多的工作量降低了服务质量,甚至导致客户流失。B市(红色部分)也出现了类似的下降趋势。
•我们进一步研究了在A市处理最多请求的前50名经纪人,其中21人偶尔处理超过40个请求。图3绘制了在City a中工作负载较高的21个broker的注册率。在这21个broker中,随着每天处理的请求数量的增加,他们的注册率呈下降趋势。
•尽管有下降趋势,但从图2和图3可以观察到,注册率和服务请求数量之间的关系趋于复杂、非线性和特定于经纪人的模式。
我们的第二个动机是,由于目前在线房地产平台的top-k推荐机制,顶级经纪人往往会过载。这是因为该平台列出了排名前k的经纪人,而没有考虑他们的能力,而客户倾向于从平台列出的排名靠前的经纪人中进行选择。我们对这一说法进行如下检验。
测量。分析A市同一在线房地产平台2021年6月的数据,绘制平台推荐经纪人与平台未列出经纪人的工作量分布细表。默认情况下,平台推荐前3名的经纪人(见图1)。
综上所述,我们观察到,之前在线房地产平台使用的top-k推荐机制往往会使顶级经纪人过载,我们称之为顶级经纪人过载问题。超负荷的代理显示服务质量下降,最终导致注册率下降。出现重载问题是因为top-k推荐忽略了代理的容量。
重载现象促使我们从分配的角度重新考虑代理匹配。与其盲目地向所有客户推荐一小群顶级经纪人,我们建议从全球视角为客户分配经纪人,同时考虑顶级经纪人的能力。接下来,我们将把我们的观点转化为一个具有容量意识的分配问题,并在未知工作负载容量的情况下提出有效的代理匹配的实际解决方案。
为了解决CAA问题,我们提出了基于上下文强盗的学习分配(LACB),它通过上下文强盗学习未知的代理容量,并从全局角度分配代理,以最大化总效用,而不会使顶部代理超载。我们首先介绍LACB的概述,并解释每个功能模块。
LACB包括两个功能模块,容量估计和基于容量的分配。
•容量估计模块根据代理的当前状态,通过神经网络增强上下文强盗来确定每天的工作量容量。The capacity estimation module decides the daily workload capacity according to the broker’s current status by neural network enhanced contextual bandits.
•基于容量的分配模块选择一组满足容量约束的代理,并通过容量感知值函数将其分配给请求。
LACB工作流程如图5所示。它分为两个阶段:估计和赋值。首先,我们观察经纪人的工作状态,通过神经网络增强的bandit来设定经纪人每天的工作量。在分配阶段,我们获取代理的估计容量,并采用容量值函数来指导分配,捕获不同工作负载下代理的长期效用。最后,我们将批处理分配的结果存储为反馈,以改进未来的决策。
本节介绍我们的容量估计方法。我们将工作负载容量估计器作为上下文强盗,并提出了一种神经网络增强策略来确定每个代理的每日工作负载容量。
在估计代理容量时,我们的方法是由以下三个挑战驱动的。
//
接下来,我们将在后续对设计进行详细阐述。
如上所述,通过与房地产平台交互,我们利用上下文匪徒以在线方式学习一个通用的经纪人容量估计器。强化学习(如Q-learning)主要模拟决策对状态的影响。然而,在我们的场景中,代理的内在工作状态不受我们决策的影响,因此Q-learning等方法对容量估计是不可用的。
我们首先快速回顾一下语境bandit。带k臂的bandit广泛用于n批未知环境下的在线决策,其中每个臂代表一个决策。在每个批次中,强盗选择一只手臂(决定)并从环境中获得奖励。然后,它会根据奖励更新决策策略,并尝试在n批中最大化总奖励。上下文强盗进一步允许强盗在每批开始时使用附加信息(即上下文)做出决定。
我们的配方。现在,我们将解释如何以上下文强盗的形式制定工作负载容量估计值。我们将经纪人的候选工作量容量视为盗匪的武器(用C表示),将经纪人的工作状态xb视为上下文,盗匪据此选择一个容量cb∈C,以工作量wb下的日签到率sb作为奖励。工作负载容量估计器与房地产平台交互,房地产平台被视为未知环境。在每个批处理中,房地产平台执行分配算法并显示奖励sb。由于经纪人的工作量wb通常低于其容量cb,我们使用(xb, wb, sb)作为试用三重来更新强盗(工作量容量估计器)的奖励函数。
在将工作负载容量估计器定义为上下文强盗之后,下一个问题是确定策略,以选择使给定代理工作状态的每日注册率最大化的工作负载容量。
标准UCB算法的一个局限性是对期望奖励与上下文之间线性关系的假设,即Eq.(3)中的fθ(x, c)。因此,在我们的场景中,标准UCB未能描述经纪人的注册率(期望报酬)和工作状态(上下文)之间的非线性关系(见第II-A节)。作为补救措施,我们用神经网络代替线性模型。我们将相应的容量选择策略命名为NNenhanced UCB。
如前所述,上下文强盗只学习所有代理的通用容量估计器,但是工作负载容量估计可能是特定于代理的。我们通过对公式(5)中特定于代理数据的神经网络Sθ(x, c)进行微调,实现了个性化的工作负载容量估计。
具体来说,我们首先在所有经纪人的观测值∪b∈BTb上训练一个基奖励映射函数θbase,即式(4)中定义的神经网络。然后,我们将第一个L−1层θ基复制到经纪人b的经纪人特定奖励映射函数θb。随后,我们冻结了θb的第一个L−1层,并根据经纪人在Alg. 1之后的观察Tb微调最后一个全连接层。这样,我们就获得了个性化的奖励映射功能。