[文献阅读]Boosting Internet Card Cellular Business via User Portraits: A Case of Churn Prediction

   据我们所知,我们是第一个基于大规模和可操作的蜂窝数据集的数据分析来描述IC用户肖像的人,这是促进IC相关业务的基石。•为了更好地理解IC用户肖像,我们通过检查概述分布,检查用户属性的影响,以及表征时空网络模式,对数据使用情况进行了全面的定性分析。通过为商业服务提供优化解决方案,所获得的观察结果对该领域的研究人员/工程师很有价值。•为了进行用户流失预测,我们提出并实现了一个名为ICCP的深度学习模型,该模型由特征提取和学习架构设计组成。大量的实验证明了ICCP的有效性,它可以防止用户基于预测结果进行主动干预,从而有利于IC业务。
    随着蜂窝网络(如4G和5G)的快速发展,间歇性的无线连接和有限的数据速率不再是为用户提供沉浸式互联网体验[1]的瓶颈。同时,为了充分释放用户的互联网兴趣,来自网络游戏、高清媒体播放、短视频平台、高清地图、虚拟现实(VR)/增强现实(AR)、智能家居等领域的广泛杀手级应用,正在丰富我们的日常生活[2]-[5]。为此,蜂窝网络用户现在更沉迷于互联网服务,而不是传统的点对点通信功能,后者产生了不断增长的互联网流量。根据思科年度报告[6],5G连接将产生比4G连接近3倍的流量,到2023年将占移动连接总数的10.6%。蜂窝运营商一直试图定制不同的商业模式,以满足用户对互联网流量的爆炸性需求,其中互联网卡(IC)是中国蜂窝运营商和互联网公司最近合作提出的一种新的商业模式。特别是,与传统卡(TC)相比,IC用户可以在由合作伙伴互联网公司的应用程序产生的目标流量上获得显著的折扣或豁免。此外,与TC业务相比,可用于所有互联网服务的通用流量包通常具有更低的价格和更大的使用计划。由于这些好处,集成C业务迅速吸引了大量用户。例如,如本文所示,中国一个省份新增IC用户每月可达到10万以上。我们正在见证TC业务的饱和,因为它吸引的新用户更少,IC用户的爆炸性增长可以通过提供新的手机,制造更多的卡,降低运营成本,提供额外的服务等来创造一个实质性的业务市场。
   然而,为了促进IC业务,例如,吸引更多潜在的IC用户,迫切需要研究IC用户的功能,以定制更有效的市场策略,如广告、折扣和售后服务。此外,根据我们的数据分析,我们发现IC用户如果对套餐收益不满意,就有很高的机会流失,导致巨大的收入损失。因此,如何通过提前预测用户流失行为来防止IC用户的用户流失也成为市场体系的关键。在文献中,有一些研究集中于蜂窝网络[7]-[11]中的用户使用模式和行为建模,但这些研究是针对TC用户的,与我们针对IC用户的目标有很大的不同。另一方面,用户流失预测也被研究了[12],[13]。这些工作基于TC用户的行为分析和建模,提出了针对TC用户的用户流失预测模型,由于它们具有相当不同的使用特征,因此不能直接应用于IC用户的用户流失预测。此外,这些模型通常采用机器学习算法进行预测,这可能无法从多维用户特征中捕获潜在的相关性,导致预测性能次优。
    在本文中,我们带头调查IC用户肖像促进相关业务,这是基于操作数据集收集的省级手机服务提供商在中国,包含各自400万的IC用户和2200万TC用户,从4月。2020年至2021年2月。特别是,在描述了数据平台和数据格式/规模信息之后,我们首先介绍通过调查两种类型用户在电话和互联网活动上的总体差异,回答用户属性(如年龄和性别)如何影响IC/TC用户档案的问题,并对用户进行全面的时空网络模式分析。基于IC用户肖像的第一印象,我们论证了IC用户流失的关键问题,并通过设计IC用户流失预测模型ICCP来提前预测产量,以促进IC业务。更具体地说,在ICCP中,我们基于数据分析定义并提取IC用户的重要特征,包括静态肖像特征,如目标编码标签、账户余额、年龄、性别、异常天数等,以及时间顺序特征,如流量消费、呼叫记录等。为了准确地捕捉两种类型特征的底层信息,我们设计了一个基于变压器和多层感知器(MLP)的深度学习模型。在模型中,主成分分析(PCA)块用于连接两种类型的特征和提取其最主要的特征信息,和时间顺序特征输入嵌入层、变压器层,轻量级MLP层随后捕获时间相关信息,两者共同输入分类MLP组件进行预测。

A.数据平台
蜂窝运营商每天都可以从业务支持系统(BSS)和操作支持系统(OSS)中创建大量的数据,这构成了指导和改善业务和运营的大数据系统。在数据源层,BSS和OSS都有大量的数据资源,包括客户投诉、用户计费、流量记录、呼叫详细记录(CDR)日志、用户APP使用信息等。在数据操作层中,数据根据底层系统的状态定期进行存储和更新,其中安装了大量的数据操作工具,为上层提供数据总线。具体来说,双环分布式文件系统(HDFS)在分布式硬件平台之间提供基本的数据存储,Hive/Spark SQL在Spark上提供基本的数据操作,如搜索和更新,MapReduce可以提供大规模的并行计算,以减少处理时间。数据建模层可以支持从应用程序层中针对不同业务模型的数据挖掘和建模方法。例如,有一些功能模块,它们包括统计分析、特征工程、模型设计和模型实现。应用层可以根据市场需求定制不同的业务服务,如精确营销、客户流失预测、VIP维护、网络优化等。
A 数据平台
蜂窝运营商每天可以从业务支持系统(BSS)和运营支持系统(OSS)中创建大量的数据,这些数据构成了指导和改进业务和运营的大数据系统。在数据源层,BSS和OSS都有很多数据资源,包括客户投诉、用户计费、流量记录、呼叫详细记录(CDR)日志、用户APP使用信息等。在数据操作层,根据底层系统的状态定期存储和更新数据,安装大量的数据操作工具为上层提供数据总线。其中HDFS提供分布式硬件平台之间的基础数据存储,Hive/Spark SQL提供Spark上的搜索、更新等基础数据操作,MapReduce提供大规模并行计算,减少处理时间。数据建模层可以支持应用程序层针对不同业务模型的数据挖掘和建模方法。例如,有一些功能模块,包括统计分析、特征工程、模型设计和模型实现。应用层可以根据市场需求定制不同的业务服务,如精准营销、流失预测、VIP维护、网络优化等。
B.数据描述
本文重点了解IC用户肖像以支持相关业务,并采用了以下三大表信息,即CDR表、流量记录表和用户属性表。图1为数据格式和规模信息的概述。特别是,CDR表记录呼叫动作,主要包括呼叫电话号码(呼叫nbr)、呼叫电话号码(呼叫nbr)、呼叫开始时间(开始时间)、呼叫结束时间(结束时间)、呼叫持续时间(持续时间)、相关基站ID(lacID)、城市ID(lan id)等。当调用用户之间的调用操作时,将生成CDR记录。流量记录主要包括用户电话号码(acc nbr)、流量记录开始时间(开始时间)、流量记录结束时间(结束时间)、下行流量(字节)、上行流量(字节输出)、网络持续时间(持续时间)、关联基站ID(lacID)等,在用户移动到新基站或持续时间达到阈值时生成。用户属性表主要记录用户年龄、性别、账户余额、通话时间、流量消耗、服务组合信息等,对每个用户进行维护,每月更新一次。注意,字段“offerid”表示用户服务组合ID,可以用来区分IC和TC用户,有字段“ictc”将用户标记为IC或TC。对于数据统计信息,我们采用了从4月开始获得的数据。2020年至2021年2月,是中国一个省最大的运营商之一,涵盖了集成电路业务的主要演变过程。总共大约有400万IC用户和2200万TC用户,这导致了约2600万的用户属性记录。此外,还有大约230亿条CDR记录,以及2600亿条流量记录。
C.数据可视化
为了直观地说明IC业务是如何发展的,我们根据IC用户关联的基站位置,在地理地图上可视化他们。其中,图2显示了6月某一个城市的IC用户关联的快照。分别为2020年、2020年11月和2021年1月。通过观察六月的数字。2020年和2020年11月,我们可以观察到IC用户的数量可以迅速增加,特别是在有爆炸性增长的市中心地区。爆炸性的IC用户可以通过提供卡、降低运营成本、预订额外服务等,带来一个有前途的市场。然而,通过观察2020年11月和明年1月的数据。2021年,我们可以发现有一些IC用户可能在几个月后流失,特别是在郊区,这可能导致IC用户数量的退化,导致运营商的业务损失。这是正常的,因为IC服务不是必要的,因为TC服务具有一个基本的通信功能,IC用户更有可能产生A没有满足的业务策略。因此,迫切需要了解IC用户的形象,在此基础上可以定制更有效的业务策略,找到更多潜在的IC用户,防止他们流失,这共同激励了我们在本文中的工作。
3在本节中,在IC用户肖像的定量分析中,我们通过检查概述分布,检查用户属性的影响,并调查时空网络活动,对数据进行全面的定量分析来表征IC用户肖像。
A.数据使用概述我们首先披露了两种类型的用户所采取的数据使用的概述分布。
互联网活动。然后,我们检查了用户的互联网活动,其中图4 (a)显示了每天流量记录数量的CDFs,图4 (b)显示了不同类型用户每天使用的总流量的CDFs。特别是,当用户请求一个新的APP,流量或持续时间达到阈值时,生成一个流量记录,例如,每个流量记录持续不超过一个小时,总流量表示上链路和下行流量的总和。同样,我们可以观察到两种类型的用户之间存在显著的性能差距。不同的是,IC用户在上网时更活跃。例如,TC和IC用户每天的流量记录中位数分别为20条和66条。另外,对于80%的用户,TC用户的总流量不超过600 MB,而IC用户的总流量不超过1700MB,说明IC用户对互联网需求的主动性.功能输入。两种类型的特性,表示由P∈R1×M肖像特征的矩阵,其中M是静态肖像的总数,并表示由T∈RQ×D时间顺序特性的矩阵,其中Q是每日指标的总数和D是时间跨度的长度。在计算每个用户的两个矩阵值后,将它们输入带有滚动标签的学习模型进行监督学习。捕获时间相关性。为了捕获潜在的时间相关性,首先将矩阵T和一个随机向量输入到嵌入层中,嵌入层可以输出具有固定大小的Q低维空间向量,每个向量包含用不同颜色表示的顺序、位置和可学习信息。然后将Q连接的向量输入变压器层[14],该层由L块组成,每个块包含层范数(LN)、多头自注意(MSA)和MLP块,相应的函数计算如下

你可能感兴趣的:(boosting,集成学习)