基于某电信运营数据的精准营销分析

基于某电信运营数据的精准营销分析

  • 前言
    • 摘要
    • 研究思路
  • 数据的说明与处理
    • 数据来源及属性说明
    • 数据预处理
      • 数据归一化
      • 基于主成分分析的数据降维
        • 主成分原理
        • 主成分降维
  • 基于支持向量机的用户分类模型
    • 支持向量机的原理
    • 基于支持向量机的模型设计
      • SVM核函数选择
      • 参数调试---核函数
      • 参数调试---权重w
      • 模型确定
      • 模型评价---ROC曲线
    • 模型检验
  • 基于聚类分析的用户分级
    • 聚类分析理论
    • 基于聚类分析的用户分类
      • 两步聚类分析
      • 用户分类结果分析与建议
  • 总结
  • 部分代码
  • 参考文献

前言

本文是我之前码的营销分析,以现在的角度看,还有很多稚嫩的地方,抽空再翻修一下吧

摘要

现如今社会早已经进入了网络时代,而网络产品对传统行业造成了重大打击,
如本文要研究的电信行业。因此,本文从精准营销的角度出发,针对是否飞信订购
用户建立了运用支持向量机原理,针对是否订购“飞信”这一服务的样本建立分类
模型,最终得到对1类样本(“飞信”服务订购用户)分类准确率将近81%,对0类
样本(未订购“飞信”服务的用户)分类准确率将近60%的综合分类准确率最佳的
分类模型。同时通过仿真实验,肯定了该分类模型的实用性与有效性。

然后为了挖掘潜在用户,本文针对未订购任何数据业务服务与产品的用户进行
两步聚类分析,最终将25488个样本聚类为2类。第一类为潜在中端用户,即有意愿
在电信通讯里消费但还未消费的用户;第二类则为低端用户,即仅拥有一般通讯需
求的用户。随后针对第一类潜在中端用户,提议运营商将重心放在个性化营销、开
发新服务和产品这两点上;针对第二类低端用户,提议运营商将重心放在巩固现有
用户,提高用户忠诚度以及普及智能手机这两点上。。

研究思路

本文研究的基本思路是:

第一,构建偏好“飞信”产品的用户分类模型。针对“飞
信”产品的订购用户,使用支持向量机建立用户分类模型,期间通过网格参数寻优和交
叉检验法调试出最佳模型,并通过对真实用户进行分类,以及与其他分类模型的效果
进行比较来评价该模型的准确性与实用性。

第二,挖掘潜在用户。针对未订购任何数据业务服务和产品的用户,则通过使用聚
类分析对其进行用户分类,并通过各类户的属性值,进行用户画像,寻找出最适合各类
用户的产品

数据的说明与处理

数据来源及属性说明

本论文所研究的数据来源于某电信运营商在2012年10月-12月这一时间段内的
共51500位用户。

本文选择“飞信订购标志”作为因变量,选择了15个与之相关的变量作为自变量,
所有变量描述如下表

用户下月是否使用掌厅 用 0,1 分别表示否或是
短厅办理次数 该用户该时间段内在短信营业厅办理业务次数
网厅办理次数 该用户该时间段内在网页营业厅办理业务次数
掌厅办理次数 该用户该时间段内在掌上营业厅办理业务次数
短信量 该用户该时间段内所发短信量
GPRS流量 该用户该时间段内所使用的GPRS流量
品牌 用1、2、3分别表示品牌:动感地带、神州行、全球通
校园标识 用0,1分别表示该用户身份是否为学生
VIP标识 指年消费2000以上的用户,用0,1分别表示否或是
主叫次数 该用户该时间段内拨出次数
通话费 该用户该时间段内所用话费
本地时长 该用户该时间段内拨打本地电话的通话时长
被叫时长 该用户该时间段内接电话时长
漫游费 该用户该时间段内将手机带出手机的归属地使用的业务所产生的费用
WLAN时长 用0,1分别表示该用户是否有使用该电信商WLAN无线宽带上网
飞信订购标识 该用户该时间段内是否订购“飞信”服务,用0,1分别表示否或是

数据预处理

数据归一化

本文数据既包含最大值为31500的本地时长 x 12 x_{12} x12,又包含了仅使用0,1表示是否的分类变量 x 1 x_1 x1,因此在对数据进行研究之前,需要对其进行归一化处理。

数据归一化其实是指通过一定的算法处理数据,并将数值范围控制在你需要的范围内。归一化不仅方便了后期数据的处理,而且提高了程序计算的速度。常用的数据标准化方法是最小最大规范化和Z-score标准化。

在本文中,Z-score标准化方法是用来对原始数据的平均值(mean)和标准偏差(standard deviation)进行规范。归一化后,最终数据将按照标准正态分布,即均值为0,标准偏差为1,转换函数为 x ∗ − μ σ \frac{x^{*}-\mu}{\sigma} σxμ

其中 μ \mu μ为所有样本数据的均值, σ \sigma σ为所有样本数据的标准差。

基于主成分分析的数据降维

主成分原理

(省略了吧 百度比我详细得多啦)

主成分降维

针对515000位用户选取的15个变量:用户下月是否使用掌厅 x 1 x_1 x1、短厅办理次数 x 2 x_2 x2、网厅办理次数 x 3 x_3 x3、掌厅办理次数 x 4 x_4 x4、短信量 x 5 x_5 x5、GPRS流量 x 6 x_6 x6、品牌 x 7 x_7 x7、校园标识 x 8 x_8 x8、VIP标识 x 9 x_9 x9、主叫次数 x 10 x_{10} x10、通话费 x 11 x_{11} x11、本地时长 x 12 x_{12} x12、被叫时长 x 13 x_{13} x13、漫游费 x 14 x_{14} x14、WLAN时长 x 15 x_{15} x15的数据,进行主成分降维:

由下图可看出,若要保留变量95%的信息,只需要保留5个主成分即可。

基于某电信运营数据的精准营销分析_第1张图片

PC1 PC2 PC3 PC4 PC5
x 1 x_1 x1 0 0.72 -0.01 -0.02 0.01
x 2 x_2 x2 0.02 0.58 -0.02 0.33 -0.03
x 3 x_3 x3 0.02 0.13 0.01 0.33 -0.05
x 4 x_4 x4 -0.02 0.77 -0.01 -0.04 0
x 5 x_5 x5 0.33 0.24 0.15 0.42 0.17
x 6 x_6 x6 0.03 0.43 0.1 0.04 0.01
x 7 x_7 x7 -0.19 -0.1 -0.9 -0.14 -0.06
x 8 x_8 x8 0 -0.05 -0.02 0.72 0.02
x 9 x_9 x9 0.16 0.01 0.92 -0.05 0.05
x 10 x_{10} x10 0.85 0 0.22 0 0.18
x 11 x_{11} x11 0.57 -0.02 -0.07 0 0.72
x 12 x_{12} x12 0.97 0.01 0.06 0.02 -0.02
x 13 x_{13} x13 0.91 0.02 0.16 0.03 0.08
x 14 x_{14} x14 0.03 0.02 0.13 0.04 0.94
x 15 x_{15} x15 -0.03 -0.04 0.03 0.64 0.05

上表是主成分载荷表,表中标出了每个变量与主成分的相关系数,能通过该表解释出每个主成分的含义。

从表中可以得知:

  • 第一主成分与变量“本地时长”、“被叫时长”,“主叫次数”高度相关,其次则是“通话费”与“短信量”,这表明第一主成分主要解释了用户的通话状况,可以将该主成分命名为通话因子;

  • 第二主成分与变量“下月是否使用掌厅”、“掌厅办理次数”和“GPRS流量”高度相关,表明第二主成分主要解释了用户的手机日常上网情况,可将该主成分命名为日常因子;

  • 第三主成分与变量“品牌”和“vip标志”高度相关,表明该主成分主要解释了用户身份,可以将其命名为VIP因子;

  • 第四主成分与变量“校园标志”、“WLAN时长”、“短厅办理次数”,"网厅办理次数"高度相关,表明第四主成分主要解释了校园标志用户的上网状况的关系,可以将该主成分命名为业务因子;

  • 第五主成分与变量“通话费”和“漫游费用”高度相关,这表明该主成分主要解释了用户每月电信消费状况,可以将其命名为费用因子。

通过归一化和主成分降维后的数据,便可对其进行正式的研究分析了。

基于支持向量机的用户分类模型

支持向量机的原理

支持向量机,其实就是从样本中找到分割线,为了评判那条分割线最好,引入了几
何间隔最大化的目标,之后所有的推导都是去解决目标函数的最优化上了。

在求解优化问题的过程中,W 可以由特征向量的发现代表了内积,然后找到内核
的功能,只需要调整核函数可以是高维变换的特性,在较低维数的计算,在高维度的绩
效的本质。由于不是所有的样本都可以划分,为了保证支持向量机的通用性,软区间的
处理,是优化问题的结果变得更加复杂,但令人惊讶的松弛变量不出现在最终的目标
函数。最后通过拉格朗日对偶和 SMO 算法求解优化问题,使支持向量机趋于完美。
基于某电信运营数据的精准营销分析_第2张图片
选择不同的核函数就能得到不一样的形式的非线性支持向量机。常用的核函数有以下四种类型:
(1) 线性核函数: K ( x , x ′ ) = ( x ⋅ x ′ ) K(x,x')=(x\cdot x') K(x,x)=(xx)

(2) 多项式核函数: K ( x , x ′ ) = ( ( x ⋅ x ′ ) + L ) q K(x,x')=((x\cdot x')+L)^{q} K(x,x)=((xx)+L)q

(3) RBF核函数: K ( x , x ′ ) = e x p ∥ x ⋅ x ′ ∥ 2 2 σ 2 K(x,x')=exp{\parallel x\cdot x' \parallel ^{2}}{2\sigma^{2}} K(x,x)=expxx22σ2

(4) Sigmoid函数: K ( x , x ′ ) = t a n h ( v ( x ⋅ x ′ ) + c ) K(x,x')=tanh(v(x\cdot x')+c) K(x,x)=tanh(v(xx)+c)

经过非线性映射后的空间内构造的分类器模型如下所示:

∫ ( x ) = s g n ( ( w ⋅ x ) + b ) = s g n ∑ i = 1 n α i y i ( σ ( x i ) ⋅ σ ( x ) ) + b = \int(x)=sgn((w\cdot x)+b)=sgn{\sum_{i=1}^{n}\alpha_{i}y_{i}(\sigma(x_{i})\cdot\sigma(x))+b}= (x)=sgn((wx)+b)=sgni=1nαiyi(σ(xi)σ(x))+b=

s g n ∑ i = 1 n α i y i k ( x i , x ) + b sgn{\sum_{i=1}^{n}\alpha_{i}y_{i}k(x_{i},x)+b} sgni=1nαiyik(xi,x)+b

此时的目标函数求解变为:
m a x L D ( α ) = ∑ i = 1 N α i − 1 2 ∑ i j = 1 N α i α J y i y j K ( x i ⋅ x J ) max L_{D}(\alpha)= \sum_{i=1}^{N} \alpha_{i}- \frac{1} {2}\sum_{ij=1}^{N}\alpha_{i}\alpha_{J}y_{i}y_{j}K(x_{i}\cdot x_{J}) maxLD(α)=i=1Nαi21ij=1NαiαJyiyjK(xixJ)

s . t . ∑ i = 1 N α i y i = 0       C ≥ α i ≥ 0 , i = 1 , 2 , … , N s.t.\sum_{i=1}^{N}\alpha_{i}y_{i}=0~~~~~C\ge \alpha_{i}\ge0,i=1,2,\dots,N s.t.i=1Nαiyi=0     Cαi0,i=1,2,,N

综上,支持向量机能基本解释为通过内积函数定义的非线性变化将输入空间变换
到一个高维空间,接着在该高维空间中计算出最优分类面。支持向量机分类函数与神
经网络的分类函数有一定的相似,因此也可以称其为支持向量网络,支持向量机映射
结构如下图 所示。
基于某电信运营数据的精准营销分析_第3张图片

基于支持向量机的模型设计

SVM核函数选择

对于使用有众多影响因素影响下的目标样本库训练支持向量机分类模型时,训练
样本库的完善程度以及选择不同的核函数相关系数值,都会影响最终分类模型的准确
性。

合理的样本集不仅提高分类模型的学习速度,同时能使分类模型具有更佳的识别
精度。因此在构建分类模型的训练样本集时应当避免出现数据不平衡的情况。

对于训练样本,由于原始数据中共包括 51500 个样本,其中订购了飞信服务的用
户样本量共 12433。为了构建合理样本集、平衡样本中订购用户与非订购用户的数目,
此时选择从 12433 个订购用户样本中随机抽取 12333 个(保留 100 个样本留作分类模
型检验用)以及从 39067 个非订购用户样本中随机抽取 12367 个共同构成含有 24700
个样本的训练样本集用于构建用户分类模型。

对于支持向量机中的核函数,本文以线性核函数、多项核函数、RBF 核函数以及
sigmoid 核函数这四种核函数分别建立了四个分类模型,通过对比四个分类模型对于训
练样本集的准确率用来选择合适的核函数,测试结果如下表。

核函数 支持向量比例 整体准确率 1类准确率 0类准确率
线性 59.61% 70.69% 56.64% 84.70%
多项 94.88% 54.77% 22.30% 87.15%
RBF 59.09% 70.90% 58.57% 83.18%
sigmoid 59.96% 70.69% 56.65% 84.70%

显而易见,当选择多项核函数时,支持向量数目所占比例过大,已经超过80%,且分类准确率最低,因此排除线性核函数;而选择线性核函数或者sigmoid核函数时,整体准确率相同且均略低于选择RBF核函数时的整体准确率,同时,由于本文重点关注的是分类模型对1类(飞信订购用户)的判断而不是0类(非飞信订购用户)的判别,当选择线性核函数或sigmoid核函数时1类准确率都低于选择RBF核函数时的情况,因此最终选择RBF核函数。

参数调试—核函数

对于参数,选择RBF核函数时所要设置的参数分别有损失函数c,gama函数g以及每个类别的权重w(上文测试时使用系统默认值:c=1,g=属性数目倒数,w0=1,w1=1)。

目前还没有一个固定的公式提供参数的设置,因为相同核函数的情况下,对于不同的训练样本,都有各自最适用的参数值。因此只能通过大量的计算实验验证。

为了寻找最优参数值,本文先对参数c、g采用交叉验证法来测试参数性能,当确定了c、g后再单独对wi进行参数寻优。

交叉检验流程图如下:
基于某电信运营数据的精准营销分析_第4张图片
作为测试需要,本文选择参数c、g值为指数倍增的方式从小到大逐步增加,且指数设置为(-8,8),计算跨步为1,即 2 − 8 2^{-8} 28, 2 − 7 2^{-7} 27,\cdots , 2 7 2^{7} 27 2 8 2^{8} 28,测试训练样本集贼五倍交叉验证下的交叉验证结果,最后选择了最高精度下参数C和G的最小值,避免出现分类模型过于拟合训练样本的现象。

交叉检验结果如下图
基于某电信运营数据的精准营销分析_第5张图片
图中坐标系是以2为底的参数c、g的对数作为X,Y轴,以模型准确率作为z轴构建的。其中,2D图是3D图俯视图,图中不同准确率由不同颜色标注。

图形以(-6,-3)附近为界限呈现明显的两极分化,在(-6,-3)附近时准确率达到最低值75.88%,而在该“界限”左侧与右侧则准确率变化平缓。同时图形整体准确率在74%至81%之间变化,当选择c=0.25,g=256即 x=-2,y=8时,能得到相对最优的分类模型,此时模型准确率为80.87%。

参数调试—权重w

本文中所构建的分类模型,主要目的是为了判断出用户是否为飞信订购用户,也
就是说更看重对于 1 类的判别能力。本文通过参数 w 调节每一类的权重来优化分类模
型对于 1 类的预判准确率。
由于着重关注 1 类样本的权重,因此本文预设 0 类样本的权重为 0.5,通过调节 1
类权重得出结果如下表:

w 1类准确率 0类准确率 整体准确率
0 58.87% 83.01% 70.96%
1 73.66% 67.36% 70.51%
1.1 75.66% 64.22% 69.94%
1.19 77.84% 61.02% 69.42%
1.2 78.14% 60.45% 69.28%
1.21 78.31% 60.19% 69.24%
1.221 80.46% 56.18% 68.31%
1.222 80.89% 55.28% 68.07%
1.223 81.40% 54.50% 67.93%
1.23 85.46% 47.18% 66.30%
1.25 98.69% 7.41% 53%
2 100% 0% 49.94%

通过从 0 至 2 调节 1 类样本权重参数 w,可看出分类模型对于 1 类的判别准确率
也渐渐上升,对于 0 类样本的判别准确率则随之下降,同时整体准确率也随之下降。
当 1 类样本权重为 2 时,1 类样本判别准确率达到 100%,而 0 类样本准确率则降至最
低值 0%。此时,分类模型显然对于 1 类样本的分类效果完全过拟合。
基于某电信运营数据的精准营销分析_第6张图片
结合上图以及表格可以看出,对于整个训练样本而言,当 w=1.221 时,分类模型对于
1 类样本的判别准确率将近 81%, 而模型对于 0 类样本的判别准确率将近 60%, 此时模
型对于 1、0 两类的判别效果整体最优。因此此时这两种类型的判别精度之间没有太大
的区别,不容易使模型过度拟合,导致降低模型的泛化能力。虽然最终整体准确率低于
初始权重参数 w 时的模型准确率,但是对于 1 类的判别准确率提高,0 类的判别准确
率亦不会太低。因此选择 1 类的参数 w 为 1.221,0 类的参数 w 为 0.5 作为模型的参数
设置。

模型确定

在选取 RBF 内积作为支持向量机模型的核函数,确定参数 c,g,w 后,便可确定下
文中设计的分类模型的结构,结构如下表。

model of SVM classifier
Parameters [ 5x1 double ]
n r c l a s s nr_{class} nrclass 2
totalSV 18085
rho -0.8948
Label [ 2x1 double ]
nSV [ 2x1 double ]
S V c o e f SV_{coef} SVcoef [ 18085x1 double ]
SVs [ 18085x5 double ]
Accuracy = 68.3765% (16889/24700) (classification)

模型评价—ROC曲线

评价一个分类模型的好坏,只关注其准确率这一数值是不够的。因此,本文选择使
用 ROC 曲线(也称为接受者操作特征曲线(receiver operating characteristic curve 曲
线,称为 ROC),从图像中可直接判断在上述模型的分类能力。

ROC 曲线图中横坐标是特异性,指的是模型判断 0 类的准确率,纵坐标是敏感性,
指的是模型判断 1 类的准确率。当模型的 ROC 曲线下的面积越大,ROC 曲线越靠近
左上角,则代表该模型的分类性能更好。

基于某电信运营数据的精准营销分析_第7张图片

上图显示了经过参数 c,g,w 的调试后的模型“now”、未经过参数调试前的以
RBF 内积为核函数的模型”rbf”,已经使用以多项式内积作为核函数的模型“many”这
三个模型对同一个样本的 ROC 曲线结果图。

对比参数调试后的”now” 曲线与参数调试前的“rbf” 曲线,显然“now”曲线整体
更逼近左上角,所包含的面积也更大,而对比“many”曲线时这种差别更突出。

这些不仅说明了采用 RBF 内积作为核函数比采用多项式内积作为核函数更合适,还说明了参数调节后的模型分类效果确实得到了提升,该分类模型的确要优于参数调节前的分
类模型。

模型检验

上一节使用以 RBF 为内积的核函数作支持向量机分析并进行参数寻优,最终得到
了一个针对“飞信订购”用户的分类模型。

为了检验该模型在实际样本下的分类效果,共选择了 100 位已订购飞信服务的用户与 100 位未订购飞信服务的用户作为检验样本进行模型检验。同时为了更方便和直观判断分类模型的检验效果,选择了同样以 RBF为内积的核函数的支持向量机分类模型(未参数寻优),和以多项式作为内积的支持向量机分类模型,三者同时对同一个检验样本进行检验,最后可通过比较三个分类模型的分类结果,判断本文研究得出分类模型的实用性和有效性。

仿真实验预测结果如下表:

真实 已寻优 RBF MANY
1 1 1 1 1
2 1 1 0 0
3 1 1 1 0
198 0 0 0 0
199 0 1 1 0
200 0 0 0 0
准确率 87.50% 75.00% 62.50%

由上表可以看出,三种不同的分类模型对同一个检验样本进行分类时,显然经过
参数寻优后的 RBF 支持向量机分类模型的分类效果更出众,分类准确率达到 87.5%,
远高于未参数寻优的 RBF 分类模型和准确率仅为 62.5% 的多项式分类模型,表明本文
研究得出的分类模型分类效果良好,能够投入实际运用。

基于聚类分析的用户分级

聚类分析理论

聚类分析是一种对个体或者对象进行分类的方法。分类完成后,同类之间相似性最强,不同类别之间的相似性则最弱,即异质性最大化。

在日常生活中我们常常需要对事物进行分类,而我们曾经的判别标准多是顺从经验或者专业知识,这存在着很大的主观影响,很难有一个统一的,具有说服力的标准。亦不能很好的揭示问题的本质差别和联系,尤其遇到多因素以及多指标的分类问题是,这种分类方法则更不可靠。因此需要进行聚类分析。

每个变量或样品之间必定存在一定程度的亲属关系,我们找出一些能够度量这种亲疏程度关系的统计量,并由此对变量或者样品进行分类,相似的分为一类,疏远的则分到更大的分类里,这样直到把所有变量或样品都分好类别后,则会形成一个从小到大的分类系统。画出这个分类的谱系图,该图便可以吧所有变量uo样品的亲疏关系都表示出来了。

聚类方法有许多种,常用的由(1)系统聚类法,(2)两步聚类,(3)K-均值法,(4)有序样品的聚类,(5)加入法等。其中两步聚类法常用于处理大量数据,因此本文采用两步聚类法对样本进行聚类分析。

两步聚类法又叫二阶段群集算法(Two StepCluster)是一种分层群集算法(Hierarchi
-calAlgorithms),在资料釆矿与多元统计的交叉领域中很常用, 该聚类方法的有点在于可以应用在任何尺度的变数中。 这种方法适用于处理大量的数据,不仅可自动确定聚类数目,还能够处理同时包含了分类变量以及连续变量的数据。 两步聚类法顾名思义是分前后两步分贝进行的, 也即“二阶段” 的意义所在 。

第一步:预聚类(pre-clustering)阶段。利用BIRCH算法中的CF树生长思想,逐点读取数据点,生成CF树,同时将稠密区域中的数据点预先聚类,形成多个子簇(sub-cluster)。

第二步: 聚类(clustering)阶段。基于预聚类阶段的结果,集群作为对象,同时使用凝聚发(agglomerativehierarchicalclusteringmethod)逐一合并子簇,直到所需的簇数。

Two Step算法前提假设:
1.变量之间不存在多重共线性。 2.变量服从常态分配。

基于聚类分析的用户分类

两步聚类分析

本文所采用的样本集中包含了51500个样本,即51500位电信用户。然而其中订购了“飞信”服务的用户只有12433位,而任何额外服务都没有订购的用户多达25448位,将近整个样本集的50%。为了开发出25448位用户的潜在消费力,挖掘出有该用户群真正的需求,本文采用聚类分析中的两步聚类法进行用户分类。

经过两步聚类后,得到结果如下图。

基于某电信运营数据的精准营销分析_第8张图片
中间的柱形图表示了各个主成分在每一类中的具体分布情况。

从结果图可得出,该样本集通过两步聚类分析后得到的最佳分类数为2类.其中第一类样本占样本集比重的42%,第二类样本则占样本集比重的58%。图中第三行标出了每一个主成分对于每个类别的重要性,显然5个主成分的重要性都达到95%以上,说明这次聚类效果很好,每一个主成分都对聚类结果有高度影响。聚类结果充分使用了所有主成分所包含的信息。

用户分类结果分析与建议

从聚类结果可看出,第一类包含了样本集58%的样本.从图中可看出这58%的样本中,“身份”、“业务”、“日常”,“通话”等主成分所占的比例较大,均大于“费用”主成分,说明这一类样本中的用户受这四个主成分影响较大,比较不看重通话费用。这一类用户对领先业务的刺激和带动很强烈,属于追求年轻时尚的商旅人士。
因此基本可概括其为潜在中端用户,即有倾向,有意愿在电信通讯里消费但还未消费的用户。

对于这一类潜在中端用户,本文建议电信运营商应把重心放在以下两点上:

一,个性化营销。即对这一类用户进行针对性,策略性的营销。由下图可看出第一类用户消费高于第二类用户,的确拥有潜在购买力。这一类用户可能对电信运营商的业务服务或产品不了解,或者连用户自己也不清楚自己到底需要什么服务和产品,导致空有购买力,成为潜在中端用户。这类情况便需要运营商将重心放在挖掘用户真实需求上,比如可通过上一节得出的用户分类模型,判断用户是否满足“飞信订购”用户的条件,从而进行针对性广告投放,引导用户进行消费,将潜在购买力转化为真正的利润。

二,开发新服务和产品。即为这一类用户开发针对性服务和产品。随着手机的普及,电信运营商的用户类型变得越来越多元化,传统的服务与产品已经不足以应对多元的用户群体。很多用户虽然愿意在消费,但却找不到满意的服务和产品,从而转型为潜在中端用户。因此,本文建议运营商应挖掘用户真实的需求,将用户需求转化为产品需求,开发新产品完善服务与产品,进而将用户从潜在中端转型为中端消费用户。

基于某电信运营数据的精准营销分析_第9张图片
第二类包含了样本集42%的样本,从图中可看出这42%的样本中,“业务”,“费用”这两个因子所占的比例较大,而“通话”因子则所占比例最小,说明这一类样本中的用户受这两个主成分因子影响较大。这一类的用户常在营业厅办理业务,且对费用较看重,但是同时却较少使用手机进行通话功能,这表明了该类用户主要为低年龄层用户或社会中暂时没意愿在电信类服务和产品消费的群体,如社会低收入,低消费群体。因此该类用户常通过营业厅进行如查询、充值话费等业务,同时其社交关系通常较简单,沟通时更多使用微信等网络社交工具取代电话、短信。

因此基本可以概括其为低端用户,即仅用手机进行一般通讯需求的用户。

对于这一类低端用户,本文建议电信运营商应把重心放在以下两点上:

一,提高用户忠诚度。近年来,电信运营商一直将重心放在发展低端用户上,但是如今低端用户已经达到了一定的规模了,此时当务之急应该从发展低端用户转为提高用户的服务质量与忠诚度上,进而提高能够给运营商带来巨大林孙的ARPU值。建议运营商将重心放在巩固低端用户上,比如可通过提高服务质量,适当让利,重视客服培训等方式直接提高用户忠诚度。

二,提高用户消费意愿。很多时候用户没有购买意愿,可能只是因为用户的手机功能较低端。而如今千元机市场大爆发,运营商可以通过普及功能丰富的手机,从手机端刺激用户,提高用户在手机上的消费意愿,从而完成用户从低端用户到中端用户的转型。

总结

为了能够对用户进行精准营销,最大化广告投放效果,本文深入研究并最终建立了针对“飞信订购”用户的分类模型。该分类模型之所以选择以支持向量机作为分类原理,是因为该模型泛化能力优秀,且属于目前在分类问题中最常用,效果最好的分类器之一。确定了分类模型原理后,本文建立了分别以RBF、线性、多项式以及sigmoid内积作为核函数的4个分类模型,并对同一个训练样本进行分类,通过比较各自的分类准确率,最后选择了准确率为70.9%的,以RBF内积为核函数的分类模型。通过5折交叉验证进行参数寻优,最终成功将分类模型调节为对1类样本(”飞信“服务订购用户)分类准确率将近81%,对0类(未订购“飞信”服务用户)分类准确率将近60%的综合分类准确率最佳的分类模型。

分类模型成功建立后,在投入实际运用前,还需要对其进行检验。将本文研究的模型与其他分类模型对同一个检验样本进行仿真实验,最终本文研究的分类模型的仿真检验准确率高于其他模型,达到了87.5%。通过检验,证明了该模型具有实用性,能够对实际样本进行分类。

model of SVM classifier
Parameters [ 5x1 double ]
n r c l a s s nr_{class} nrclass 2
totalSV 18085
rho -0.8948
Label [ 2x1 double ]
nSV [ 2x1 double ]
S V c o e f SV_{coef} SVcoef [ 18085x1 double ]
SVs [ 18085x5 double ]
Accuracy = 68.3765% (16889/24700) (classification)

接下来,为了挖掘潜在用户,本文针对未订购任何数据业务服务的25488个样本,选择适用于处理大量数据,可自动确定类的数目的两步聚类进行聚类分析,最终将该样本聚类为2类。第一类为潜在中端用户,这类及用户属于有倾向,有意愿在电信通讯里消费但还未消费的用户,第二类则为低端用户,这类用户仅用手机进行一般通讯需求。

随后针对第一类潜在中端用户,提议运营商将重心放在1,个性化营销、2,开发新服务和产品这两点上;针对第二类低端用户,提议运营商将重心放在巩固现有用户,提高用户忠诚度以及普及智能手机这两点上。

本文虽然成功建立了分类准确率良好的分类模型,但是由于能力不足,算法不够完善,在使用支持向量机分析大量数据往往占用较高内存,且运算速度较慢。如何对算法进行进一步优化是今后需要完善的地方。

部分代码


//主成分降维
library(psych)
rc<-principal(duo,nfactors=2,rotate="varimax",score=TRUE)


//SVMcgFORClass  网格寻优(交叉检验)
[bestacc,bestc]=SVMcgForClass(modellabel,train_pca,-8,8,5,1,4.5)


//SVM调试后模型最终代码
model2=svmtrain(modellabel,pcatrainname,
                '-s 0 -t 2 -c 0.25 -g 256 -w0 0.5 -w1 2=1.221')

//使用模型进行预测
[predict_label,accuracy,dec_values]=
  svmpredict(test_label,test_datammodel,model2)


参考文献

谢谢各位前辈们

  1. 陈志杰等. L a T e X LaTeX LaTeX入门与提高 (第二版)[M], 高等教育出版社, 2006.
  2. 郭力, 张林波, 葛向阳. CCT中外文科技激光照排系统用户手册[M], 海洋出版社, 1993.
  3. 张迪飞,张金锁,姚克明等. 基于 SVM 分类的红外舰船目标识别 [J]. 红外与激光工程, 2016,45(1):167-172.
  4. 刘启诚. 一家独大的中移动留些低端用户给别人如何 [J].IT 时代周刊,2006,21:25-25.
  5. 刘启诚. 中国移动应该放缓低端用户的额发展速度 [J]. 通信世界.2006,40:18-18
  6. 孙叔敬. 电信运营商组合产品精确营销案例分析 [D]. 北京: 北京邮电大学,2010:2-1.
  7. 胡佳. 基于用户行为的 XX 电信网厅精准营销研究 [D]. 四川: 西南交通大学,2015:11-2. 中小企业互联网精准营销研究
  8. 于政扬. 中小企业互联网精准营销研究 [D]. 广西: 广西科技大学,2013. 刘峥. 基于大数据挖掘的电信客户精准营销系统 [D]. 上海: 复旦大学,2014.

你可能感兴趣的:(原创可累了)