数据化运营算法及应用

文章目录

  • 1.分类与预测
    • 1.1 回归
    • 1.2 决策树
    • 1.3 神经网络
    • 1.4 贝叶斯分类方法
    • 1.5 支持向量机SVM
    • 1.6 KNN算法
  • 2.聚类分析
  • 3.关联规则
  • 4. 其它
    • 4.1 主成分分析
    • 4.2 假设检验

目标响应概率
a).宏观上,可以理解为特定消费群体整体上的概率或可能性。比如,通过卡方检验发现某个特定类别群体在某个消费行为指标上具有显著性特征,这种显著性特征可以帮助我们进行目标市场的选择,寻找具有相似特征的潜在目标用户,制定相应的细化营销措施和运营方案。
b).微观上,概率可以是具体到某个特定消费者的预期响应概率。比如,通过逻辑回归算法搭建一个预测响应模型,得到每个用户的预计响应概率,然后根据运营计划和预算,抽取响应概率分数高的消费者,进行有针对性的运营活动。

1.分类与预测

1.1 回归

a).包括线性回归和逻辑回归,后者在数据运营应用更多
b).原理
多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归方程就是因变量与自变量关系的数据反映。因变量的变化包括两部分:系统性变化与随机变化,其中系统性变化由自变量引起的,随机变化是不能由自变量解释的,通常也称作残值。(采用最小二乘法)
逻辑回归预测的因变量是介于0和1之间的概率。简单来讲,凡是预测“二选一”事件的可能性都可以采用逻辑回归(采用最大似然法)

1.2 决策树

a).特点
适合探索式的知识发掘,并且可以处理高纬度的数据。易于理解,并且对数据的分布和缺失非常宽容,不易受到极值的影响。
b).目前最常用的3种决策树算法分别是CHAID、CART、ID3。
CHAID:卡方自动相互关系检测,依据局部最优原则,利用卡方检验来选择对因变量最有影响的自变量,该法的应用前提是因变量为类别型变量。
CART:分类与回归树,分割逻辑与CHAID相同,每一层的划分都是基于所有自变量的检验和选择上的,不过它采用的检验标准不是卡方检验,而是基尼系数。
ID3:迭代的二分法,基于信息增益的度量选择具有最高信息增益的属性作为节点的分裂属性
c).应用
作为分类、预测问题的典型支持技术,在用户划分、行为预测、规则梳理等方面具广泛应用。甚至可以作为其他建模技术前期进行变量筛选的一种方法。

1.3 神经网络

a).原理
通过输入多个非线性模型以及不同模型之间的加权互联,最终得到一个输出模型
b).特点
由于神经网络拥有特有的大规模并行结构和信息的并行处理等特点,因此它具有良好的自适应性、自组织性和高容错性,并具有较强的学习、记忆和识别功能。缺点是其结果的不可解释性,没有人知道隐蔽层里的非线性函数到底是如何处理自变量的。
c).应用
信号处理、模式识别、专家系统、预测系统等。用户划分、行为预测、营销响应等方面具广泛应用

1.4 贝叶斯分类方法

a).用来预测类成员间关系的可能性,对于分类问题,就是给出X的属性值,计算出该观察值属于类别C的概率

1.5 支持向量机SVM

a).以结构风险最小为原则。在线性的情况下,就在原空间寻找两类样本的最优分类超平面。在非线性的情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上。在新的维上,它搜索线性最佳分离超平面。
b).优点是对于复杂的非线性的决策边界的建模能力高度准确,并且不太容易过拟合。缺点是训练数据较大。

1.6 KNN算法

2.聚类分析

a).针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。
b).常用算法
划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等。
c).应用
既可以直接作为模型对观察对象进行群体划分,为业务方的精细化运营提供具体的细分依据和相应的运营方案建议,又可以在数据处理阶段用作数据探索的工具,包括发现离群点、孤立点、数据降维的手段和方法,通过聚类发现数据间的深层次的关系等

3.关联规则

a).找出数据集中的频繁模式,即多次重复出现的模式和并发关系
b).Apriori算法
先生成所有的频繁项目集。再从频繁项目集中生成所有的可信关联规则。
c).应用
文本挖掘、Web数据挖掘、商品推荐

4. 其它

4.1 主成分分析

a).通过线性组合将多个原始变量合并成若干个主成分,这样每个主成分都变成了原始变量的线性组合
b).目的,一方面可以大幅度降低原始数据的维度,同时也在此过程中发现原始数据属性之间的关系
c).步骤
先进行各变量的标准化工作
选择协方差阵或者相关阵计算特征根及对应的特征向量
计算方差贡献率,并根据方差贡献率的阈值选取合适的主成分个数
根据主成分载荷的大小对选择的主成分进行命名
根据主成分载荷计算各个主成分的得分
d).将主成分进行推广和延伸即成为因子分析,因子分析在综合原始变量信息的基础上将会力图构筑若干个意义较为明确的公因子;也就是,采用少数几个因子描述多个指标之间的联系,将比较密切的变量归为同一类中
主成分分析是因子分析的一个特例,两者区别联系主要为:
主成分分析会把主成分表示成各个原始变量的线性组合,而因子分析则把原始变量表示成各个因子的线性组合
主成分分析的重点在于解释原始变量的总方差,而因子分析的重点在于解释原始变量的协方差
主成分分析中,有几个原始变量就有几个主成分,而因子分析中,因子个数可以根据业务场景人为指定
主成分中,给定的协方差矩阵或相关矩阵的特征值是唯一时,主成分也是唯一的,但在因子分析中,因子不是唯一的,并且通过旋转可以得到不同的因子
e)应用
主成分分析和因子分析主要用于数据处理、降维、变量间关系的探索等方面。

4.2 假设检验

a).原理
观测小概率事件在假设成立的情况下是否发生,如果在一次试验中,小概率事件发生了,那么说明假设在一定的显著性水平下不可靠或者不成立
b).应用
常用于运营效果的评估

你可能感兴趣的:(数据挖掘)