菜鸟的数据分析学习记005 ---------EB520X--------离散选择模型与联合分析

本文为学习笔记,供自己复习回顾,分享,交流,如果专家们发现谬误之处欢迎批评与修正。

----------------------------------------------------------------------------------------------------------------------------

由于时间原因,一个月没来写了,严格意义上离散选择模型和联合分析并不属于机器学习的范畴,但是由于课程的设置,也算是机器学习在商务分析上面的应用吧。。。。。。

 

1. 离散选择模型

逻辑回归(Logistic Regression)研究的是自变量对于二分类因变量的影响,但实际生活很多很多时候我们面临的都是自变量对于多分类非连续的目标(因变量)的影响。例如,人们的职业选择受父母职业,教育背景等因素影响,对于保险种类的选择也受很多因素影响。在这种状况下,简单的逻辑回归和线性回归有一定的局限性。因此离散选择模型(Discrete Choice Modelling)可以提供一个有效的建模途径,在经济学与社会学领域都有广泛的应用。

1.1 多类别逻辑模型 —— 类别型因变量

对于三分类的因变量,让Y=0,1,2,在三分类模型中,我们需要两个逻辑函数。

设:有 p 个协变量 X=(x1,x2,,,,,,xp)以及一个常数。

因此这两个逻辑函数如下,

菜鸟的数据分析学习记005 ---------EB520X--------离散选择模型与联合分析_第1张图片

因此三分类的概率为:

菜鸟的数据分析学习记005 ---------EB520X--------离散选择模型与联合分析_第2张图片

这样我们就可以计算三分类的概率进而进行分类。

为了简化相对危险度(odds ratios)的估算和解释,我们将二分类的OR进行推广。

OR 用来解释在不同条件下输出概率的比值,例如,吸烟肺癌概率是不吸烟肺癌概率的四倍,这个四倍就是相对危险度。

所以一系列的的相对危险度公式如下,

 

特殊情况就是协变量二分类,简化为

 

1.1 多类别逻辑模型 ——有序型因变量

实际问题中常常出现反应变量为有序多分类,例如疾病的严重程度,工作表现等等。

与上面介绍的类别型多分类因变量有所不同,分对数(logits)直接参与有序当中,最常见的方式有三种:

1.相邻类别(the adjacent category)

2.连续比例(the continuation ratio)

3. 组成比例 / 累积logit模型

最常使用的是累积logit模型,该模型利用有序这一特点,得到比基线类别更有解释性的模型。

Y 的累积概率是指Y落在一个特定点(落入类别 j 或 以下)的概率,对结果为类别 j 时,其累积概率为:

累积概率满足:

累积概率模型并不是利用最后一个概率,因为它必然为1.

在有序逻辑回归中,相对风险率如下:

菜鸟的数据分析学习记005 ---------EB520X--------离散选择模型与联合分析_第3张图片

最后一个类别(分数为4)不具有相对风险率,因为其为1.

因此,

菜鸟的数据分析学习记005 ---------EB520X--------离散选择模型与联合分析_第4张图片

注意:这里β前面的符号是负的,不是正的,解释如下:

这么做可以让大的系数与更大的分数相关,当你看到对于一个二分类因素的一个正系数时,你知道大分值更可能时第一个分类,一个负系数更可能低分;对于连续变量,正系数意味着增长,更大可能高分。所以,一个高分相关,意味着在低分上的更小累积概率,也就是更少发生。

对于不同协变量x1,x2,x2-x1=1,对于一个特定类 j ,其

意味着,对于每单位 x 的变化,给定特定 j ,其odds=,也就是说,X变化成比例与β.

因此,有序逻辑回归,其累积概率如下:

菜鸟的数据分析学习记005 ---------EB520X--------离散选择模型与联合分析_第5张图片

2. 联合分析

联合分析也叫权衡分析,用于评估不同属性对于消费者的相对重要性,以及不同属性水平给消费者带来的效用的统计分析方法,通过询问特定产品特征与其他产品特征,挖掘产品特征对消费者购买策略的重要性,并计算哪种特定产品特性价格组合能最大限度的吸引消费者消费。

创建属性列表

1.属性假设独立,并且拥有不同等级,假设互相排斥,一个产品只能拥有属性的一个等级。

2.属性等级应该清晰明了,不能含糊,谁也不知道贵是多少钱。

3.三到五个等级就够了,太多了不好,谁能整明白了。

4.尽可能平衡不同属性的等级数,例如,($10, $12, $14, $16, $18, $20)就比($10, $15,
$20)相对更重要,因为层次多。

5.让组合可解释强,别大CPU整个1G内存,不是都人呢么。
问问题做调查

做调研问用户喜欢什么,什么组合什么的,之后排行,就可以得到排名了。

联合分析的三种方法

1.传统方法

对产品组合使用正交队列,之后使用卡牌排序评级。价格弹性是个问题。

2.适应性联合分析(ACA)

自适应联合分析是一种混合联合分析方法,他用到了产品组合分析以及自报告相关性信息。

有三个组成:

1.偏好属性评分

2.属性内部等级排序

3.部分产品组合比较

缺点也是忽略了价格弹性。

3.基于选择的联合分析(Choice Based Conjoint)

CBC目前成为首选方法,因为它能够真正的衡量价格弹性,而且容易解释权衡任务。

在备选集合中全部的产品组合互相竞争。

受访者可以在备选集合中选择其中一个或者不选,

由于相对定价的策略,其价格弹性模型更为精准。

 

总结

1.离散选择常常应用于一下情景:

设计新产品或者改进已有产品,评估最适合的产品定价,评估品牌价值

2.在离散选择中,响应者同时考虑多个产品组合,并完成一系列选择任务,在每个任务中,响应者被要求回答那个产品他更喜欢。

3.离散选择分析产生对相对重要性的测量

4.偏好占有率可以被模拟进行。

 

你可能感兴趣的:(菜鸟的数据分析笔记)