【七夕如何根据情侣倾听的音乐进行薅羊毛】背景音乐是否会影响情侣对酒的选择

目录

简介

 特征选择的方法

统计方式的特征选择方法如下

无效变量

统计方式的特征选择

​​​​​​​统计检验的方式:

皮尔森相关系数:


七夕活动特栏

简介

七夕到了,情侣也都就高档酒店了,我之前去酒店干过销售,这时候的销售业绩一般都不会差,但是如何从中脱颖而出呢,这就要说到酒吧的背景音乐了,有时,情侣会不点音乐,有时会点法国风的:French手风琴,也有些人会点意大利风的:italian手风琴,你销售的酒有French、italian、其他酒类

怎么样才能在这些小情侣的手中薅羊毛呢,这就得用到数据挖掘的特征选择了。

 特征选择的方法

无效变量

不相关变量,多余变量

统计方式的特征选择方法如下

这边只说明几个

方差阈值化、卡方检验、ANOVA检验及T检验、皮尔森相关系数

高度相关特征的选择(多余变量)

模型方式的特征选择

决策树、逻辑回归,随机森林,XGBoost

模型会自动选择变量

递归式的特征选择。

将特征慢慢消除,限制到特定范围内。

【七夕如何根据情侣倾听的音乐进行薅羊毛】背景音乐是否会影响情侣对酒的选择_第1张图片

 

当输入增加,就必须增加数据,不然模型就会不稳定

无效变量

不相关变量,多余变量

【七夕如何根据情侣倾听的音乐进行薅羊毛】背景音乐是否会影响情侣对酒的选择_第2张图片

 

Redundancy:两个变量的相关性太高,说明1二者的概念可能是否接近,也就是多余变量,可以采取合并的方法。甚至删除字段,二者带来的信息

Irrelevancy:X4,X3就是不相关变量,X4变大时会发现目标值的变动。当X3变动的时候预测值是随机的,不相关,无法带来信息。

【七夕如何根据情侣倾听的音乐进行薅羊毛】背景音乐是否会影响情侣对酒的选择_第3张图片

 

​​​​​​​统计方式的特征选择

VT方差阈值化:算出数值型字段的方差,如果低于某个值,说明它包含的信息量不足。

方差不能事先对它进行标准化。比如Z-scold 它的方差为1,均值为0

必须决定一个门槛值,是否删除该字段

二元变量:把其中一个编码为1,一个编码为0方差就是P(1-P)(先做特征转换)

【七夕如何根据情侣倾听的音乐进行薅羊毛】背景音乐是否会影响情侣对酒的选择_第4张图片

 

当方差越大,说明是越重要的字段。最大值是0.25。

当然,这个与目标无关

皮尔森相关系数:

高度相关特征的选择(多余变量):

经常会出现高度相关字段,带来的信息是重复的,利用皮尔森相关系数,查看二者的相关性。大于0.95就抹除变量。

要看保留那个,可以求变量1和变量2与目标的关系。

​​​​​​​统计检验的方式:

输入字段与目标字段的关系

类别型字段:卡方检验:输入字段与目标字段的关联性

数值型字段:ANOVA检验(目标字段大于2就行):T检验(目标字段只有2个值,比如yes or no):来检验输入字段与目标字段的关联性。

ANOVA案例:背景音乐是否会影响消费者心情。音乐(输入字段)与酒类购买的关系。

无音乐,French手风琴,italian手风琴

酒:French、italian、其他酒类

统计量

【七夕如何根据情侣倾听的音乐进行薅羊毛】背景音乐是否会影响情侣对酒的选择_第5张图片

 

真实销售减去期望值求和除以期望值求和

【七夕如何根据情侣倾听的音乐进行薅羊毛】背景音乐是否会影响情侣对酒的选择_第6张图片

 

【七夕如何根据情侣倾听的音乐进行薅羊毛】背景音乐是否会影响情侣对酒的选择_第7张图片

 

这是期望频数。设二者相互独立,概率1乘以概率2,乘总数243.

上表减下表,平方之和,除以均值之和

得到的值越大越好。对比的数值可以查卡方统计表,

先计算其卡方值,利用该值查表,对应的概率,如果小于显著性水平0.05,说明二者无关的概率极小,予以排除。

结论

那么我们就可以得出酒和音乐的相关性很大,那么我们就可以对它进行实际薅羊毛了,当情侣听的是意大利风格的手风琴时我们就卖意大利酒,French手风琴,就卖French酒,那么我们就对症下药,薅它们羊毛。

你可能感兴趣的:(活动,机器学习,算法,数据挖掘)