问题:
消费者与产品生产者、销售者或服务提供者之间经常发生纠纷。发生纠纷后,消费者常常会向消费者协会投诉。为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业最为样本。其中零售业抽取了7家,旅游业抽取6家,航空公司抽取5家,家电制造业抽取5家。每个行业中所抽取的这些企业,假定它们在服务对象、服务内容、企业规模等方面基本上是相同的。然后统计出最近一年中消费者对着23家企业投诉的次数。结果数据如下。
一般而言,受到投诉的次数越多,说明服务的质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差异。
要分析四个行业之间的服务质量是否有显著差异,实际上也就是要判断行业对被投诉次数是否有显著影响,做出这种判断最终被归结为检验着四个行业被投诉次数的均值是否相等。如果它们的均值相等,就意味着行业对被投诉次数是没有影响的,也就是它们之间的服务质量没有显著差异,如果均值不全相等,意味着行业对被投诉次数是由影响的,他们之间的服务质量由显著差异。
设零售业被投诉次数的均值为 μ 1 \mu_1 μ1,
旅游业被投诉次数的均值为 μ 2 \mu_2 μ2,
航空公司被投诉次数的均值为 μ 3 \mu_3 μ3,
家电制造业被投诉次数的均值为 μ 4 \mu_4 μ4,
from scipy import stats
import numpy as np
import pandas as pd
n = data.count().sum()
k = len(data.columns)
#显著性水平
a = 0.05
x_bar_bar = data.sum().sum()/n
SST = np.power(data-x_bar_bar,2).sum().sum()
SSA = (np.power(data.mean()-x_bar_bar,2)*data.count()).sum()
SSE = np.power(data-data.mean(),2).sum().sum()
MSA = SSA/(k-1)
MSE = SSE/(n-k)
F = MSA/MSE
F
3.4066426904716036
# F 分布临界值
F_a = stats.f.isf(a,k-1,n-k)
F_a
3.127350005113399
p_value = stats.f.sf(F,k-1,n-k)
p_value
0.03876452440122184
根据上面的计算结果,显著性水平 a=0.05,F > F_a,p值 < a。
因此拒绝原假设,表明行业对被投诉次数有显著影响。
R_2 = SSA/SST
R_2
0.34975883740838953
r = np.sqrt(R_2)
r
0.5914041235977219
根据相关系数r,表明行业与被投诉次数之间有中等以上的关系
通过前面的分析得出的结论是:不同行业被投诉次数的均值不完全相同。
但究竟哪些均值之间不相等?这种差异到底出现在哪些行业之间?
这就需要做进一步的分析,所使用的方法就是多重比较法(multiple comparison procedures)
这里使用LSD,最小显著差异法(least significant difference)
L S D = t a / 2 M S E ( 1 n i + 1 n j ) LSD = t_{a/2} \sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})} LSD=ta/2MSE(ni1+nj1)
x1_bar = data.零售业.mean()
x2_bar = data.旅游业.mean()
x3_bar = data.航空公司.mean()
x4_bar = data.家电制造业.mean()
n1 = data.零售业.count()
n2 = data.旅游业.count()
n3 = data.航空公司.count()
n4 = data.家电制造业.count()
# 检验1
t_1 = abs(x1_bar-x2_bar)
# 检验2
t_2 = abs(x1_bar-x3_bar)
# 检验3
t_3 = abs(x1_bar-x4_bar)
# 检验4
t_4 = abs(x2_bar-x3_bar)
# 检验5
t_5 = abs(x2_bar-x4_bar)
# 检验6
t_6 = abs(x3_bar-x4_bar)
t_a2 = stats.t.isf(a/2,n-k)
t_a2
# 检验1
LSD_1 = t_a2*np.sqrt(MSE*(1/n1+1/n2))
# 检验2
LSD_2 = t_a2*np.sqrt(MSE*(1/n1+1/n3))
# 检验3
LSD_3 = t_a2*np.sqrt(MSE*(1/n1+1/n4))
# 检验4
LSD_4 = t_a2*np.sqrt(MSE*(1/n2+1/n3))
# 检验5
LSD_5 = t_a2*np.sqrt(MSE*(1/n2+1/n4))
# 检验6
LSD_6 = t_a2*np.sqrt(MSE*(1/n3+1/n4))
t_1 < LSD_1
不拒绝H_0,不能认为零售业与旅游业被投诉次数之间有显著差异
t_2 < LSD_2
不拒绝H_0,不能认为零售业与航空公司被投诉次数之间有显著差异
t_3 < LSD_3
不拒绝H_0,不能认为零售业与家电制造业被投诉次数之间有显著差异
t_4 < LSD_4
不拒绝H_0,不能认为旅游业与航空公司被投诉次数之间有显著差异
t_5 < LSD_5
不拒绝H_0,不能认为旅游业与家电制造业被投诉次数之间有显著差异
t_6 > LSD_6
拒绝H_0,认为航空公司与电制造业被投诉次数之间有显著差异