R语言回归、anova方差分析、相关性分析《精品购物指南》调研数据可视化

全文链接：http://tecdat.cn/?p=30990

原文出处：拓端数据部落公众号

第一节研究背景与目的

《精品购物指南》是中国本土经营规模最大、最具影响力的时尚媒体品牌，1999年《精品购物指南》即进入全国报业广告十强，2005～2007连续三年获得国家新闻出版总署颁布的“全国生活服务类报纸竞争力10强”，并蝉联第一。2013年，《精品购物指南》被国家新闻出版广电总局评为“全国百强报纸”。

在分析时，我们向客户演示了用R语言回归、anova方差分析、相关性分析可以提供的内容。

本研究使用对《精品购物指南》所做的一次调查结果作为本次案例分析的数据。试图分析目前阅读《精品购物指南》的群体特征，以及影响阅读《精品购物指南》的时间的因素,从而更好地对受众群体和市场做出分析。

第二节描述性统计

1. 数据预处理




##变量赋值
colnames(data)=c(
  "编号",
  "性别",
  "年龄",
  "婚姻状况",
  "受教育程度",
  "职业或身份",
  "个人月平均收入",
  "报摊购买",
  "个人订阅",
  "单位订阅",
  "赠阅",
  "借阅他人",
  "其他",
  "上班途中",
  "下班途中",
  "午休时间",
  "逛衔购物时",
  "不定时",
  "对《精品购物指南》的零购情况",
  "家人是否会提醒购买《精品》",
  "是第几选择",
  "家人是否阅读《精品》",
  "",
  "",
  "一直购买(或订阅)本报(习惯)",
  "豪华版内容吸引人",
  "普通版文章吸引人",
  "查找广告信息",
  "参加读者乐园版的活动",
  "逛商场购物需要",
  "价格便宜",
  "没有什么原因想起来就买",
  "其他",
  "住所",
  "工作场所",
  "车站或乘车路途",
  "娱乐场所",
  "其他场所",
  "多少人阅读同一份报纸",
  "阅读《精品》的时间",
  "每天读报时间",
  "对我消费有指导",
  "提高我的生活品位和档次",
  "信息实用性强",
  "关注社会新闻",
  "信息量大",
  "信息质量高",
  "报道领域全面",
  "内容贴近市场",
  "寻找有用的信息和广告",
  "放松自我",
  "通俗易懂",
  "广告信息丰富",
  "版面编排合理",
  "售价合理",
  "订阅或零购方便",
  "其他",
  "平均每月阅读几期《精品》",
  "首先欣赏豪华版",
  "先看标题，再拣有意思的看",
  "我只看自己喜欢的固定栏目",
  "看完喜欢的文章，再浏览其他内容",
  "只查找对自己有用的信息",
  "无目的地翻阅报纸",
  "如果未能看到某一期《精品》",
  "能够阅读完《精品》内容",
  "封面要闻",
  "百姓生活新闻",
  "北京都市新闻",
  "消费新闻",
  "读者乐园",
  "体坛新闻",
  "关注足球",
  "篮球时空",
  "绿茵评说",
  "精品回顾",
  "文化资讯",
  "影视介绍",
  "读书生活",
  "音乐欣赏",
  "外企专递",
  "留学必备",
  "充电课堂",
  "人才聚焦",
  "处世情感",
  "健康",
  "美食",
  "休闲旅游",
  "保险",
  "律师",
  "百货新品",
  "休闲宠物",
  "户外休闲",
  "美食",
  "家庭保健",
  "超市SHOPPER"
  ,"新品试验"
  ,"样品透视"
  ,"汽车时代"
  ,"电脑"
  ,"市场行情"
  ,"通讯网络"
  ,"楼市了望"
  ,"房产金融"
  ,"政策扫描"
  ,"家具世界"
  ,"家装热点"
  ,"选材指南"
  ,"饰品快递"
  ,"非常男人"
  ,"特别女人"
  ,"新新人类"
  ,"网络家庭"
  ,"扮美家居"
  ,"今日妈咪"
  ,"选题大众化"
  ,"信息实用性强"
  ,"可读性强"
  ,"帮助我消费选择"
  ,"趣味性强"
  ,"报道领域全面"
  ,"帮助我了解市场行情"
  ,"放松自我"
  ,"文字优美"
  ,"观点新颖"
  ,"版式活泼"
  ,"品位高雅"
  ,"风格突出"
  ,"广告内容丰富"
  ,"其他"
  ,"招商展览"
  ,"电脑"
  ,"通讯"
  ,"汽车"
  ,"房地产"
  ,"家电"
  ,"食品酒类"
  ,"旅游娱乐"
  ,"商场饭店"
  ,"服装服饰"
  ,"美容用品"
  ,"保健品"
  ,"医疗器械"
  ,"家居用品"
  ,"航空订票"
  ,"招生"
  ,"人才招聘"
  ,"公益广告"
  ,"文化用品"
  ,"房屋祖赁"
  ,"金融证券"
  ,"发行广告"
  ,"其他"
  ,"广告对于消费是否有帮助"
  ,"广告数量适中"
  ,"广告信息丰富"
  ,"广告信息及时"
  ,"广告设计新颖"
  ,"广告内容属实"
  ,"其他"
  ,"是否了解精品的订阅服务"
  ,"零购者"
  ,"订户"
  ," "
 ," v14"
)

删除缺失

data=complete.cases(data)

2.绘制不同变量之间的关系

  geom_point() + 
    geom_smooth(method=method, ...)

从每个变量的直方图可以看到变量的大概分布情况。绘制各个变量的饼图可以看到基本人口信息的各个取值的所占的百分比。

第三节回归，方差分析与模型比较

1.相关性分析

for(i in 1:ncol(data))datacor[,i]=as.numeric(data[,i])

#数据归一化

data=scale(datacor)

查看性别和阅读《精品》的时间之间是否有相关关系

cor.test(datacor$"性别",  
         datacor$"阅读《精品》的时间")
##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$性别 and datacor$"阅读《精品》的时间"  
## t = 0.63616, df = 1995, p-value = 0.5247  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.02964101  0.05806894  
## sample estimates:  
##        cor  
## 0.01424136

检验的结果是，由于P =0.5247> 0.05，因此在0.05的显署性水平下，接受原假设，认为两者之间不具有相关关系。

查看婚姻状况和阅读《精品》的时间之间是否具有相关关系



cor.test(datacor$"婚姻状况",  
         datacor$"阅读《精品》的时间")
##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$婚姻状况 and datacor$"阅读《精品》的时间"  
## t = -1.7215, df = 1995, p-value = 0.08531  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.082238962  0.005358859  
## sample estimates:  
##         cor  
## -0.03851404

检验的结果是，由于P =0.08531> 0.05，因此在0.05的显署性水平下，所以接受原假设，认为两者之间不具有相关关系

[]()查看受教育程度和阅读《精品》的时间之间是否具有相关关系


cor.test(datacor$"受教育程度",  
         datacor$"阅读《精品》的时间")

##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$受教育程度 and datacor$"阅读《精品》的时间"  
## t = -0.71111, df = 1995, p-value = 0.4771  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.05974084  0.02796468  
## sample estimates:  
##        cor  
## -0.0159187

检验的结果是，由于P =0.4771>0.05，因此在0.05的显署性水平下，接受原假设，认为两者之间不具有相关关系。

2.回归分析

查看共线性关系

which(abs(cormatrix)>0.6,arr.ind = T)

##                              row col  
## 编号                           1   1  
## 性别                           2   2  
## 年龄                           3   3

从结果看，没有相关系数大于0.6的不同变量。因此，变量间不存在共线性问题。

回归分析

summary(model)

从回归模型的结果来看，可以看被调查者的职业或身份,家人是否阅读《精品》`,以及豪华版内容是否吸引人等因素对被调查对象否阅读《精品》的时间有比较大的影响，p值小于0.05，因此该变量对被调查者选择去看报纸有显著的影响。

3.模型筛选与比较

无常数项模型拟合

回归模型校正

利用qqPlot()函数提供的正态假设检验方法，它画出了在n-p-1个自由度的t分布下的学生化残差图形，再配合Shapiro检验得出检测结果，而Shapiro样本量的大小范围配合下图可以发现除了Providence，所有的点都离直线很近，都落在置信区间内，这表明与正态性假相符。

library(car)  
qqPlot(model2,labels = row.names(datacor))

方差齐性

利用残差绘制曲线图并配合Durbin-Watson检验，此检验方法能够检测误差的序列相关性，再配合下表检验结果显著性为0.7604表示接受原假设，因此误差项独立性检验通过。

dwtest(model2)

##  
##  Durbin-Watson test  
##  
## data:  model2  
## DW = 2.0242, p-value = 0.7604  
## alternative hypothesis: true autocorrelation is greater than 0