R语言逐步回归、方差anova分析电影市场调查问卷数据可视化

全文链接：http://tecdat.cn/?p=30680

这是一份有关消费者对电影市场看法及建议的调查报告，我们采取了问卷调查法，其中发放问卷256份，回收有效问卷200份。

我们对数据进行了基本分析,比如:相关性。还有基本图形、回归方差分析。最后模型比较。

head(data)

str(data)

数据一共有200个样本，25个属性。具体属性和取值及其含义如下：

绘制各个变量的饼图可以看到基本人口信息的各个取值的所占的百分比。

基本统计量

#数据清理

对缺失值（NA）的处理

data=na.omit(data)

 

#变量筛选

 colnames(data)

 

data=data[, -which(colnames(data) %in% c("填写时间","是否星标","提交后随机码" , "是否已

基本数据分析,比如:相关性。还有基本图形、回归方差分析。最后模型比较。

从回归模型的结果来看，可以看到接受电影票价格区间对被调查对象考虑的电影外在因素有比较大的影响，p值小于0.05，因此该变量对被调查者选择去看电影有显著的影响。其次被调查者的年龄也有较明显的影响，可以年龄和被调查者去看电影有较大的负相关关系，因此可以认为年龄大的人会倾向于考虑的看电影各种外在因素。

plot(model)

从回归模型的残差结果图来看，残差比较均匀地分布在0线周围，和qq图周围，说明残差随机服从正态分布，因此，回归模型具有较好的效果。

模型筛选与比较,使用逐步回归进行模型筛选最优模型，然后和传统的回归模型进行比较。
删去不显著的变量.

进行变量删减后的回归模型，我们得到最优变量是被调查者接受的电影票价格区间，p值小于0.05，说明该变量对被调查者考虑的外在因素有显著的影响。

最受欢迎的见解