大二用sas做的项目

项目描述:

前期是将91份研究生调查问卷的信息录入到Excel表格中,每个问卷有35个选择题,在Excel表格里整理成91行35列的形式。然后将表格导入到SAS软件进行数据预处理,将选项答案的ABCD转化成1234,将缺失值找出,并重新赋值。然后通过单因素方差分析将性别与上网时间、遵守道德、是否有瘾;专业类别与解决学习问题;上网玩游戏时间比例与居住地;游戏类型与网络言论等等。将这些关系依次计算频率、排序、单因素方差分析,观察P值是否大于0.05来判断两者之间是否有显著性差异,有显著性差异就说明这两个因素之间没有潜在的联系,没有显著性差异就说明这两个因素之间存在联系。接着通过逐步回归的方法找出下面这5个相关性将强的变量:1、一个分类型输出变量study(1代表积极学习型上网,0代表不积极学习型上网)2、sex(性别,分类型,0表示男性,1表示女性)3、residence(居住地,分类型,0表示农村,1表示城镇)4、income(家庭收入,数值型)5、nage(网龄,数值型)构建一个多元logistic回归模型。计算输出的Intercept和residence的比值来判断学生网上遵守道德的标准的概率的值。具体说明如下:回归方程的形式是log(odds)=log(p/(1-p))=0.1110+1.7137*Nsex-1.5000*residenc。知道odds=p/(1-p),有p=odds/(1+odds)。假设有个学生,性别为男, 居住地为农村(Nsex =0,residence =0),代入方程,有log(odds)=0.1110,再odds=exp(0.1110)=1.1174,p=1.1174/2.1174=0.5277,则这位男生上网是为了学习的概率为0.5277;一个学生,性别为女, 居住地为农村(Nsex =1,residence =0),同样的步骤得log(odds)=1.8249,odds=exp(1.8249)=6.2022,p=6.2022/7.2022=0.8612则这位女学生上网是为了学习的概率为0.8612;说明性别变量对上网类别的影响很重要。


大二用sas做的项目_第1张图片

大二用sas做的项目_第2张图片

 
下面是部分分析代码
/*英文字符转化成英文字符*/
data date;
set sasuser.date;
if x1="A" then sex=0;
else if x1="B" then sex=1;
if x2="A" then residence=0;
else if x2="B" then residence=1;
if x3="A" then nage=3-3*ranuni(123);
else if x3="B" then nage=3+2*ranuni(123);
else if x3="C" then nage=6+4*ranuni(123);
else if x3="D" then nage=10+4*ranuni(123);
 if x5="A" then income=0;
else if x5="B" then income=2000-2000*ranuni(123); 
else if x5="C" then income=2000+2000*ranuni(123);
else if x5="D" then income=4000+2000*ranuni(123);
else if x5="E" then income=6000+2000*ranuni(123);
else if x5="F" then income=8000+4000*ranuni(123);
if x32="A" then label=1 ;
else if x32="B" then label=0;
keep label sex residence income nage;
run;

/*单因素方差分析*/
proc anova data=date2;
class xx18;
model xx32=xx18;
run;

data date;
set a1;
if x16="C"&x4="B" then x4="C";
run;

data b;
set a1;
keep x4 x16;
run;


proc sort data=date1;
by x1;
run;

proc contents data=date2;
run;


data sasuser.date;
set sasuser.date;
if x18="C" then x18="B";
run;



/*回归分析*/
proc reg data=date1;
model Q7=Q1 Q2 Q5 Q6;
RUN;

/*计算频率*/
proc freq data=sasuser.date;
table x31;
run;
data sasuser.date;
set sasuser.date;
if x12="D" then x12="B";
else if x12="E" then x12="C";
run;
/*排序与计算频率*/
data date;
set date;
run;
proc sort data=date;
by x11;
run;
proc freq data=date;
by x11;
run;


/*建立逻辑斯蒂回归模型*/
proc logistic data=date descending;
model label=nage sex residence income  /selection=forward; 
run;


 

 

 

 

 

你可能感兴趣的:(sas项目)