1.通过读取“hospital-data.csv”将数据保存到df中,获取该数据的条数;查看
数据中的前5条数据。
df<-read.csv("C:\\Users\\zzh\\Desktop\\R语言\\R第4次实训\\数据\\hospital-data.csv")
nrow(df)
head(df,n=5)
2.查看数据概况;求得邮编的范围。
summary(df)
range(df$ZIP.Code)
3.默认电话号码是个数值,没有实际意义;应用sapply函数,通过调用用户自定
义函数,返回电话号码的最大值,最小值,均值,中位数,标准差和方差。
getSummary<-function(x,na.omit=FALSE){
if(na.omit)
#X<-na.omit(x)
x<-x[!is.na(x)]
getMax<-max(x)
getMin<-min(x)
getMean<-mean(x)
getMedian<-median(x)
getSd<-sd(x)
getVar<-var(x)
return(c(max=getMax,min=getMin,mean=getMean,median=getMedian,sd=getSd,var=getVar))
}
sapply(df["Phone.Number"], getSummary,na.omit=TRUE)
4.利用aggregate求取各州的电话号码的中位数。
aggregate(df["Phone.Number"],by=list(State=df$State),median)
5.利用by求取各城市的电话号码的最大值和最小值;显示结果的前3条数据。
getMax_Min<-function(x,na.omit=FALSE){
if(na.omit){
x<-na.omit(x)
}
getMax<-max(x)
getMin<-min(x)
return(c(max=getMax,min=getMin))
}
head(by(df["Phone.Number"],df$City,getMax_Min,na.omit=TRUE),n=3)
6.对所属州生成简单的频数统计表;并将这个频数表转化为比例值。
# mytable <- with(df, table(State))
mytable <- table(df$State)
mytable
mytable<-prop.table(mytable) # proportions
mytable
7.建立所属州和医院类型的二维列联表,命名为mycontable;按列生成边际和。
# mycontable<-with(df, table(State,Hospital.Type))
mycontable<-table(df$State,df$Hospital.Type)
head(mycontable)
# mycontable <- xtabs(~ State+Hospital.Type, data=df)
# head(mycontable)
margin.table(mycontable, 2) # column sums
# addmargins(mycontable) # add row and column sums to table
8.利用CrossTable建立所属乡镇和是否提供急救服务字段的二维列联表,命名为
mycrosstable。(注:安装gmodels 包)
# install.packages("gmodels")
library(gmodels)
mycrosstable <- CrossTable(df$County,df$Emergency.Services)
题目2:
1.通过读取文件outcome-of-care-measures.csv获取数据保存到care_df中,编写一个名为 best的函
数,找到一个州中最好的医院,函数有两个参数,
一个是有两个字母缩写的州名称,
另一个是结果名称,包括(heart attack, heart failure, pneumonia),
函数的返回结果为30天死亡率最低的医院名称。
在处理排名的时候,如果出现死亡率相等的情况,将医院按照字母表顺序排序,取第一家医院。
注意检查读入数据的类型,以免排序的时候出现问题!!
care_df <- read.csv("C:\\Users\\zzh\\Desktop\\R语言\\R第4次实训\\数据\\outcome-of-care-measures.csv")
dim(care_df)
best <- function(state, outcome) {
if (!state %in% care_df$State)
return("invalid state")
if (!outcome %in% c("heart attack", "heart failure", "pneumonia"))
return("invalid outcome")
a <- care_df[care_df$State == state,]
if (outcome == "heart attack") {
a <-
a[a$Hospital.30.Day.Death..Mortality..Rates.from.Heart.Attack != "Not Available",]
a$Hospital.30.Day.Death..Mortality..Rates.from.Heart.Attack <-
as.numeric(a$Hospital.30.Day.Death..Mortality..Rates.from.Heart.Attack)
b <-
a[order(a$Hospital.30.Day.Death..Mortality..Rates.from.Heart.Attack), ]
} else if (outcome == "heart failure") {
a <-
a[a$Hospital.30.Day.Death..Mortality..Rates.from.Heart.Failure != "Not Available",]
a$Hospital.30.Day.Death..Mortality..Rates.from.Heart.Failure <-
as.numeric(a$Hospital.30.Day.Death..Mortality..Rates.from.Heart.Failure)
b <-
a[order(a$Hospital.30.Day.Death..Mortality..Rates.from.Heart.Failure), ]
} else{
a <-
a[a$Hospital.30.Day.Death..Mortality..Rates.from.Pneumonia != "Not Available",]
a$Hospital.30.Day.Death..Mortality..Rates.from.Pneumonia <-
as.numeric(a$Hospital.30.Day.Death..Mortality..Rates.from.Pneumonia)
b <-
a[order(a$Hospital.30.Day.Death..Mortality..Rates.from.Pneumonia), ]
}
return(hospital = b[1,]["Hospital.Name"])
}
best("TX", "heart failure")
best("MD", "heart attack")
best("MD", "pneumonia")
best("BB", "heart attack")
best("NY", "hert attack")