7. 解:
(a)欧几里德距离: |x| = sqrt( x[1]^2 + x[2]^2 + … + x[n]^2 )
所以计算结果是: 1.3、 2.2、 3.sqrt(10)、 4.sqrt(5)、 5.sqrt(2)、 6.sqrt(3)
(b) Green。最近的点 obs.5 的 Y 值作为预测结果。
(c) Red. 最近的点有 Y[2]=Red,Y[5]=Green,Y[6]=Red,计算出
Pr(Y=Red|X1=X2=X3=0)=2/3
(d) 小。 K 越小,光滑度越高,也就越非线性。所以 K 应该小。
9.解:
(a) 代码:
> auto=read.csv("Auto.csv",header=T,na.strings="?")
> auto = na.omit(auto)
> fix(auto)
定量变量有: mpg, cylinders, displacement, horsepower, weight, acceleration, year。
定性变量: origin, name。
(b) 代码:
> sapply(auto[, 1:7], range)
mpg cylinders displacement horsepower weight acceleration year
[1,] 9.0 3 68 46 1613 8.0 70
[2,] 46.6 8 455 230 5140 24.8 82
(c) 代码:
> sapply(auto[, 1:7], mean)
> sapply(auto[, 1:7], sd)
(d) 代码:
> newauto = auto[-(10:85),]
> sapply(newauto[, 1:7], range)
> sapply(newauto[, 1:7], mean)
> sapply(newauto[, 1:7], sd)
(e)代码:
> attach(auto)
> cylinders=as.factor(cylinders)
> par(mfrow=c(2,2))
> plot(cylinders,mpg)
> plot(cylinders,horsepower)
> plot(horsepower,displacement)
> plot(weight,mpg)
分析:cylinders 为 4 时 mpg 最高, 然后 mpg 的值随 cylinders 的增加或减少而递减。
cylinders 为 4 时 horsepower 最低,然后 horsepower 的值随 cylinders 的增加或减少
而递增。 displacement 与 horsepower 存在正相关关系,而 mpg 与 weight 负相关。
(f)由( e)题讨论结果,可以用 cylinders, horsepower,和 weight 等预测 mpg。
10.解:
(a)代码:
> library(MASS)
> ?Boston
> dim(Boston)
[1] 506 14
(b)代码:
> pairs(Boston)
分析:1)公路可达数 rad 明显的可划分为 24 条和小于 10 条。 2) tax 明显的可分为
666 和小于 400。 3)由散点图, nox, rm, age, dis 变量影响其他变量变化趋势明显。
4) crim 受其他变量影响变化明显。
(c)代码:
从 pairs(Boston)的结果来看, crim 和 age, dis, rad, tax, ptratio 有较大的相关性
> par(mfrow=c(3,3))
> plot(Boston$zn, Boston$crim)
> plot(Boston$indus, Boston$crim)
> plot(Boston$chas, Boston$crim)
> plot(Boston$age, Boston$crim)
> plot(Boston$dis, Boston$crim)
> plot(Boston$rad, Boston$crim)
> plot(Boston$tax, Boston$crim)
> plot(Boston$ptratio, Boston$crim)
> plot(Boston$black, Boston$crim)
分析:1)高人均犯罪率 crim 均分布在住宅比例 zn 接近 0 处。 2) 高人均犯罪率 crim
均分布在零售商比例 indus 在 17 左右。 3)近河处犯罪率高 4) 早于 1940 年建立的的
住宅比例 age 越高, 出现高犯罪率的可能越大 5) 距离五个上班区域的加权平均距离
dis 越低,高犯罪概率值越密集。 6) 公路可达数 rad 小于 10 时,越靠近 5 犯罪率越
高, 等于 24 时出现更高的犯罪率,且高犯罪率分布密集。 7)财产税 tax 小于 500 时
犯罪率极低,达到 666 处且高犯罪率分布密集。 8)师生比略超出 20 时高犯罪率分布
密集,大于或小于此值处犯罪率极低。 9)黑人比例 black 在 0.63 左右犯罪率最低,
高犯罪率向两侧逐渐密集分布。
(d)代码:
> par(mfrow=c(1,3))
> hist(Boston$crim[Boston$crim>1], breaks=25)
> hist(Boston$tax, breaks=25)
> hist(Boston$ptratio, breaks=25)
分析:1) 不会,高犯罪率的只有极少城镇。 2) 3)师生比不高
(e)代码:
> dim(subset(Boston, chas == 1))
[1] 35 14
(f)代码:
> median(Boston$ptratio)
[1] 19.05
(g)代码:
> t(subset(Boston, medv == min(Boston$medv)))
399 406
crim 38.3518 67.9208
zn 0.0000 0.0000
indus 18.1000 18.1000
chas 0.0000 0.0000
nox 0.6930 0.6930
rm 5.4530 5.6830
age 100.0000 100.0000
dis 1.4896 1.4254
rad 24.0000 24.0000
tax 666.0000 666.0000
ptratio 20.2000 20.2000
black 396.9000 384.9700
lstat 30.5900 22.9800
medv 5.0000 5.0000
> summary(Boston)
分析: 1) 第 399 个。2) 38.35180 0.0 18.10 0 0.6930 5.453 100.0 1.4896
24 666 20.2 396.90 30.59 5.0 。 3)犯罪率高,住宅用地比率低,零售商
业比例较高,不靠近河,氮氧化物浓度较高,住宅房间数中等, 早于 1940 年建立的
的住宅比例最高, 为 100%, 距离五个上班区域的加权平均距离较近, 交通发达,税率
高,生师比较高, 黑人占比极高, 地位低的人群比例高
(h)代码:
> dim(subset(Boston, rm > 7))
[1] 64 14
> dim(subset(Boston, rm > 8))
[1] 13 14
> summary(subset(Boston, rm > 8))
分析:犯罪率低,住宅用地比率高,零售商业比例更合理, 河,氮氧化物浓度更接近
中等水平,住宅房间数多,早于 1940 年建立的的住宅比例更高,距离五个上班区域
的加权平均距离更近,交通发达,税率低,生师比低,黑人占比极高,地位低的人群
低
懒得整理,pdf版本http://pan.baidu.com/s/1nv16iG5