转载自:http://www.klshu.com/1681.html
回归是用已知的数据集来预测另一个数据集,如保险精算师也许想在已知人们吸烟习惯的基础上预测其寿命。回归模型的输出是数字。
如果我们要在不使用其他任何信息的情况下,尽可能做出接近事实的预测,那么平均输出作为结果是我们可以做的最好预测。在保险精算师的例子中,我们可以完全忽略一个人的健康记录并且预测其寿命等于人类平均寿命。
在讨论如何做出最好的合理预测之前,假如我们有一组虚构的保险统计数据,第一列为是否抽烟(0不抽烟,1为抽烟),第二列是年龄。我们先用密度图来比较吸烟者和非吸烟者,如下所示。
library('ggplot2') # First snippet ages <- read.csv(file.path('data', 'longevity.csv')) ggplot(ages, aes(x = AgeAtDeath, fill = factor(Smokes))) + geom_density() + facet_grid(Smokes ~ .)
从这个图中可以看出,吸烟习惯和寿命的关系,因为不吸烟的寿命分布中心和吸烟的人相比,向右偏移。
如果使用平方误差作为预测质量的衡量指标,那么对人的寿命做出的最好假设(在没有任何关于人的习惯信息的情况下)就是人的寿命均值。平方误差的计算:(y-h)^2,其中y是真实结果,h是预测的结果。下面我们可以验证一下。
人的评价年龄可以使用mean方法获得,在这里我们得到了72.723,向上取整得到73
> mean(ages$AgeAtDeath) [1] 72.723 > guess <- 73 > with(ages,mean((AgeAtDeath - guess) ^2)) [1] 32.991
通过假设已有数据集中每个人的寿命都是73,而得到的均方误差是32.991。为了证明73是最好的假设,我们在范围63-83的可能假设序列上做一个循环。
guess.accuracy <- data.frame()
for (guess in seq(63, 83, by = 1)) { prediction.error <- with(ages, mean((AgeAtDeath - guess) ^ 2)) guess.accuracy <- rbind(guess.accuracy, data.frame(Guess = guess, Error = prediction.error)) }
ggplot(guess.accuracy, aes(x = Guess, y = Error)) + geom_point() + geom_line()
如上图所示,使用除了73之外的其他任何假设对于我们的数据集来说带来的都是更差的预测。这实际上是一个我们可以从数学上证明的一般理论结果:为了最小化均方误差,需要使用数据集的均值作为预测。这说明了很重要的一点:在已有了关于吸烟信息的情况下做出预测,如果要衡量其好坏,那就应该看它比你对每个人都用均值去猜的结果提升了多少。
如何使用是否吸烟这样的信息来对人的寿命做出更好的假设?一个简单的想法是,先分别估算吸烟的人和不吸烟的人的死亡年龄均值,然后根据要研究的人是否吸烟,以对应均值作为其预测寿命。这一次,我们使用均方根误差(Root Mean Squared Error,RMSE)来代替均方误差(MSE)。
下面是将吸烟的人和不吸烟的人分成单独建模的两组之后,使用R语言计算均方根误差。
ages <- read.csv(file.path('data', 'longevity.csv')) constant.guess <- with(ages, mean(AgeAtDeath)) with(ages, sqrt(mean((AgeAtDeath - constant.guess) ^ 2))) # [1] 5.737096 # 不包含吸烟信息的预测误差 smokers.guess <- with(subset(ages, Smokes == 1),mean(AgeAtDeath)) non.smokers.guess <- with(subset(ages, Smokes == 0), mean(AgeAtDeath)) ages <- transform(ages, NewPrediction = ifelse(Smokes == 0, non.smokers.guess, smokers.guess)) with(ages, sqrt(mean((AgeAtDeath - NewPrediction) ^ 2))) # [1] 5.148622 # 包含吸烟信息的预测误差
从上例可以看出,在引入了更多的信息之后,所做出的预测确实更好了:当引入关于吸烟习惯的信息之后,在预测人群寿命时的预测误差减少了10%。
一般来说,每当我们有了可以将数据点分为两种类型的二元区分性质–假设这些二元区分性和我们尝试预测的结果相关,我们都能得到比仅仅使用均值更好的预测结果。简单二元区分性的例子有:男人和女人。
当使用线性回归模型预测输出结果时,所做的最大的两个假设如下:
1)可分性/可加性
如果有多份信息可能影响我们的假设,那么通过累加每一份信息的影响来产生我们的假设,就像单独使用每份信息时一样。假如,如果酗酒者比不酗酒者少活1年,并且吸烟者比不吸烟者少活5年,那么一个吸烟的酗酒者应该会比既不吸烟也不酗酒的人少活6(1+5)年。这种假设是事情同时发生时将他们的单独影响累加在一起,是一个很大的假设,但是这是很多回归模型应用的不错起点。
2)单调性/线性
当改变一个输入值总使得预测的结果增加或者减少时,这个模型是单调的。假如,你使用身高作为输入值预测体重,并且模型是单调的,那么当前的预测是每当某些人的身高增加,他们的体重将会增加。如果将输入和输出画出来,将会看到一条直线,而不是某种更复杂的形状,如曲线或者波浪线。
使用身高体重的例子,在调用geom_smooth函数时指明要使用lm方法即可,其中lm方法已经实现了“线性模型”。
library('ggplot2') heights.weights <- read.csv(file.path('data', '01_heights_weights_genders.csv'), header = TRUE, sep = ',') ggplot(heights.weights, aes(x = Height, y = Weight)) + geom_point() + geom_smooth(method = 'lm')
从上图中可以看出,通过这条直线,在已知一个人身高的前提下去预测其体重回去的非常好的效果。例如,看着这条直线,我们可以预测身高60英寸的人体重为105磅。至于如何找到用于定义在这幅画种看到的直线的数字,这正是R语言所擅长的地方:R语言中一个称为lm的简单函数将会为我们完成所有的这些工作。为了使用lm,我们需要使用~操作符指明一个公式。
我们可以使用下面的公式运行一个线性回归程序:
fitted.regression <- lm(Weight ~ Height,data = heights.weights)
一旦运行了lm函数的调用,就可以通过调用coef函数来得到回归直线的截距。
coef(fitted.regression) #(Intercept) Height #-350.737192 7.717288 # predicted.weight == -350.737192 + 7.717288 * observed.height
这也就是说某个人的身高增加一英寸,就会导致他的体重增加7.7磅。但是这个模型中,一个人至少有45英寸身高,才能显示出其体重0磅。简言之,我们的回归模型对于儿童或者身高特别矮的成年人来说并不是太使用。
predict(fitted.regression)
predict可以获得模型对于每个数值的预测结果。一旦有了这个结果,就可以使用简单的减法来计算预测结果和真实值之间的误差。
true.values <- with(heights.weights, Weight) errors <- true.values - predict(fitted.regression) # 真实值和预测值之间的差,也叫残差
在R语言中可以使用residuals函数替代predict函数来直接获得残差:
> head(heights.weights) Gender Height Weight 1 Male 73.84702 241.8936 2 Male 68.78190 162.3105 3 Male 74.11011 212.7409 4 Male 71.73098 220.0425 5 Male 69.88180 206.3498 6 Male 67.25302 152.2122 > head(predict(fitted.regression)) 1 2 3 4 5 6 219.1615 180.0725 221.1918 202.8314 188.5607 168.2737 > head(errors) 1 2 3 4 5 6 22.732083 -17.762074 -8.450953 17.211069 17.789073 -16.061519 > head(residuals(fitted.regression)) 1 2 3 4 5 6 22.732083 -17.762074 -8.450953 17.211069 17.789073 -16.061519
为了发现使用线性回归时产生的明显错误,可以把残差和真实数据对应画在一幅画中。
plot(fitted.regression, which = 1) #which=1尽让R语言画出了第一个回归诊断点图。
在这个例子中,我们可以说这个线性模型很有效,因为残差中不存在系统性的结构(??没看明白)。
下面举一个直线并不适用的例子:
x <- 1:10 y <- x ^ 2 fitted.regression <- lm(y ~ x) plot(fitted.regression, which = 1)
对于这个问题,我们可以看到残差中存在明显的结构。
最简单的误差衡量指标是:1)取得所有的残差;2)对他们进行平方处理,以获取模型的误差平方;3)把这些误差平方加载一起求和。
x <- 1:10 y <- x ^ 2 fitted.regression <- lm(y ~ x) errors <- residuals(fitted.regression) squared.errors <- errors ^ 2 sum(squared.errors) #[1] 528
对于比较不同的模型,这个简单的误差平方和数值是有用的,但是误差平方和在大数据集上的值比在小数据集上的值更大。我们可以使用误差平方的均值来代替这个误差平方和,也就是前面提到过的均方误差(MSE)度量方法。
mse <- mean(squared.errors) mse #[1] 52.8 rmse <- sqrt(mse) rmse #[1] 7.266361
对均方误差进行开放运算以获得均方根误差,这就是RMES度量方法,这宗方法一般用于评估机器学习算法的效果。
mean.mse <- 1.09209343 model.mse <- 0.954544 r2 <- 1 - (model.mse / mean.mse) r2 #[1] 0.1259502
top.1000.sites <- read.csv(file.path('data', 'top_1000_sites.tsv'), sep = '\t', stringsAsFactors = FALSE)
>head(top.1000.sites) Rank Site Category UniqueVisitors Reach PageViews HasAdvertising InEnglish TLD 1 1 facebook.com Social Networks 880000000 47.2 9.1e+11 Yes Yes com 2 2 youtube.com Online Video 800000000 42.7 1.0e+11 Yes Yes com 3 3 yahoo.com Web Portals 660000000 35.3 7.7e+10 Yes Yes com 4 4 live.com Search Engines 550000000 29.3 3.6e+10 Yes Yes com 5 5 wikipedia.org Dictionaries & Encyclopedias 490000000 26.2 7.0e+09 No Yes org 6 6 msn.com Web Portals 450000000 24.0 1.5e+10 Yes Yes com
ggplot(top.1000.sites, aes(x = PageViews, y = UniqueVisitors)) + geom_point()
ggplot(top.1000.sites, aes(x = PageViews)) +geom_density()
ggplot(top.1000.sites, aes(x = log(PageViews), y = log(UniqueVisitors))) + geom_point() + geom_smooth(method = 'lm', se = FALSE)
我们可以通过lm函数来找到定义这条直线斜率和截距的数值:
lm.fit <- lm(log(PageViews) ~ log(UniqueVisitors),data = top.1000.sites) # Twenty-third snippet summary(lm.fit) #Call: #lm(formula = log(PageViews) ~ log(UniqueVisitors), data = top.1000.sites) # #Residuals: # Min 1Q Median 3Q Max #-2.1825 -0.7986 -0.0741 0.6467 5.1549 # #Coefficients: # Estimate Std. Error t value Pr(>|t|) #(Intercept) -2.83441 0.75201 -3.769 0.000173 *** #log(UniqueVisitors) 1.33628 0.04568 29.251 < 2e-16 *** #--- #Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 # #Residual standard error: 1.084 on 998 degrees of freedom #Multiple R-squared: 0.4616, Adjusted R-squared: 0.4611 #F-statistic: 855.6 on 1 and 998 DF, p-value: < 2.2e-16
summary函数告诉我们的第一件事情是对lm函数所做的调用。当使用对lm进行了多次调用的大型脚本进行工作时,该参数就变得非常有用。
summary函数告诉我们的第二件事情是残差的分位数。如果调用quantile(residuals(lm.fit))也可以计算出这个分位数。
接着,summary提供了比coef函数更详细的回归模型系数信息。每一个系数都有一个Estimate,Std. Error, t-value, Pr(>|t|)。这些值用于评估我们计算结果存在的不确定性,换句话说,他们是置信度。如“Std.Error”可以用于产生一个置信度为95%的系数置信区间。“t-value”和“p-value”用于衡量我们对真实系数不为零有多大信心。在本例中,log(UniqueVisitors)的系数是1.33628,而标准差是0.04568,就是说这个系数距离零26.25306(1.33628/0.04568 == 26.25306)。如果得到的系数与零距离远在3个标签误差之上,那么就有理由相信这两个变量之间是相关的。
下一部分信息是关于系数的显著性编码。数字旁边的星号的意思是“t-value”有多大或者“p-value”有多小。
最后一部分信息室关于从数据中拟合得到的现行模型的预测能力。第一个是“Residual standard error”,就是使用sqrt(mean(residuals(lm.fit)^2))计算出来的RMSE。“degrees of freedom”我们在分析中使用的数据点至少要有两个,才能有效地拟合两个系数。“Multiple R-squared”是标准的R平方。
# Twenty-fourth snippet lm.fit <- lm(log(PageViews) ~ HasAdvertising + log(UniqueVisitors) + InEnglish, data = top.1000.sites) summary(lm.fit) #Call: #lm(formula = log(PageViews) ~ HasAdvertising + log(UniqueVisitors) + # InEnglish, data = top.1000.sites) # #Residuals: # Min 1Q Median 3Q Max #-2.4283 -0.7685 -0.0632 0.6298 5.4133 # #Coefficients: # Estimate Std. Error t value Pr(>|t|) #(Intercept) -1.94502 1.14777 -1.695 0.09046 . #HasAdvertisingYes 0.30595 0.09170 3.336 0.00088 *** #log(UniqueVisitors) 1.26507 0.07053 17.936 < 2e-16 *** #InEnglishNo 0.83468 0.20860 4.001 6.77e-05 *** #InEnglishYes -0.16913 0.20424 -0.828 0.40780 #--- #Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 # #Residual standard error: 1.067 on 995 degrees of freedom #Multiple R-squared: 0.4798, Adjusted R-squared: 0.4777 #F-statistic: 229.4 on 4 and 995 DF, p-value: < 2.2e-16