The Elements of Statistical Learning第一章翻译

统计学习的基础(元素)

第二版前言

我们对《统计学习的基础》第一版的流行感到非常高兴。统计学研究领域的飞速发展,激励我们推出本书的第二版。

我们新增了四个章节,也更新了部分章节。由于许多读者对第一版的布局已经习惯,我们将尽量少地改变布局。下面是第二版改动地方的总结:

章节

新内容

1、简介

 

2、监督学习的概览

 

3、回归方程的线性方法

LAR算法和lasso的简介

4、线性分类方法

逻辑回归的lasso路径

5、基础拓展和规范化

RKHS的额外说明

6、核平滑方法

 

7、模型评估与选择

交叉验证的优缺点

8、模型推理和平均

 

9、加法模型、树和相关方法

 

10、递增树

生态学的新例子;一些从第16章分离出来的资料

11、神经网络

神经信息处理会议(NIPS)2013年的挑战;贝叶斯神经网络

12、支持向量机和灵活的判别式

SVM分类的path算法

13、原型方法和最近邻居

 

14、无监督学习

谱聚类;核PCA(主成分分析);稀疏PCA;非负矩阵因式分解原型分析;非线性降维;google排名算法;一个ICA(独立成分分析)的直接方法

15、随机森林

16、集成学习

17、无向图模型

18、高维问题

一些进一步的解释:

我们的第一版对色盲读者是不友好的,其中我们尤其是选择了红绿颜色作为对比色,这导致了很大的麻烦。在这一版中,我们把对比的颜色做了很大的改变,把上述的对比色变成了橘红色和蓝色。

我们把第六章的章节名改成了“核平滑方法”,为了避免与第16章SVM提到的“机器学习核方法”相互混淆。这将会在第5和16章广泛的讨论。

第一版的第七章中,对错误率判断的讨论太模糊,我们没有清楚地区分条件错误率和非条件错误率。新的版本中修正了这个问题。

第15、16章由第10章较为自然的过度而来。最好按照此顺序阅读。

在第17章,我们没有详细的讨论图论模型。仅仅是讨论了无向图的情况和一些估算的新方法。由于章节所限,我们省略了有向图模型的介绍。

第18章中简要讨论了“”问题,它在高维特性空间中研究。这些问题出现在很多领域,包括基因学,蛋白质学,文献分类等。

我们感谢指出第一版中大量错误的读者。我们对错误表示歉意,并在第二版中尽量避免。我们感谢blabla…为新的章节提出意见,以及为我们提出意见的stanford大学的毕业生和博士后,尤其是blabla….。我们感谢XXX耐心的指导我们完成这一版。此书纪念Anna McPhee。

第一版前言

我们沉浸在信息的海洋,我们渴望知识。

科学和工业带来的问题持续挑战着统计学科。早些年,这些问题大多来自于农业和工业实验,并且范围相对小。随着计算机和信息时代的到来,统计问题在尺寸和复杂性上都爆发性的增长。数据存储,组织,查询领域的挑战导致了一个新学科,数据挖掘;在生物医药方面的统计计算问题导致了新的学科,生物信息学。各种行业都产生了大量的数据,统计学的目的就是分析出数据的意义:提取出关键的样品盒趋势,明白数据告诉我们什么。我们称这为“从数据中学习”。

从数据中学习的挑战导致了统计学的变革。尽管计算扮演了很重要的角色,但是统计学中大部分新的发展都是有其他学科的研究者完成,比如计算机科学和工程学。

我们讨论的学习问题可以被粗略的分为有监督的和无监督的。在监督学习中,目标是根据输入量的大小预测输出量的值;在无监督学习中,没有输出量,目的是描述一个输出集的联系和模式。

本书旨在把学习的新的思路总结起来,在统计学的框架下解释他们。尽管需要一些数学知识,我们还是强调方法和概念支撑,而不是理论特征。最后,我们希望本书不仅仅吸引统计学家,还有各行各业的研究人员和实验人员。

正如我们从其他领域的研究人员身上学习到的统计知识一样, 统计知识也可以帮助别人更好的理解学习的不同方面:

任何事物都没有一个正确的解释,解释只是服务于人类某种理解的工具。解释的价值在于让别人更生动的理解某种观点。

我们向对此书的设想和完成做出贡献的人们表示感谢。XXX对我们的速度有很大影响。此处略。

第一章    简介

统计学习在科学、金融和工业的许多领域都扮演了重要的角色。这里有一些研究问题的例子:

预测一个住院的心脏病患者是否会遭受第二次心脏病。预测则基于人口统计学、饮食和临床测定。

预测股票未来六个月的走向,基于公司的业绩和经济数据。

根据照片,辨认手写的邮政编码。

估计糖尿病人的血糖含量,基于病人的红外线吸收光谱。

确认前列腺癌的风险因素,基于人口统计学和临床。

学习在统计学,人工智能和数据挖掘中扮演重要角色,而且与工程学和其他学科交互。

本书是关于如何从数据中学习。在一个典型案例中,我们有输出的衡量标准,通常是数量的(如股票价格)或者分类的(如是否得心脏病),然后进行预测,基于特征集(比如饮食和临床检测)。我们通过数据训练集,观察结果和特征。

表1.1 一封邮件中的单词或字符的百分比等于指定的单词或字符。我们选择了一些单词或字符,它们最大地说明了垃圾邮件和正常邮件的区别。

测量一个目标集合(比如人们)。利用这些数据,我们建立一个预测模型,或者“学习者”,使我们可以对未知目标预测其输出。一个好的学习者可以准确的做到这一点。

以上描述的例子叫做监督学习问题。之所以叫“监督”,是因为结果影响学习过程。在无监督学习问题中,我们仅仅观察特征,对结果没有衡量标准。我们的目标是描述数据是如何组织和聚集的。本书主要讨论监督学习,无监督问题在文献中的讨论也不多,这将在本书最后一章讨论。

这里是本书要讨论的几个学习问题的例子:

例子1:垃圾邮件

这个例子中的数据包括了4061封邮件,本研究试着预测一个邮件是否是垃圾邮件。目标是设计一个自动的垃圾邮件检测器,在阻塞用户邮箱之前过滤掉垃圾邮件。对于这4061封邮件,我们可以知道他们是否是真的垃圾邮件,也知道邮件中最长出现的57个单词和标点符号的频率。这就是监督学习,结果是类变量,普通邮件或者是垃圾邮件。这也叫分类问题。

表1.1列举的关键词和字符频率最大程度表示了垃圾邮件和普通邮件的区别。

我们的学习方法必须决定使用何种特性,并且如何使用,比如我们可以使用这样的规则:


满足就是垃圾邮件,否则是正常邮件。

另一种形式的规则可以是:

满足就是垃圾邮件,否则是正常邮件。

在这个问题中,不是所有的问题都是等价的。我们想要避免过滤正常邮件,但是漏掉垃圾邮件是不希望看到的,但也不是特别严重。我们在本书中讨论了一些处理该问题的不同的方法。

图1.1 前列腺癌的散点矩阵图。第一行依次代表了对每个预测的响应。Svi和gleason是分类的。

例子2:前列腺癌

该例子的数据,如图1.1所示,是来自Stamey的研究,用来检测前列腺特殊抗原(PSA)的浓度和临床数据的相互关系。数据来自97位接受彻底前列腺切除术的人。

研究目标是根据肿瘤体积(lcavol)、前列腺重量、年龄、良性的前列腺增生日志(lbph)、精囊注入量(svi)、囊渗透日志(lcp)、Gleason得分以及Gleason得分4和5的半分比来确定抗原(PSA)的浓度。图1.1是所有变量的散点矩阵图。一些和PSA的关系是明显的,但是一个好的预测模型是很难用肉眼来构造的。

这是一个监督学习问题,被称为回归问题。因为输出测量时定量的。

图1.2 美国邮政信封手写邮政编码的例子

例子3:手写数字识别

例子中的数据来自美国邮政信封上的手写的邮政编码。每个图片都是5个邮政编码的一个片段,隔离出一个单独的数字。每张图片是大小为16*16的灰度图,每个像素点的强度是从0到255。一些图片样本有图1.2所示。

这些图片被标准化,大小和方位都近似相等。任务是根据16*16的像素强度矩阵,最快和精确的确定每一个图片的数字。如果足够精确,最后的算法被用来自动的分配信封。这是一个分类问题,要求出错率很低,避免邮件的错误投递。为了达到低错误率,一些邮件可以被归为“不知道”,然后手工分类。

图1.3 DNA微阵列:来自6830个基因(行)和64个样本(列)的表达矩阵,表征了人类的肿瘤数据。显示的只有随机的100行。显示图是热成像图,由绿(负,未表达)到红(正,表达)。确实的值由绿色表示。行和列以随机顺序显示。

例子4:DNA表达微阵列技术

DNA是脱氧核糖核苷酸,是组成人类染色体的主要材料。DNA微阵列技术通过测量当前细胞中mRNA的量,来确定细胞中的基因的表达情况。微阵列技术是生物学的一个突破,促进了对单个样本细胞的多条基因同时进行定量研究。  下面说明DNA微阵列技术如何工作。几千条基因的核苷酸序列被印在载玻片上。目标样本和参考样本被标记红色和绿色的染色,每个样本都和DNA在载玻片上杂交。通过荧光透视,每个点的RNA的红绿强度是可以测量出来的。结果是上千个从-6到6的数字,测定了目标样本相对于参考样本的基因表达等级。正值表示目标样本具有更高的表达,负值反之亦然。

一种基因表达数据集收集了一系列DNA微阵列实验的表达值,每一列代表一个实验。因此,有几千行代表了独立的基因,几十列代表了样本:在图1.3代表的特定实验中,有6830基因(行)和64样本(列),尽管显示的只有随机的100行样本。数据集以热力图形式显示,从绿(负)到红(正)。样本室来自不同病人的64个癌症肿瘤。

本例的挑战在于理解基因和样本是如何组织的。下面是一些典型的问题:

1、哪些样本是彼此最相似的,就横跨基因的表达谱而言?

2、哪些样本是彼此最相似的,就横跨样本的表达谱而言?

3、是否有某种基因在某种癌症样本的表达上是特别高或低?

我们可以把该任务视为回归问题,基因和样本是两个预测变量,表达等级是应变量。然而,把它当做无监督学习问题则更有效。例如,对于第一个问题,我们可以把样本当做二维空间的6830中的某些点(得分),二维空间是我们以某种方法聚集起来的。

谁可以阅读这本书?

本书可被广泛领域的研究人员和学生查阅,包括统计学、人工智能、工程学、金融学等等。我们希望读者至少掌握统计学的一门初级课程,包括线性回归的基本命题。

我们不打算对学习方法写一个详细的目录,但会详细说明一些最重要的技术。同样值得注意的是,我们描述一些根本的概念和注意事项,研究者可以一次判断一个好的学习方法。我们试着以一个直观的方式写此书,强调概念而不是数学的细节。

作为统计学家,我们的阐述会自然的反应我们的背景和专业领域。然而,过去的八年,我们参加了许多神经网络、数据挖掘、机器学习的会议,我们的思想被这些有趣的领域深深的影响。这些影响在我们的近期研究中很明显,在本书中也一样。

本书是如何组织的?

我们认为在研究复杂方法之前,必须了解简单的方法。因此,第二章讨论了监督学习的概述,我们在第四章和第五章讨论了回归和分类的线性方法。在第五章我们描述曲线、小波、单一预测的正则化和惩罚方法,而第六章介绍回归方法和局部回归。这些方法都是建立高维学习问题的基础。模型评价和选择是第七章的主题,包括了偏差和方差的概念,过度拟合以及选择模型的交叉验证的方法。第八章讨论了模型的推理和平均化,包括最大似然估计的概述,贝里斯推理和自举,EM算法,吉普斯抽样和装袋。一个被称为boosting的相关的过程则是第十章的重点。

在9-13,我们描述了监督学习的一系列的结构化方法,第九章和第十一章涵盖了回归问题,第12和13章重点在分类。第14章描述了无监督学习的方法。两个最新提出的方法,随机森林法和集成学习法在第15、16章讨论。第17章讨论无向图,最后在第18章讨论高维问题。在每个章节后面,我们讨论与数据挖掘应用程序有关的计算因素,包括计算规模随着观察和预测数量的变化。每一张以书目注释结束,注释里面是引用到的材料的背景参考。

我们建议一至四章首先顺序阅读。第七章最好必须阅读,因为它涵盖了所有学校方法的核心概念。记住这一点,然后书的剩余部分可以顺序阅读,也可以抽样看,取决于读者的兴趣。

该符号表示技术上的困难部分,可以在不间断的讨论中被跳过。

本书网址

本书的网址被定为在http://www-stat.stanford.edu/ElemStatLearn,有大量的资源,包括本书用到的数据集合。

致老师

我们成功的使用第一版作为两季度课程的基础,加上第二版增加的材料,甚至可以连着上3个季度。每章节结束有训练。让学生获得和主题有关的好的软件工具是非常重要的。我们使用r语言和s-plus作为课程的编程语言。


欢迎登陆我的个人主页,hello2019,查看原文:http://richardliu.cn/

你可能感兴趣的:(The Elements of Statistical Learning第一章翻译)