《ESL》介绍

文章目录

  • 学习准则
  • 章节安排
  • 阅读建议

学习准则

概念理解重于数学推导

章节安排

  • Chapter 2——统计学习概述
  • Chapter 3,4——回归,分类中的线性方法
  • Chapter 5——样条曲线,小波,单预测器的正则化

所谓样条曲线(Spline Curves)是指给定一组控制点而得到一条曲线,曲线的大致形状由这些点予以控制,一般可分为插值样条和逼近样条两种,插值样条通常用于数字化绘图或动画的设计,逼近样条一般用来构造物体的表面。

  • Chapter 6——核方法,局部回归
  • Chapter 7——模型估计和选择(误差-偏差均衡,过拟合,交叉验证)
  • Chapter 8——模型推断和平均(最大似然方法,贝叶斯估计,自主法,EM算法,吉布斯采样,bagging)

最大似然法(Maximum Likelihood,ML)也称为最大概似估计,也叫极大似然估计,是一种具有理论性的点估计法,此方法的基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。

贝叶斯估计:利用先验概率和条件似然函数推导后验概率。

Bootstrap是非参数统计中一种重要的估计统计量变异性,并可进行统计量区间估计的统计方法,也称为自助法。
其核心思想和基本步骤如下:
(1) 采用重复抽样技术从原始样本中抽取一定数量(可自己给定,一般与原始样本相同)的样本,此过程允许重复抽样。
(2) 根据抽出的样本计算待估计的统计量T。
(3) 重复上述N次(一般大于1000),得到N个统计量T。
(4) 计算上述N个统计量T的样本方差,以此估计统计量T的方差。
应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其应用范围得到进一步延伸。
具体抽样方法举例:
想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。
进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。
应用bootstrap的原因:其实,在进行分析的时候,首先要做的就是,判断随机变量的类型,然后就是判断随机变量的数据服从什么分布。什么分布至关重要,因为它直接决定能不能分析。举例:如果进行方差分析,首先就要求正态分布,如果不是正态分布,就要有补救措施,这个补救措施就是bootstrap。bootstrap还有一个用处,因为经典统计学对集中趋势比较完善,但是对其他一些分布参数,例如中位数,四分位数,标准差,变异系数等的区间估计不完善,所以就需要bootstrap,这种方法。bootstrap和经典统计学方法类似,一般情况参数法效率高于非参数法,但是,参数法最大的弊端就是需要事先有一个分布模型,如果模型不符合,分析结果可能错误,也就是白分析。

  • Chapter 9-13——监督学习的一系列结构化方法:回归问题(9-11,加性模型,树,提升方法,加性树,神经网络),分类问题(12-13,支持向量机,原型方法,最近邻)
  • Chapter 14——无监督学习
  • Chapter 15-18——第二版新增的内容,随机森林,强化学习,无向图,高维问题

阅读建议

  • 先阅读完第1-4,7章
  • 剩余内容可抽样读,按序读

你可能感兴趣的:(《ESL》)