西瓜书第一二章随记

西瓜书笔记

第一章

计算机系统中,“经验”以“数据”形式存在,所以机器学习的主要内容就是关于在计算机上从数据中产生“模型”的算法。根据训练数据是否具有标记信息,分为监督学习和无监督学习,分别包含分类,回归和聚类。学习过程可以看作一个在所有假设组成的空间中进行搜索的过程。在学习过程中对某中类型假设的偏好,称为“归纳偏好”。归纳偏好——选择时的价值观。其中,奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个。????什么是简单的定义………对于任意的两个学习算法,误差的期望值相同《没有免费的午餐》,所以要具体问题具体分析。

                         第二章

分类错误的样本数占样本总数的比例,错误率。1-错误率=精度

学习器的预测输出与样本的真实输出之间的差异叫做误差。训练集上的误差,训练误差。新样本上的误差,泛化误差。过拟合,学习太强大。欠拟合,学习低下。过拟合,无法避免,只能消除。

理想方案是泛化误差最小的模型,但无法直接获得泛化误差,而训练误差又由于过拟合现象的存在而不适合作为标准,因此现实中需要模型评估与选择。

测试集上的测试误差近似泛化误差。

对于一个数据集既要训练,又要测试,因此要对数据集D进行适当的处理。1.留出法:将D划分为两个互斥的集合。2.交叉验证法:将数据集划分为K个大小相似的互斥子集。3.自助法  

模型评估所用的数据集称为验证集。

衡量模型泛化能力的评价标准,性能度量。

错误率和精度,查准率查全率和F1,ROC(受试者工作特征)和AUC(ROC曲线下面的面积),代价敏感错误率和代价曲线

假设检验,交叉验证t检验,McNemar检验,Friedman检验和Nemenyi检验

偏差与方差

你可能感兴趣的:(机器学习,聚类,算法)