人邮异步社区

程序员应该掌握的经典算法面试题

不忘初心，方得始终。何谓“初心”？初心便是在深度学习、人工智能呼风唤雨的时代，对数据和结论之间那条朴素之路的永恒探寻，是集前人之大智，真诚质朴求法向道的心中夙愿。

没有最好的分类器，只有最合适的分类器。随着神经网络模型日趋火热，深度学习大有一统江湖之势，传统机器学习算法似乎已经彻底被深度学习的光环所笼罩。然而，深度学习是数据驱动的，失去了数据，再精密的深度网络结构也是画饼充饥，无的放矢。在很多实际问题中，我们很难得到海量且带有精确标注的数据，这时深度学习也就没有大显身手的余地，反而许多传统方法可以灵活巧妙地进行处理。

本章将介绍有监督学习中的几种经典分类算法，从数学原理到实例分析，再到扩展应用，深入浅出地为读者解读分类问题历史长河中的胜败兴衰。掌握机器学习的基本模型，不仅是学好深度学习、成为优秀数据工程师的基础，更可以将很多数学模型、统计理论学以致用，探寻人工智能时代数据海洋中的规律与本源。

01　支持向量机

场景描述

支持向量机（Support Vector Machine，SVM）是众多监督学习方法中十分出色的一种，几乎所有讲述经典机器学习方法的教材都会介绍。关于SVM，流传着一个关于天使与魔鬼的故事。

传说魔鬼和天使玩了一个游戏，魔鬼在桌上放了两种颜色的球，如图3.1所示。魔鬼让天使用一根木棍将它们分开。这对天使来说，似乎太容易了。天使不假思索地一摆，便完成了任务，如图3.2所示。魔鬼又加入了更多的球。随着球的增多，似乎有的球不能再被原来的木棍正确分开，如图3.3所示。

图3.1　分球问题1

图3.2　分球问题1的简单解

图3.3　分球问题2

SVM实际上是在为天使找到木棒的最佳放置位置，使得两边的球都离分隔它们的木棒足够远，如图3.4所示。依照SVM为天使选择的木棒位置，魔鬼即使按刚才的方式继续加入新球，木棒也能很好地将两类不同的球分开，如图3.5所示。

图3.4　分球问题1的优化解

图3.5　分球问题1的优化解面对分球问题2

看到天使已经很好地解决了用木棒线性分球的问题，魔鬼又给了天使一个新的挑战，如图3.6所示。按照这种球的摆法，世界上貌似没有一根木棒可以将它们完美分开。但天使毕竟有法力，他一拍桌子，便让这些球飞到了空中，然后凭借念力抓起一张纸片，插在了两类球的中间，如图3.7所示。从魔鬼的角度看这些球，则像是被一条曲线完美的切开了，如图3.8所示。

图3.6　分球问题3

图3.7　高维空间中分球问题3的解

图3.8　魔鬼视角下分球问题3的解

后来，“无聊”的科学家们把这些球称为“数据”，把木棍称为“分类面”，找到最大间隔的木棒位置的过程称为“优化”，拍桌子让球飞到空中的念力叫“核映射”，在空中分隔球的纸片称为“分类超平面”。这便是SVM的童话故事。

在现实世界的机器学习领域，SVM涵盖了各个方面的知识，也是面试题目中常见的基础模型。本节的第1个问题考察SVM模型推导的基础知识；第2题～第4题则会侧重对核函数（Kernel Function）的理解。

知识点

SVM模型推导，核函数，SMO（Sequential Minimal Optimization）算法

问题1　在空间上线性可分的两类点，分别向SVM分类的超平面上做投影，这些点在超平面上的投影仍然是线性可分的吗？

难度：★★★☆☆

分析与解答

首先明确下题目中的概念，线性可分的两类点，即通过一个超平面可以将两类点完全分开，如图3.9所示。假设绿色的超平面（对于二维空间来说，分类超平面退化为一维直线）为SVM算法计算得出的分类面，那么两类点就被完全分开。我们想探讨的是：将这两类点向绿色平面上做投影，在分类直线上得到的黄棕两类投影点是否仍然线性可分，如图3.10所示。

图3.9　支持向量机分类面

图3.10　样本点在分类面上投影

显然一眼望去，这些点在分类超平面（绿色直线）上相互间隔，并不是线性可分的。考虑一个更简单的反例，设想二维空间中只有两个样本点，每个点各属于一类的分类任务，此时SVM的分类超平面（直线）就是两个样本点连线的中垂线，两个点在分类面（直线）上的投影会落到这条直线上的同一个点，自然不是线性可分的。

但实际上，对于任意线性可分的两组点，它们在SVM分类的超平面上的投影都是线性不可分的。这听上去有些不可思议，我们不妨从二维情况进行讨论，再推广到高维空间中。

由于SVM的分类超平面仅由支持向量决定（之后会证明这一结论），我们可以考虑一个只含支持向量SVM模型场景。使用反证法来证明。假设存在一个SVM分类超平面使所有支持向量在该超平面上的投影依然线性可分，如图3.11所示。根据简单的初等几何知识不难发现，图中AB两点连线的中垂线所组成的超平面（绿色虚线）是相较于绿色实线超平面更优的解，这与之前假设绿色实线超平面为最优的解相矛盾。考虑最优解对应的绿色虚线，两组点经过投影后，并不是线性可分的。

图3.11　更优的分类超平面

我们的证明目前还有不严谨之处，即我们假设了仅有支持向量的情况，会不会在超平面的变换过程中支持向量发生了改变，原先的非支持向量和支持向量发生了转化呢？下面我们证明SVM的分类结果仅依赖于支持向量。考虑SVM推导中的KKT条件要求

（3.1）

，
（3.2）
（3.3）
（3.4）
．

（3.5）

，

（3.6）

其中，
．

（3.7）

可以看到，除支持向量外，其他系数均为0，因此SVM的分类结果与仅使用支持向量的分类结果一致，说明SVM的分类结果仅依赖于支持向量，这也是SVM拥有极高运行效率的关键之一。于是，我们证明了对于任意线性可分的两组点，它们在SVM分类的超平面上的投影都是线性不可分的。

实际上，该问题也可以通过凸优化理论中的超平面分离定理（Separating Hyperplane Theorem，SHT）更加轻巧地解决。该定理描述的是，对于不相交的两个凸集，存在一个超平面，将两个凸集分离。对于二维的情况，两个凸集间距离最短两点连线的中垂线就是一个将它们分离的超平面。

借助这个定理，我们可以先对线性可分的这两组点求各自的凸包。不难发现，SVM求得的超平面就是两个凸包上距离最短的两点连线的中垂线，也就是SHT定理二维情况中所阐释的分类超平面。根据凸包的性质容易知道，凸包上的点要么是样本点，要么处于两个样本点的连线上。因此，两个凸包间距离最短的两个点可以分为三种情况：两边的点均为样本点，如图3.12（a）所示；两边的点均在样本点的连线上，如图3.12（b）所示；一边的点为样本点，另一边的点在样本点的连线上，如图3.12（c）所示。从几何上分析即可知道，无论哪种情况两类点的投影均是线性不可分的。

图3.12　两个凸包上距离最短的两个点对应的三种情况

至此，我们从SVM直观推导和凸优化理论两个角度揭示了题目的真相。其实，在机器学习中还有很多这样看上去显而易见，细究起来却不可思议的结论。面对每一个小问题，我们都应该从数学原理出发，细致耐心地推导，对一些看似显而易见的结论抱有一颗怀疑的心，才能不断探索，不断前进，一步步攀登机器学习的高峰。

问题2　是否存在一组参数使SVM训练误差为0？

难度：★★★☆☆

分析与解答

根据SVM的原理，我们可以将SVM的预测公式可写为

，

（3.8）

（3.9）

将任意x⁽^j⁾代入式（3.9）则有

，

（3.10）

，

（3.11）
．

（3.12）

．

（3.13）

问题3　训练误差为0的SVM分类器一定存在吗？

难度：★★★★☆

虽然在问题2中我们找到了一组参数{α₁,…,α_m,b}以及γ使得SVM的训练误差为0，但这组参数不一定是满足SVM条件的一个解。在实际训练一个不加入松弛变量的SVM模型时，是否能保证得到的SVM分类器满足训练误差为0呢？

分析与解答

问题2找到了一组参数使得SVM分类器的训练误差为0。本问旨在找到一组参数满足训练误差为0，且是SVM模型的一个解。

问题4　加入松弛变量的SVM的训练误差可以为0吗？

难度：★★★☆☆

在实际应用中，如果使用SMO算法来训练一个加入松弛变量的线性SVM模型，并且惩罚因子C为任一未知常数，我们是否能得到训练误差为0的模型呢？

####分析与解答

使用SMO算法训练的线性分类器并不一定能得到训练误差为0的模型。这是由于我们的优化目标改变了，并不再是使训练误差最小。考虑带松弛变量的SVM模型优化的目标函数所包含的两项： $C\sum\limits_{i = 1}^m {{\xi _i}}$ 和 $\frac{1}{2}{\left| w \right|^2}$ ，当我们的参数C选取较小的值时，后一项（正则项）将占据优化的较大比重。这样，一个带有训练误差，但是参数较小的点将成为更优的结果。一个简单的特例是，当C取0时，w也取0即可达到优化目标，但是显然此时我们的训练误差不一定能达到0。

{逸闻趣事}

SVM理论的创始人Vladimir Vapnik和他的牛人同事

“物以类聚，人以群分”，星光闪闪的牛人也往往扎堆出现。1995年，当统计学家Vladimir Vapnik和他的同事提出SVM理论时，他所在的贝尔实验室还聚集了一大批机器学习领域大名鼎鼎的牛人们，其中就包括被誉为“人工智能领域三驾马车”中的两位——Yann LeCun和Yoshua Bengio，还有随机梯度下降法的创始人Leon Bottou。无论是在传统的机器学习领域，还是当今如火如荼的深度学习领域，这几个人的名字都如雷贯耳。而SVM创始人Vapnik的生平也带有一丝传奇色彩。

1936年，Vladimir Vapnik出生于苏联。

1958年，他在乌兹别克大学完成硕士学业。

1964年，他于莫斯科的控制科学学院获得博士学位。毕业后，他一直在校工作到1990年。在此期间，他成了该校计算机科学与研究系的系主任。

1995年，他被伦敦大学聘为计算机与统计科学专业的教授。

1991至2001年间，他工作于AT&T贝尔实验室，并和他的同事们一起提出了支持向量机理论。他们为机器学习的许多方法奠定了理论基础。

2002年，他工作于新泽西州普林斯顿的NEC实验室，同时是哥伦比亚大学的特聘教授。

2006年，他成为美国国家工程院院士。

2014年，他加入了Facebook人工智能实验室。

02　逻辑回归

场景描述

逻辑回归（Logistic Regression）可以说是机器学习领域最基础也是最常用的模型，逻辑回归的原理推导以及扩展应用几乎是算法工程师的必备技能。医生病理诊断、银行个人信用评估、邮箱分类垃圾邮件等，无不体现逻辑回归精巧而广泛的应用。本小节将从模型与原理出发，涵盖扩展与应用，一探逻辑回归的真谛。

知识点

逻辑回归，线性回归，多标签分类，Softmax

###问题1　逻辑回归相比于线性回归，有何异同？

难度：★★☆☆☆

####分析与解答

逻辑回归，乍一听名字似乎和数学中的线性回归问题异派同源，但其本质却是大相径庭。

首先，逻辑回归处理的是分类问题，线性回归处理的是回归问题，这是两者的最本质的区别。逻辑回归中，因变量取值是一个二元分布，模型学习得出的是 $E[y|x;\theta ]$ ，即给定自变量和超参数后，得到因变量的期望，并基于此期望来处理预测分类问题。而线性回归中实际上求解的是 $y' = {\theta ^{\rm{T}}}x$ ，是对我们假设的真实关系 $y = {\theta ^{\rm{T}}}x + \varepsilon$ 的一个近似，其中代表误差项，我们使用这个近似项来处理回归问题。

分类和回归是如今机器学习中两个不同的任务，而属于分类算法的逻辑回归，其命名有一定的历史原因。这个方法最早由统计学家David Cox在他1958年的论文《二元序列中的回归分析》（The regression analysis of binary sequences）中提出，当时人们对于回归与分类的定义与今天有一定区别，只是将“回归”这一名字沿用了。实际上，将逻辑回归的公式进行整理，我们可以得到 $\log \frac{p}{{1 - p}} = {\theta ^{\rm{T}}}x$ 这便引出逻辑回归与线性回归最大的区别，即逻辑回归中的因变量为离散的，而线性回归中的因变量是连续的。并且在自变量x与超参数θ确定的情况下，逻辑回归可以看作广义线性模型（Generalized Linear Models）在因变量y服从二元分布时的一个特殊情况；而使用最小二乘法求解线性回归时，我们认为因变量y服从正态分布。

当然逻辑回归和线性回归也不乏相同之处，首先我们可以认为二者都使用了极大似然估计来对训练样本进行建模。线性回归使用最小二乘法，实际上就是在自变量x与超参数θ确定，因变量y服从正态分布的假设下，使用极大似然估计的一个化简；而逻辑回归中通过对似然函数的学习，得到最佳参数θ。另外，二者在求解超参数的过程中，都可以使用梯度下降的方法，这也是监督学习中一个常见的相似之处。

###问题2　当使用逻辑回归处理多标签的分类问题时，有哪些常见做法，分别应用于哪些场景，它们之间又有怎样的关系？

难度：★★★☆☆

分析与解答

使用哪一种办法来处理多分类的问题取决于具体问题的定义。首先，如果一个样本只对应于一个标签，我们可以假设每个样本属于不同标签的概率服从于几何分布，使用多项逻辑回归（Softmax Regression）来进行分类

，（3.15）

其中为模型的参数，而可以看作是对概率的归一化。为了方便起见，我们将这k个列向量按顺序排列形成n×k维矩阵，写作θ，表示整个参数集。一般来说，多项逻辑回归具有参数冗余的特点，即将同时加减一个向量后预测结果不变。特别地，当类别数为2时，

．

（3.16）

利用参数冗余的特点，我们将所有参数减去θ₁，式（3.16）变为

，

（3.17）

其中。而整理后的式子与逻辑回归一致。因此，多项逻辑回归实际上是二分类逻辑回归在多标签分类下的一种拓展。

当存在样本可能属于多个标签的情况时，我们可以训练k个二分类的逻辑回归分类器。第i个分类器用以区分每个样本是否可以归为第i类，训练该分类器时，需要把标签重新整理为“第i类标签”与“非第i类标签”两类。通过这样的办法，我们就解决了每个样本可能拥有多个标签的情况。

03　决策树

场景描述

时间：早上八点，地点：婚介所。

“闺女，我又给你找了个合适的对象，今天要不要见一面？”

“多大？”“26岁。”

“长得帅吗？” “还可以，不算太帅。”

“工资高么？” “略高于平均水平。”

“会写代码吗？”“人家是程序员，代码写得棒着呢！”

“好，那把他联系方式发来吧，我抽空见一面。”

这便是中国特色相亲故事，故事中的女孩做决定的过程就是一个典型的决策树分类，如图3.13所示。通过年龄、长相、工资、是否会编程等属性对男生进行了两个类别的分类：见或不见。

图3.13　女孩的分类决策过程

决策树是一种自上而下，对样本数据进行树形分类的过程，由结点和有向边组成。结点分为内部结点和叶结点，其中每个内部结点表示一个特征或属性，叶结点表示类别。从顶部根结点开始，所有样本聚在一起。经过根结点的划分，样本被分到不同的子结点中。再根据子结点的特征进一步划分，直至所有样本都被归到某一个类别（即叶结点）中。

决策树作为最基础、最常见的有监督学习模型，常被用于分类问题和回归问题，在市场营销和生物医药等领域尤其受欢迎，主要因为树形结构与销售、诊断等场景下的决策过程十分相似。将决策树应用集成学习的思想可以得到随机森林、梯度提升决策树等模型，这些将在第12章中详细介绍。完全生长的决策树模型具有简单直观、解释性强的特点，值得读者认真理解，这也是为融会贯通集成学习相关内容所做的铺垫。

一般而言，决策树的生成包含了特征选择、树的构造、树的剪枝三个过程，本节将在第一个问题中对几种常用的决策树进行对比，在第二个问题中探讨决策树不同剪枝方法之间的区别与联系。

知识点

信息论，树形数据结构，优化理论

问题1　决策树有哪些常用的启发函数？

难度：★★☆☆☆

我们知道，决策树的目标是从一组样本数据中，根据不同的特征和属性，建立一棵树形的分类结构。我们既希望它能拟合训练数据，达到良好的分类效果，同时又希望控制其复杂度，使得模型具有一定的泛化能力。对于一个特定的问题，决策树的选择可能有很多种。比如，在场景描述中，如果女孩把会写代码这一属性放在根结点考虑，可能只需要很简单的一个树结构就能完成分类，如图3.14所示。

图3.14　以写代码为根节点属性的决策过程

从若干不同的决策树中选取最优的决策树是一个NP完全问题，在实际中我们通常会采用启发式学习的方法去构建一棵满足启发式条件的决策树。

常用的决策树算法有ID3、C4.5、CART，它们构建树所使用的启发式函数各是什么？除了构建准则之外，它们之间的区别与联系是什么？

分析与解答

首先，我们回顾一下这几种决策树构造时使用的准则。

■ ID3—— 最大信息增益

对于样本集合D，类别数为K，数据集D的经验熵表示为

（3.18）

其中C_k是样本集合D中属于第k类的样本子集，|C_k|表示该子集的元素个数，|D|表示样本集合的元素个数。

然后计算某个特征A对于数据集D的经验条件熵H(D|A)为

，

（3.19）

其中，D_i表示D中特征A取第i个值的样本子集，D_ik表示D_i中属于第k类的样本子集。

于是信息增益g(D,A)可以表示为二者之差，可得

．

（3.20）

这些定义听起来有点像绕口令，不妨我们用一个例子来简单说明下计算过程。假设共有5个人追求场景中的女孩，年龄有两个属性（老，年轻），长相有三个属性（帅，一般，丑），工资有三个属性（高，中等，低），会写代码有两个属性（会，不会），最终分类结果有两类（见，不见）。我们根据女孩有监督的主观意愿可以得到表3.1。

表3.1　5个候选对象的属性以及女孩对应的主观意愿

	年龄	长相	工资	写代码	类别
小A	老	帅	高	不会	不见
小B	年轻	一般	中等	会	见
小C	年轻	丑	高	不会	不见
小D	年轻	一般	高	会	见
小L	年轻	一般	低	不会	不见

在这个问题中，

，

根据式（3.19）可计算出4个分支结点的信息熵为

，

．

于是，根据式（3.20）可计算出各个特征的信息增益为

．

显然，特征“写代码”的信息增益最大，所有的样本根据此特征，可以直接被分到叶结点（即见或不见）中，完成决策树生长。当然，在实际应用中，决策树往往不能通过一个特征就完成构建，需要在经验熵非0的类别中继续生长。

■ C4.5——最大信息增益比

特征A对于数据集D的信息增益比定义为

，

（3.21）

其中
，

（3.22）

称为数据集D关于A的取值熵。针对上述问题，我们可以根据式（3.22）求出数据集关于每个特征的取值熵为
，
，

，

于是，根据式（3.21）可计算出各个特征的信息增益比为

信息增益比最大的仍是特征“写代码”，但通过信息增益比，特征“年龄”对应的指标上升了，而特征“长相”和特征“工资”却有所下降。

■ CART——最大基尼指数（Gini）

Gini描述的是数据的纯度，与信息熵含义类似。

（3.23）

CART在每一次迭代中选择基尼指数最小的特征及其对应的切分点进行分类。但与ID3、C4.5不同的是，CART是一颗二叉树，采用二元切割法，每一步将数据按特征A的取值切成两份，分别进入左右子树。特征A的Gini指数定义为

（3.24）

还是考虑上述的例子，应用CART分类准则，根据式（3.24）可计算出各个特征的Gini指数为

Gini(D|年龄=老)=0.4， Gini(D|年龄=年轻)=0.4，

Gini(D|长相=帅)=0.4， Gini(D|长相=丑)=0.4，

Gini(D|写代码=会)=0， Gini(D|写代码=不会)=0，

Gini(D|工资=高)=0.47， Gini(D|工资=中等)=0.3，

Gini(D|工资=低)=0.4．

在“年龄”“长相”“工资”“写代码”四个特征中，我们可以很快地发现特征“写代码”的Gini指数最小为0，因此选择特征“写代码”作为最优特征，“写代码=会”为最优切分点。按照这种切分，从根结点会直接产生两个叶结点，基尼指数降为0，完成决策树生长。

通过对比三种决策树的构造准则，以及在同一例子上的不同表现，我们不难总结三者之间的差异。

首先，ID3是采用信息增益作为评价标准，除了“会写代码”这一逆天特征外，会倾向于取值较多的特征。因为，信息增益反映的是给定条件以后不确定性减少的程度，特征取值越多就意味着确定性更高，也就是条件熵越小，信息增益越大。这在实际应用中是一个缺陷。比如，我们引入特征“DNA”，每个人的DNA都不同，如果ID3按照“DNA”特征进行划分一定是最优的（条件熵为0），但这种分类的泛化能力是非常弱的。因此，C4.5实际上是对ID3进行优化，通过引入信息增益比，一定程度上对取值比较多的特征进行惩罚，避免ID3出现过拟合的特性，提升决策树的泛化能力。

其次，从样本类型的角度，ID3只能处理离散型变量，而C4.5和CART都可以处理连续型变量。C4.5处理连续型变量时，通过对数据排序之后找到类别不同的分割线作为切分点，根据切分点把连续属性转换为布尔型，从而将连续型变量转换多个取值区间的离散型变量。而对于CART，由于其构建时每次都会对特征进行二值划分，因此可以很好地适用于连续性变量。

从应用角度，ID3和C4.5只能用于分类任务，而CART（Classification and Regression Tree，分类回归树）从名字就可以看出其不仅可以用于分类，也可以应用于回归任务（回归树使用最小平方误差准则）。

此外，从实现细节、优化过程等角度，这三种决策树还有一些不同。比如，ID3对样本特征缺失值比较敏感，而C4.5和CART可以对缺失值进行不同方式的处理；ID3和C4.5可以在每个结点上产生出多叉分支，且每个特征在层级之间不会复用，而CART每个结点只会产生两个分支，因此最后会形成一颗二叉树，且每个特征可以被重复使用；ID3和C4.5通过剪枝来权衡树的准确性与泛化能力，而CART直接利用全部数据发现所有可能的树结构进行对比。

至此，我们从构造、应用、实现等角度对比了ID3、C4.5、CART这三种经典的决策树模型。这些区别与联系总结起来容易，但在实际应用中还需要读者慢慢体会，针对不同场景灵活变通。

问题2　如何对决策树进行剪枝？

难度：★★★☆☆

一棵完全生长的决策树会面临一个很严重的问题，即过拟合。假设我们真的需要考虑DNA特征，由于每个人的DNA都不同，完全生长的决策树所对应的每个叶结点中只会包含一个样本，这就导致决策树是过拟合的。用它进行预测时，在测试集上的效果将会很差。因此我们需要对决策树进行剪枝，剪掉一些枝叶，提升模型的泛化能力。

决策树的剪枝通常有两种方法，预剪枝（Pre-Pruning）和后剪枝（Post-Pruning）。那么这两种方法是如何进行的呢？它们又各有什么优缺点？

分析与解答

预剪枝，即在生成决策树的过程中提前停止树的增长。而后剪枝，是在已生成的过拟合决策树上进行剪枝，得到简化版的剪枝决策树。

■ 预剪枝

预剪枝的核心思想是在树中结点进行扩展之前，先计算当前的划分是否能带来模型泛化能力的提升，如果不能，则不再继续生长子树。此时可能存在不同类别的样本同时存于结点中，按照多数投票的原则判断该结点所属类别。预剪枝对于何时停止决策树的生长有以下几种方法。

（1）当树到达一定深度的时候，停止树的生长。

（2）当到达当前结点的样本数量小于某个阈值的时候，停止树的生长。

（3）计算每次分裂对测试集的准确度提升，当小于某个阈值的时候，不再继续扩展。

预剪枝具有思想直接、算法简单、效率高等特点，适合解决大规模问题。但如何准确地估计何时停止树的生长（即上述方法中的深度或阈值），针对不同问题会有很大差别，需要一定经验判断。且预剪枝存在一定局限性，有欠拟合的风险，虽然当前的划分会导致测试集准确率降低，但在之后的划分中，准确率可能会有显著上升。

■ 后剪枝

后剪枝的核心思想是让算法生成一棵完全生长的决策树，然后从最底层向上计算是否剪枝。剪枝过程将子树删除，用一个叶子结点替代，该结点的类别同样按照多数投票的原则进行判断。同样地，后剪枝也可以通过在测试集上的准确率进行判断，如果剪枝过后准确率有所提升，则进行剪枝。相比于预剪枝，后剪枝方法通常可以得到泛化能力更强的决策树，但时间开销会更大。

常见的后剪枝方法包括错误率降低剪枝（Reduced Error Pruning，REP）、悲观剪枝（Pessimistic Error Pruning，PEP）、代价复杂度剪枝（Cost Complexity Pruning，CCP）、最小误差剪枝（Minimum Error Pruning，MEP）、CVP（Critical Value Pruning）、OPP（Optimal Pruning）等方法，这些剪枝方法各有利弊，关注不同的优化角度，本文选取著名的CART剪枝方法CCP进行介绍。

代价复杂剪枝主要包含以下两个步骤。

（1）从完整决策树T₀开始，生成一个子树序列{T₀,T₁,T₂,…,T_n}，其中T_i₊₁由T_i生成，T_n为树的根结点。

（2）在子树序列中，根据真实误差选择最佳的决策树。

步骤（1）从T₀开始，裁剪T_i中关于训练数据集合误差增加最小的分支以得到T_i₊₁。具体地，当一棵树T在结点t处剪枝时，它的误差增加可以用R(t)−R(T_t)表示，其中R(t)表示进行剪枝之后的该结点误差，R(T_t)表示未进行剪枝时子树T_t的误差。考虑到树的复杂性因素，我们用|L(T_t)|表示子树T_t的叶子结点个数，则树在结点t处剪枝后的误差增加率为

．

（3.25）

在得到T_i后，我们每步选择α最小的结点进行相应剪枝。

用一个例子简单地介绍生成子树序列的方法。假设把场景中的问题进行一定扩展，女孩需要对80个人进行见或不见的分类。假设根据某种规则，已经得到了一棵CART决策树T₀，如图3.15所示。

此时共5个内部结点可供考虑，其中

{-:-}，

，

，
，

．

可见α（t₃）最小，因此对t₃进行剪枝，得到新的子树T₁，如图3.16所示。

图3.15　初始决策树T₀

图3.16　对初始决策树T₀的t₃结点剪枝得到新的子树T₁

而后继续计算所有结点对应的误差增加率，分别为α(t₁)=3，α(t₂)=3，α(t₄)=4。因此对t₁进行剪枝，得到T₂，如图3.17所示。此时α(t₀)=6.5，α(t₂)=3，选择t₂进行剪枝，得到T₃。于是只剩下一个内部结点，即根结点，得到T₄。

在步骤（2）中，我们需要从子树序列中选出真实误差最小的决策树。CCP给出了两种常用的方法：一种是基于独立剪枝数据集，该方法与REP类似，但由于其只能从子树序列{T₀,T₁,T₂,…,T_n}中选择最佳决策树，而非像REP能在所有可能的子树中寻找最优解，因此性能上会有一定不足。另一种是基于k折交叉验证，将数据集分成k份，前k−1份用于生成决策树，最后一份用于选择最优的剪枝树。重复进行N次，再从这N个子树中选择最优的子树。

图3.17　对T₁中t₁结点剪枝得到新的子树T₂

代价复杂度剪枝使用交叉验证策略时，不需要测试数据集，精度与REP差不多，但形成的树复杂度小。而从算法复杂度角度，由于生成子树序列的时间复杂度与原始决策树的非叶结点个数呈二次关系，导致算法相比REP、PEP、MEP等线性复杂度的后剪枝方法，运行时间开销更大。

剪枝过程在决策树模型中占据着极其重要的地位。有很多研究表明，剪枝比树的生成过程更为关键。对于不同划分标准生成的过拟合决策树，在经过剪枝之后都能保留最重要的属性划分，因此最终的性能差距并不大。理解剪枝方法的理论，在实际应用中根据不同的数据类型、规模，决定使用何种决策树以及对应的剪枝策略，灵活变通，找到最优选择，是本节想要传达给读者的思想。

{逸闻趣事}

奥卡姆剃刀定律（Occam’s Razor，Ockham’s Razor）

14世纪，逻辑学家、圣方济各会修士奥卡姆威廉（William of Occam）提出奥卡姆剃刀定律。这个原理最简单的描述是“如无必要，勿增实体”，即“简单有效原理”。

很多人误解了奥卡姆剃刀定律，认为简单就一定有效，但奥卡姆剃刀定律从来没有说“简单”的理论就是“正确”的理论，通常表述为“当两个假说具有完全相同的解释力和预测力时，我们以那个较为简单的假说作为讨论依据”。

奥卡姆剃刀的思想其实与机器学习消除过拟合的思想是一致的。特别是在决策树剪枝的过程中，我们正是希望在预测力不减的同时，用一个简单的模型去替代原来复杂的模型。而在ID3决策树算法提出的过程中，模型的创建者Ross Quinlan也确实参照了奥卡姆剃刀的思想。类似的思想还同样存在于神经网络的Dropout的方法中，我们降低模型复杂度，为的是提高模型的泛化能力。

严格讲，奥卡姆剃刀定律不是一个定理，而是一种思考问题的方式。我们面对任何工作的时候，如果有一个简单的方法和一个复杂的方法能够达到同样的效果，我们应该选择简单的那个。因为简单的选择是巧合的几率更小，更有可能反应事物的内在规律。

本文摘自《百面机器学习算法工程师带你去面试》

作者：葫芦娃

人工智能时代不可不读机器学习面试宝典
全面收录100+真实算法面试题
互联网头部企业都在用
直通人工智能领域

不可不读的机器学习面试宝典！微软全球执行副总裁、美国工程院院士沈向洋，《浪潮之巅》《数学之美》作者吴军，《计算广告》作者、科大讯飞副总裁刘鹏，联袂推荐！

人工智能几起几落，最近这次人工智能浪潮起始于近10年，技术的飞跃发展，带来了应用的可能性。未来的几年，是人工智能技术全面普及化的时期，也是算法工程师稀缺的时期。

你可能感兴趣的:(图书)

[开题报告]Springboot高校图书管理系统设计与实现lq627计算机毕业设计卓越计算机毕设课程设计
本项目包含程序+源码+数据库+LW+调试部署环境，文末可获取一份本项目的java源码和数据库参考。开题报告研究背景：随着高校图书馆的规模不断扩大和信息化程度的提高，传统的手工管理方式已经无法满足日益增长的图书馆资源管理需求。图书管理系统的设计与实现成为了解决这一问题的关键。通过引入计算机技术和信息管理系统，可以提高图书馆的管理效率和服务质量，为读者提供更便捷、高效的借阅体验。研究意义：图书管理系统
【45】指针：数据搬运的“导航员”——大小端与数据转换智木芯语【编程技巧】单片机嵌入式硬件 #STC8 #STM32 嵌入式
【45】指针：数据搬运的“导航员”——大小端与数据转换一、指针：数据搬运的“导航员”想象你是一个快递员，需要把一箱书从图书馆搬到教室。传统方法：每次搬一本书，走一趟送一趟，效率很低。指针的作用：就像你拿到一个“导航地图”，直接告诉快递员：“去图书馆的X号书架，搬3本书到教室！”指针=地址导航：它记录数据的位置（比如“图书馆X号书架”），而不是数据本身。批量操作：通过指针，可以一次性操作一整堆数据，
B+树深入解析：为什么数据库索引都爱用这个结构？程序猿小白菜数据库后端java生态圈数据库数据结构 B+树
一、从图书馆索引理解B+树想象一个超大型图书馆存放着500万册图书，管理员需要设计一个高效的检索系统。传统目录柜（类似二叉树）的问题：目录卡片过多导致柜子太高，查找时需要频繁上下梯子（磁盘IO）热门书籍的目录卡片被翻烂（节点频繁修改）找某个范围的书籍（如TP311.1到TP311.9）需要反复开柜门B+树就是为这类场景设计的完美解决方案，它像一本智能目录：目录本很厚但每页记录很多条目（多路平衡）所
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
mysql数据库应用与开发姜桂洪课后答案_清华大学出版社-图书详情-《MySQL数据库应用与开发》... 韦盛江课后答案
前言Oracle公司的MySQL是目前最流行的关系数据库管理系统之一。MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。MySQL数据库以其精巧灵活、运行速度快、经济适用性强、开放源码等优势，作为网站数据库获得许多中小型网站的开发公司的青睐。MySQL性能卓越，搭配PHP和Apache可组成良好的软件开发环境，并且已经大量部署到中小型企业和高校的教学平台。本书从教学实际需求出发，结合
数据分析面临的三大挑战该如何解决銨靜菂等芐紶数据挖掘大数据数据分析
转载自品略图书馆http://www.pinlue.com/article/2020/09/0712/2611202048648.html有效的分析已成为决定性因素，很明显，掌握它的人会蓬勃发展。但是，实现这一目标的过程并非没有障碍。最常见的数据分析挑战是什么？公司如何自信地应对它们？下面就来介绍一下。1、浏览预算限制数据分析领导者需要在当下采取行动，但同时也需要考虑未来。平衡这些需求要求他们在制
巨人学术搜索官网入口，免费参考文献论文及学术搜索引擎黄豆匿zlib 学习方法
巨人学术搜索自2024年上线以来，迅速成为学术界不可或缺的重要工具，尤其受到研究人员、教师及学生的青睐。这款专注于学术领域的专业搜索引擎，覆盖了自然科学、人文科学、社会科学等多个学科领域，整合了国内外众多主流数据库，包括维普、万方、Elsevier、WebofScience等，为用户提供了期刊论文、学位论文、专利、图书、预印本等多种类型资源的精准检索服务。与普通搜索引擎相比，巨人学术搜索的优势在于
大众文艺杂志社大众文艺杂志大众文艺编辑部2025年第3期目录 QQ296078736 人工智能
公共文化服务研究提高基层群众音乐鉴赏水平的策略研究罗婉琳;1-3文艺评论《增广贤文》：深入剖析其中的人学智慧姚志清;4-6当代战争视阈下近20年军旅戏剧军事文化观的嬗变研究（2000～2023年）邱远望;7-9从奥威尔的《射象》看分裂的自我与身份认同何玉蔚;10-12南宋都市笔记中的临安园林及其美学意义张凯歌;13-15文博与数字化研究数字时代与媒介史视域下的多模态图书馆系统及新质书香社会建设鹿钦
小蓝的图书馆琴声码语算法蓝桥杯 c++哈希表 unordered_map
问题描述小蓝是一个热爱阅读的年轻人，他有一个小型图书馆。为了能够管理他的书籍库存，他需要一个程序来记录图书的信息并执行两种操作：添加图书add和查找作者find。初始小蓝没有书，给出n个操作。add操作给出两个字符串bookname,author，表示添加的图书图书名和作者；find操作给出一个字符串author，你需要输出小蓝的图书馆里这个author有多少本图书。输入格式第一行一个整数n，表示
深入解析BM25：LangChain中的高效检索算法 AI Agent首席体验官 langchain 算法
1.BM25算法BM25是信息检索领域中一个重要的排序算法，它用来计算查询与文档之间的相关性。让我们通过一个图书馆的例子来理解：想象你是一个图书馆管理员，有人来问你：“我想找关于太空探索和火星的书”。传统TF-IDF方法：就像你先数一数每本书中"太空探索"和"火星"这些词出现的次数，然后优先推荐这些词出现最多的书。但这有个问题：如果一本1000页的书和一本100页的书都提到"火星"10次，按理说短
从经典到现代：BM25在LangChain中的应用与优势 AI Agent首席体验官 langchain
1.BM25算法BM25是信息检索领域中一个重要的排序算法，它用来计算查询与文档之间的相关性。让我们通过一个图书馆的例子来理解：想象你是一个图书馆管理员，有人来问你：“我想找关于太空探索和火星的书”。传统TF-IDF方法：就像你先数一数每本书中"太空探索"和"火星"这些词出现的次数，然后优先推荐这些词出现最多的书。但这有个问题：如果一本1000页的书和一本100页的书都提到"火星"10次，按理说短
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
python+MySQL+HTML实现自习室座位管理系统 IT小本本 python python mysql html
自习室座位管理系统项目介绍自习室座位管理系统是一个基于PythonFlask框架开发的Web应用，旨在提供高效、便捷的自习室座位预约和管理功能。该系统适用于学校图书馆、自习室等场所，帮助管理员有效管理座位资源，同时为学生提供便捷的座位预约服务。功能特点1、用户认证模块用户注册：学生可以注册账号，填写个人信息用户登录：支持学生和管理员登录找回密码：通过邮箱验证重置密码2、座位管理模块座位预约：学生可
如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践网罗开发实战实战源码 devops 运维
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
【Python】已解决：pip安装第三方模块（库）与PyCharm中不同步的问题（PyCharm添加本地python解释器）屿小夏 python pip pycharm
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
Java中DDD概念之四理解仓储模式：领域与数据层的优雅桥梁以恒1 java 开发语言
Java，DDD概念之四理解仓储模式：领域与数据层的优雅桥梁一、仓储模式是什么？仓储（Repository）就像一个智能的业务数据管家。想象你经营一家图书馆，书籍的存放、检索、上架工作交给专业管理员，你只需告诉管理员：“我需要2023年出版的所有编程书籍”。仓储就是这样的管理员，把繁琐的数据操作封装起来，让业务代码专注处理核心逻辑。二、为什么需要仓储模式？1.传统开发的问题假设有一个用户管理系统：
HTML5前端页面设计,HTML5网页前端设计设计师马丁 HTML5前端页面设计
HTML5网页前端设计编辑锁定讨论上传视频《HTML5网页前端设计》是2017年6月清华大学出版社出版的图书，作者是周文洁。书名HTML5网页前端设计作者周文洁ISBN9787302463597定价59.50元出版社清华大学出版社出版时间2017年6月HTML5网页前端设计内容简介编辑本书是一本从零开始学习的Web前端开发教材，无须额外的基础。全书以项目驱动为宗旨，详细介绍了HTML5、CSS3与
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
Python爬虫实战：抓取电子图书平台图书信息与下载数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言网络爬虫信息可视化
前言电子图书平台汇集了海量的图书资源和丰富的信息，抓取这些数据可用于研究图书销售趋势、阅读偏好分析，甚至为书籍推荐系统提供数据支持。本文将详细介绍如何使用Python爬虫技术抓取电子图书平台的图书信息和下载数据。我们会涵盖从需求分析到代码实现的完整流程，探讨如何应对复杂的反爬机制，并使用最新的技术工具优化抓取过程。目录前言一、需求分析与目标1.1抓取目标1.2难点与挑战二、技术选型与工具2.1使用
自然语言处理：文本聚类老赵爱学习 python 文本聚类 k均值聚类算法高斯混合模型的最大期望值算法无监督朴素贝叶斯模型自然语言处理人工智能
介绍大家好，博主又来和大家分享自然语言处理领域的知识了。今天给大家分享的内容是自然语言处理中的文本聚类。文本聚类在自然语言处理领域占据着重要地位，它能将大量无序的文本按照内容的相似性自动划分成不同的类别，极大地提高了文本处理和信息提取的效率。就好比在一个大型图书馆中，文本聚类能够像智能管理员一样，把各种书籍按照主题分类摆放，方便读者快速找到所需资料。而实现文本聚类的方法有很多，其中k均值聚类算法、
「基于大模型的智能客服系统」语义理解、上下文记忆与反馈机制设计网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Vue.js-Vue实例
推荐阅读原文学习笔记：Vue实例Vue实例组件间通信SeethePen组件间通信bywhjin(@whjin)onCodePen.用户信息表SeethePenzjagOybywhjin(@whjin)onCodePen.图书电商数据SeethePen图书电商数据bywhjin(@whjin)onCodePen.渲染微信精选数据SeethePen渲染微信精选数据bywhjin(@whjin)onCo
如何利用PubMed作为信息检索器 — 结合LangChain实现高效文献查询 bhawfgrcbtwny langchain python
如何利用PubMed作为信息检索器—结合LangChain实现高效文献查询引言PubMed是由美国国家生物技术信息中心（NCBI）和国家医学图书馆（NLM）维护的一个涵盖超过3500万篇生物医学文献的数据库。对于研究人员和开发者而言，如何高效地从如此庞大的数据库中提取有用的信息是一项挑战。在本文中，我们将探讨如何使用LangChain库中的PubMedRetriever类，从PubMed查询并返回
长文本生成的“中间迷途”：当AI在信息洪流中迷失与觉醒步子哥 AGI通用人工智能人工智能
长文本生成的困境：当AI在信息洪流中迷失在人工智能领域，大型语言模型（LLM）如同拥有无限记忆的超级读者，能轻松消化整座图书馆的藏书。但当被要求撰写万字论文时，这些"博学者"往往只能产出不足两千字的短文——这就像让美食家品尝满汉全席后，只能复述前菜和甜点的味道。更令人困扰的是，当输入文本超过8000词时，模型会像在图书馆迷路的读者，对"中间书架"的内容视而不见，这种现象被形象地称为"中间丢失"（L
【力扣hot100】刷题笔记Day13 小涛44 力扣hot100刷题笔记 leetcode 笔记算法职场和发展数据结构 python
前言元宵节快乐~周六在图书馆快乐刷题！继续二叉树543.二叉树的直径-力扣（LeetCode）递归后序classSolution:defdiameterOfBinaryTree(self,root:Optional[TreeNode])->int:self.res=0#记录最长路径#递归求最大深度defdepth(node):ifnotnode:return0l=depth(node.left)#
JAVA PTA 7-2 声明图书类，记录图书总册数，利用静态变量赋值。分数 10 作者强彦单位太原理工大学 pta pass java 开发语言
声明一个图书类，其数据成员为书名、编号（利用静态变量实现自动编号）、书价，并拥有静态数据成员册数，记录图书的总册数；在构造方法中，利用静态变量为对象的编号赋值，在主方法中定义对象数组，并求出总册数。输出格式:请输出每本图书对应的书名，书号，书价以及总图书数。输出样例:书名：Java程序设计,书号：1,书价：34.5书名：数据结构,书号：2,书价：44.8书名：C++程序设计,书号：3,书价：35.
简易的图书管理系统（末尾链接报告自取）艾米莉亚小汉堡
图书信息管理系统设计一、问题描述图书信息包括：书号、书名、作者名、分类号、出版单位、出版时间、价格等。二、功能描述试设计一图书信息管理系统，使之能提供以下功能：1、系统以菜单方式工作2、图书信息录入功能(图书信息用文件保存),可不定时地增加图书信息,书号不允许重复；3、图书信息浏览功能4、图书信息查询功能查询方式(1)按书名查询(2)按作者名查询5、图书信息的删除输入书号，查询该图书，如果存在，则
新的一年，新的感受和成长是小天才哦 #高职生闲谈服务器
本人现在是工作快2年的打工人，我是前年7月份毕业的大专生。其实我在大学刚开始的时候因为体验过社会的毒打，所以发誓一定要好好学习，而我也的确好好学习了，在学校2年时间里，大部分时间都是在图书馆里面看书，主要为啥天天在图书馆很大原因是本专业的课程自己不是非常喜欢（我是人工智能专业，人工智能专业大专学历出来基本也是打框的无聊活）所以我就自己学习了系统运维方向，这个过程也考取了RHCE认证，也是因为这个认
「MySQL 数据库优化」降低存储与查询成本的最佳实践网罗开发 python集终端集数据库 mysql
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
元数据存储与网络日志详解（小白版）漠月瑾-西安数据分析网络安全
元数据存储与网络日志详解（小白版）一、元数据存储：网络的「快递单管理系统」1.1核心概念元数据是描述数据特征的==‌结构化标签‌==，类似于：快递单（记录包裹重量、发件人，但‌‌不含包裹内的物品‌‌）‌照片属性（拍摄时间、GPS坐标*，但‌‌不含图像内容‌‌）‌图书馆索引卡（书名、ISBN号，但‌‌不含书中文字‌‌）‌*注：GPS坐标等元数据可能涉及位置隐私，需谨慎授权‌1.2工作原理系统通过协议
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

程序员应该掌握的经典算法面试题

01 支持向量机

场景描述

知识点

问题1 在空间上线性可分的两类点，分别向SVM分类的超平面上做投影，这些点在超平面上的投影仍然是线性可分的吗？

分析与解答

问题2 是否存在一组参数使SVM训练误差为0？

分析与解答

问题3 训练误差为0的SVM分类器一定存在吗？

分析与解答

问题4 加入松弛变量的SVM的训练误差可以为0吗？

02 逻辑回归

场景描述

知识点

分析与解答

03 决策树

场景描述

知识点

问题1 决策树有哪些常用的启发函数？

分析与解答

问题2 如何对决策树进行剪枝？

分析与解答

你可能感兴趣的:(图书)

01　支持向量机

问题1　在空间上线性可分的两类点，分别向SVM分类的超平面上做投影，这些点在超平面上的投影仍然是线性可分的吗？

问题2　是否存在一组参数使SVM训练误差为0？

问题3　训练误差为0的SVM分类器一定存在吗？

问题4　加入松弛变量的SVM的训练误差可以为0吗？

02　逻辑回归

03　决策树

问题1　决策树有哪些常用的启发函数？

问题2　如何对决策树进行剪枝？