北大博士后AI卢菁

《速通机器学习》- 经典分类模型

（由于平台稿件格式问题，公式格式不能正确写上；如若读写困难可后台私信我要完整电子版）

5.1　支持向量机

5.1.1　支持向量机的基本原理

通过前面的学习我们知道，逻辑回归其实就是在平面上通过画直线进行二分类，其学习过程就是通过梯度下降法在训练数据中寻找分类线。当训练数据线性可分时，能够正确进行分类的分类线有无数条，不同的分类线对应于不同的 w 和 w_0 及不同的 Loss，如图5-1所示。

图5-1

在图5-1中，直线 L_1 和 L_2 都可以把训练数据完美地分成两类，但哪条更好呢？Loss 最小的直线一定是最好的吗？我们可以从几何的角度审视这个问题。直线 L_2 与一些数据点的距离相对较近，如果测试集中的数据点发生轻微的移动（特征轻微变化），那么测试数据将跑到直线的另一侧，如图5-2所示。

图5-2

这种直线虽然能够在训练样本中实现正确分类，但在实际应用中面对大量没有见过而与训练样本有偏差的数据时，其准确性就会打折扣（其实这就是过拟合）。相对来说，数据点离直线 L_1 较远，即使发生了轻微的移动，也不会跑到直线的另一侧（导致分类结果改变），因此，直线 L_1 的泛化能力相对较强。

综上所述，在这两条直线中 L_1 更好，因为它离边界数据点更远。

在数据线性可分的情况下，我们把以上分析细化一下。数据点可以分为两种类型，即边界点和内部点。边界点是指一个类别中距离分类线最近的点，每个类别可以有不止一个边界点。除了边界点，其他的数据点都是内部点，如图5-3所示。

图5-3

因为内部点远离直线，所以，它们即使发生了轻微移动，也不会来到直线的另一侧。但是，因为边界点靠近分类线，所以它们的随机移动很容易跨越直线，被分类器判断为另一类别。因此，分类器在边界点附近的稳定性差，即泛化能力弱。

如何提高分类线的稳定性呢？可以增大边界点到分类线的距离——距离越远，边界点随机移动至直线另一侧的概率就越小。

为了方便，我们以输入数据为2维的情况为例进行分析，所有结论均可推广至高维空间。首先看一下点到分类线的距离公式。因为分类线有无数条平行线，所以，可以把分类线放在两个类别的边界点的中间位置，即

distance_N类=distance_P类

已知分类线的方程为 w_1 x_1+w_2 x_2+w_0=0，那么P类的边界点〖[x_1,x_2]〗^T 到直线的距离为

distance_P类=distance_N类=|w_1 x_1+w_2 x_2+w_0 |/√(w_1^2+w_2^2 )

在讲解逻辑回归时提到过，对同一条直线，可以在系数上进行放缩，即

w_1 x_1+w_2 x_2+w_0=0

α_P类 (w_1 x_1+w_2 x_2+w_0 )=0,〖 α〗_P类≠0

以上两个方程对应的是同一条直线。对直线进行系数缩放不会改变直线本身，因此，点到直线的距离也不会改变。因为我们总能找到一个合适的缩放方法，使得边界点满足 |w_1 x_1+w_2 x_2+w_0 |=1，所以，P类的边界点到分类线的距离变为

distance_P类=|w_1 x_1+w_2 x_2+w_0 |/√(w_1^2+w_2^2 )=1/√(w_1^2+w_2^2 )

P类的内部点满足 w_1 x_1+w_2 x_2+w_0>1。

同理，N类的边界点到分类线的距离为

distance_N类=1/√(w_1^2+w_2^2 )

N类的内部点满足 w_1 x_1+w_2 x_2+w_0<-1。

我们的优化目标是在保证分类正确的前提下使边界点远离分类线，从而提高泛化能力，即找到一个合适的 w 使下式的值最大。

〖distance=distance〗_P类+distance_N类=2/√(w_1^2+w_2^2 )

distance 也称作margin，是指两类边界点中间的空白部分。

现在，我们的优化目标变为最大化下式。

distance=1/√(w_1^2+w_2^2 )

也就是说，最优目标为：在保证正确分类的情况下，最小化 min⁡√(w_1^2+w_2^2 )。

可以发现，min⁡√(w_1^2+w_2^2 ) 和 min⁡〖(w_1^2+w_2^2)〗是等价的。为了求解方便，最小化目标变为

min⁡〖〖(w〗_1^2+w_2^2)〗

那么，如何通过数学方法表示“保证分类正确”呢？不同于逻辑回归的两个类别（标签为1或0），在这里可以分别设P类和N类所对应的标签 y 为 +1 和 -1。此时，y 已不具备概率意义，仅代表一个类别（如图5-3所示）。

P类：当标签为 y=+1 时，w_1 x_1+w_2 x_2+w_0 ≥ 1。

N类：当标签为 y=-1 时，w_1 x_1+w_2 x_2+w_0 ≤ -1。

以上两式可以统一写成

y(w_1 x_1+w_2 x_2+w_0 )≥1

当 x 为边界点时，“=”成立；当 x 为内部点时，取“>”。y(w_1 x_1+w_2 x_2+w_0 )≥1 作为约束条件，保证了分类的正确性。

但是，在实际应用中，大部分情形都是线性不可分的，即肯定不能正确地进行分类（无法保证下式成立）。

y(w_1 x_1+w_2 x_2+w_0 )≥1

不满足上式的数据点称为误差点。因此，可以进一步将数据点分成三类，即内部点、边界点、误差点。误差点有两种：一种是正确误差点，它的分类正确，但位于边界点外（分类正确，但到分类线的距离小于1）；另一种是错误误差点，它不仅位于边界点外，而且分类错误。

对P类来说，误差点如图5-4所示。

图5-4

需要注意的是，正确误差点比边界点更靠近分类线。

为了使误差点满足上式，我们放宽（松弛）条件，引入松弛系数 ε ≥ 0。此时，约束条件变为

y(w_1 x_1+w_2 x_2+w_0 )≥1-ε

这样，不等式就相对没有那么严格了。数据点在不同约束条件下的情况如下。

内部点：y(w_1 x_1+w_2 x_2+w_0 )>1，即 ε=0。

边界点：y(w_1 x_1+w_2 x_2+w_0 )=1，即 ε=0。

正确误差点：y(w_1 x_1+w_2 x_2+w_0 )=1-ε，且 1>ε>0。

错误误差点：y(w_1 x_1+w_2 x_2+w_0 )=1-ε，且 ε ≥ 1。

也就是说

ε={█(0, 如果 y(w_1 x_1+w_2 x_2+w_0 )≥1@1-y(w_1 x_1+w_2 x_2+w_0 ),如果 y(w_1 x_1+w_2 x_2+w_0 )<1)┤

可以看出，ε 越小，分类效果就越好。因此，最小化 ε 也成为优化目标之一。

综上所述，考虑所有训练样本，我们的优化目标是

〖min(〗⁡〖w_1^2+w_2^2 〗+C∑_(i=1)^N▒〖ε_((i)))〗

C 为超参数，表示我们对“分类正确”的重视程度。

对于 i=1,⋯,N，x_((i))=〖[x_((i),1),x_((i),2)]〗^T 满足

y_((i)) (w_1 x_((i),1)+w_2 x_((i),2)+w_0 )≥1-ε_((i))

N 是训练样本的数量。

在求解分类线 w=〖[w_1,w_2]〗^T 和 w_0 时，一般不使用梯度下降法，而使用成熟的拉格朗日乘子法。其中的数学计算较为复杂，感兴趣的读者可自行查阅相关资料。

由于我们的优化目标始终围绕最大化边界点和分类线之间的距离，所以，可以不加推导地得到“分类线仅由边界点决定”这一结果（具体推导过程过于复杂，在此不再详述），如图5-5所示。

图5-5

由于内部点和误差点不会影响分类线（w 和 w_0），所以，我们可以不加推导地得到 w，公式如下。

SV 为P类和N类的边界点的集合。可以看出，w 是所有边界点通过 α_((i)) y_((i)) 加权求和得到的。将任意边界点代入分类线，都可以求出 w_0。例如，当边界点 x_((i))=〖[x_((i),1),x_((i),2)]〗^T 对应于类别 y_((i))=1 时，有

y_((i)) (w_1 x_((i),1)+w_2 x_((i),2)+w_0 )=1

w_0=1-w_1 x_((i),1)+w_2 x_((i),2)

在诸多边界点中，任意选择一个代入即可。

因为边界点直接决定了分类线，且每个边界点都是一个向量，所以，边界点也称为支持向量（Support Vector），这种分类方法称为支持向量机（Support Vector Machine，SVM）。在求解支持向量机时，对于训练样本，不需要特意指明内部点、误差点和边界点，这些点都由拉格朗日法求出的 ε_((i)) 的值决定。

模型训练完成后，在进行分类时，对于待预测数据 x，可以使用以下模型。

y^'={█(1, 如果 w^T x+w_0>0@-1,如果 w^T x+w_0<0)┤

其中

w=(w_1¦w_2 ),x=(x_1¦x_2 )

特别的

w^T x=∑_(i∈SV)▒α_((i)) y_((i)) x_((i))^T x=∑_(i∈SV)▒α_((i)) y_((i)) 〈x_((i))^ ,x〉

这一步相当于输入样本 x 对训练样本中的各个边界点 x_((i))^ 、i∈SV 求内积（距离）。但要注意，支持向量机的结果不具备任何概率意义，这也是它和逻辑回归的区别。

5.1.2　支持向量机和逻辑回归的比较

在机器学习领域，并不存在所谓能解决一切问题的“银弹”，任何模型在解决特定场景中的问题时，都会受到限制或存在不足。我们在学习时，可以通过横向对比加深对各种模型的理解。本节从不同的角度将SVM和逻辑回归进行对比，帮助读者了解二者的长处和不足。

对于模型的输出，逻辑回归的输出 y^'∈(0,1) 有概率意义，而SVM的计算结果 w^T x+w_0 没有概率意义。因此，逻辑回归的预测结果有可解释性，并能通过概率和其他决策联系起来。例如，在广告点击率预测场景中，广告的排序（位置）不仅与预测的点击率有关，也与广告主对每次点击的付费有关。因此，排序所依据的得分为

score=ctr×money

ctr 就是逻辑回归预测的结果 y^'，表示预测用户点击的概率；money 为每次点击的获利；score 表示期望收益。如果将SVM作为点击率预测模型，那么，因为SVM的输出不具有概率意义，所以不太容易和 money 进行有业务意义的融合。

从另一个角度看，在进行模型训练时，逻辑回归需要使用全部数据样本来确定分类线。SVM在“看”过所有样本并从中挑出边界点后，只需要利用边界点来确定分类线，而不必关心那些对分类作用不大的内部点。因此，SVM更关注分类，其分类线不会受到大量对分类没有帮助的内部点的影响。此外，因为SVM只关注边界点，所以它非常鲁棒，当样本中存在异常点（远离其他点的数据点）时，异常点会对逻辑回归造成严重影响，但不会影响SVM。

下面我们分析一下，在训练阶段，同为线性分类模型的SVM和逻辑回归的优化目标有何不同。

SVM的优化目标为

min⁡〖(〖||w||〗^2 〗+C∑_(i=1)^N▒ε_((i)) )

并且所有训练数据点 x_((i)) 满足

y_((i)) (w^T x_((i))+w_0)≥1-ε_((i))

不难发现，〖||w||〗^2 就是逻辑回归中的L2正则。∑_(i=1)^N▒ε_((i)) 的作用和逻辑回归中的KL距离

相同，都用于减小分类误差，但二者的具体形式不同。下面对 ε_((i)) 进行分析。

在SVM中，以训练样本 x_((i)) 为例，它所对应的类别为 y_((i))=1，它在模型中的损失函数 ε_((i)) 是一个分段函数，公式如下。

ε_((i))={█( 0,如果 (w^T x_((i))+w_0)≥1@1-(w^T x_((i) )+w_0 ),如果 (w^T x_((i))+w_0)<1)┤

看看逻辑回归的损失函数。对于同一样本 x_((i))，它所对应的类别为 y_((i))=1，样本的损失函数（KL距离）为

ε_((i) )=-y_((i) ) log(y_((i))^' )-(1-y_((i) ) ) log⁡(1-y_((i))^' )

=-log(y_((i))^' )

=-log 1/(1+e^(-(w^T x_((i) )+w_0 ) ) )

=1+e^(-(w^T x_((i))+w_0))

略去与 w、w_0 无的关项，可得

ε_((i))=e^(-(w^T x_((i))+w_0))

逻辑回归和SVM的损失函数的对比，如图5-6所示。

图5-6

可以看出，因为逻辑函数永远不会预测出完全满意的概率（1或0），所以逻辑回归的 ε_((i)) 永远不会为0。因此，即使分类正确，逻辑回归仍然会不停地训练，以求得到更小的损失和更大的概率。然而，对SVM来说，分类正确的内部点可直接使 ε_((i))=0，不再进行对分类无益的训练，这一点和提前终止学习有异曲同工之妙，即到一定程度就不再学习了。

在机器学习中，SVM的损失函数

ε_((i))={█( 0,如果 y(w^T x_((i))+w_0)≥1@1-y(w^T x_((i) )+w_0 ),如果 y(w^T x_((i))+w_0)<1)┤

称为Hinge Loss。近年来，深度学习中的度量学习广泛使用Hinge Loss作为损失函数，并且取得了不错的效果。

从模型训练的角度看，在逻辑回归中，每个训练样本都会参与训练，因此都会对分类线产生影响，如果训练样本中出现了异常点，那么逻辑回归仍然会把分类器朝远离自己的方向推，如图5-7所示。在训练SVM时，只有边界点会对最终的分类线产生影响，从而避免了分类线被内部异常点影响。

图5-7

当数据线性不可分时，如何提高分类的准确率是一个重要的问题。在逻辑回归中，最简

单的方式就是特征组合。例如，不同维度特征的组合 x_i x_j，高阶特征 x_i^2（相同维度特征的

组合）。但是，这种方法会耗费较多的计算资源和人力。在5.2节中，我们将讨论SVM是如何解决这个问题的。

5.2　核方法

5.2.1　核函数

通过第3章的讨论我们已经知道，升维可以解决线性不可分问题。例如，把输入特征 x 的每个维度和其他维度（包括其自身）进行交叉，使特征从3维升至9维，公式如下。

x=[x_1,x_2,x_3 ]^T→x^'=〖[x_1 x_1,x_1 x_2,x_1 x_3,x_2 x_1,x_2 x_2,x_2 x_3,x_3 x_1,x_3 x_2,x_3 x_3]〗^T

通过交叉，逻辑回归具备了解决线性不可分问题的能力。然而，其代价是运算量过大。如果原始特征的维度为 m，那么二阶交叉的维度为 C_m^2—— 这种量级的运算在实际应用中很难实现。因此，我们需要找到能在升维的同时有效降低运算量的方法。

对以下两个向量进行相同的升维操作。

x=[x_1,x_2,x_3 ]^T→x^'=[x_1 x_1,x_1 x_2,x_1 x_3,x_2 x_1,x_2 x_2,x_2 x_3,x_3 x_1,x_3 x_2,x_3 x_3 ]^T

z=[z_1,z_2,z_3 ]^T→z^'=[z_1 z_1,z_1 z_2,z_1 z_3,z_2 z_1,z_2 z_2,z_2 z_3,z_3 z_1,z_3 z_2,z_3 z_3 ]^T

首先，计算 x 和 z 的内积，公式如下。

〈x,z〉=x_1 z_1+x_2 z_2+x_3 z_3

然后，计算升维后 x^' 和 z^' 的内积，公式如下。

〈x^',z^' 〉=x_1 x_1 z_1 z_1+x_1 x_2 z_1 z_2+x_1 x_3 z_1 z_3+x_2 x_1 z_2 z_1+x_2 x_2 z_2 z_2+x_2 x_3 z_2 z_3+

x_3 x_1 z_3 z_1+x_3 x_2 z_3 z_2+x_3 x_3 z_3 z_3

=(x_1 z_1+x_2 z_2+x_3 z_3 )^2

=〖(〈x,z〉)〗^2

可以发现，如果最终目标只是求升维后的内积 〈x^',z^' 〉，那么可以先求原始特征的内积 〈x,z〉，再进行平方运算，而不需要真正进行高运算量的升维操作。

通过对两个低维向量进行数学运算，得到它们投影至高维空间时向量的内积的方法，叫作核方法，相应的算法叫作核函数。如上面的例子所示，有

K（x,z）=〖(〈x,z〉)〗^2=〈x^',z^' 〉

除了 K（x,z）=〖(〈x,z〉)〗^2，还有一些常用的核函数。不同的核函数的区别在于把和 z 映射到高维空间时采用的升维方法不同。不过，高维向量 x^' 和 z^' 不需要真正计算出来。例如，多项式核函数

K(x,z)=〖(α〈x,z〉+c)〗^d

α、c、d 对应于不同的核函数。可以看出，平方核函数 K（x,z）=〖(〈x,z〉)〗^2 是多项式核函数在 α=1、c=0、d=2 时的一个特例。

高斯核函数也是一个常用的核函数，其公式如下。

K（x,z）=e^((-‖x-z‖/(2σ^2 )))⁡

高斯核函数计算向量升维至无穷维后的内积，涉及的数学运算比较多，感兴趣的读者可以自行查阅相关资料。

5.2.2　核函数在支持向量机中的应用

核方法是一个非常有用的方法，下面我们将讨论如何在SVM中应用它。

首先，了解一下SVM的优化目标（如下式所示）。

min⁡〖‖w‖^2 〗+C∑_(i=1)^N▒ε_((i))

并且，所有训练样本〖{x_((i) ),y_((i))}〗_(i=1)^N 满足

y_((i)) (w^T x_((i) )+w_0 )≥1-ε_((i))

我们知道，w 为边界点的加权和，公式如下。

w=∑_(i∈SV)▒α_((i)) y_((i)) x_((i))

w 也可以写成所有数据点的加权和，只不过非边界点的数据点所对应的权重 α_((i))=0，i∉SV，即

w=∑_(i=1)^N▒〖α_((i)) y_((i)) x_((i)) 〗

此时，优化参数从求 w 变为求加权系数 α_((i))。在这里，优化目标没有变化，只进行了变量的替换。

既然 w 可以由训练样本的加权和来表示，那么 ‖w‖ 可以有如下变换。

‖w‖^2=w^T w=(∑_(j=1)^N▒〖α_((j) ) y_((j) ) x_((j) ) 〗)^T (∑_(i=1)^N▒〖α_((i) ) y_((i) ) x_((i) ) 〗)

=∑_(j=1)^N▒∑_(i=1)^N▒〖α_((j) ) α_((i) ) y_((j) ) y_((i) ) x_((j))^T x_((i) ) 〗

=∑_(j=1)^N▒∑_(i=1)^N▒〖α_((j)) α_((i)) y_((j)) y_((i)) 〈x_((j)),x_((i)) 〉 〗

在SVM中，如果将 x 投影到高维空间 x^'，那么 w 将变成高维空间中的 w^'，即

‖w^' ‖^2=∑_(j=1)^N▒∑_(i=1)^N▒〖α_((j)) α_((i)) y_((j)) y_((i)) 〈x_((j))^',x_((i))^' 〉 〗

用核方法把 〈x_((j))^',x_((i))^' 〉 替换成 K（x_((j))^ ,x_((i)) ），无须进行真正的投影，有

‖w^' ‖^2=∑_(j=1)^N▒∑_(i=1)^N▒〖α_((j)) α_((i)) y_((j)) y_((i)) K（x_((j))^ ,x_((i)) ）〗

同理，在高维空间中，约束条件 y_((i)) 〖w^'〗^T x_((i))^' ≥ 1-ε_((i))有如下变换。

y_((i)) 〖w^'〗^T x_((i))^'=y_((i)) (∑_(j=1)^N▒〖α_((j)) y_((j)) x_((j))^' 〗)^T x_((i))^'=y_((i)) ∑_(j=1)^N▒〖α_((j)) y_((j)) K（x_((i))^ ,x_((j)) ）≥1-ε_((i)) 〗

综上所述，当我们为了解决线性不可分问题而采用核方法（升维）时，优化目标将变为

min⁡∑_(j=1)^N▒∑_(i=1)^N▒〖α_((j)) α_((i)) y_((j)) y_((i)) K（x_((j))^ ,x_((i)) ）〗+C∑_(i=1)^N▒ε_((i))

并且，所有训练样本〖{x_((i) ),y_((i) )}〗_(i=1)^N 满足

y_((i)) ∑_(j=1)^N▒〖α_((j)) y_((j)) K（x_((i))^ ,x_((j)) ）≥1-ε_((i)) 〗

待求参数 α_((i)) 和 ε_((j)) 可以用拉格朗日乘子法求出。

求解完成后，模型在对输入 x 进行预测时将使用如下二式。

y={█(1, 如果 d>0@-1,如果 d<0)┤

d=∑_(i∈SV)▒[α_((i)) y_((i)) K（〖x,x〗_((i))^ ）] +w_0

可以发现，使用核方法的SVM在预测时仅将内积替换成了核函数，其他项没有变化。

值得注意的是，在进行高维投影后，不仅数据的分布和相对位置会发生变化，边界数据点也会发生变化。因此，支持向量在低维空间和高维空间中一般对应于不同的数据点。

SVM中的 w^T x 可以分解成 w^T x=∑_(i∈SV)▒α_((i)) y_((i)) 〈x_((i))^ ,x〉 的形式，在预测阶段只需计

算 x 和支持向量 x_((i))^ 的内积，这为核函数的使用提供了便利。通过核函数，SVM可以隐式

地将数据投影到高维空间，以增强非线性处理能力。核函数的应用提高了SVM在处理线性不可分数据方面的能力，使其在传统机器学习方法中一枝独秀。

在逻辑回归中，w 无法进行以上分解，所以在升维时不可避免地要将高维向量 x^' 和 w^' 显式地表示出来。由于这一限制的存在，逻辑回归特征升维后无法写成核函数的形式，也就无法得到核函数带来的好处。

5.3　朴素贝叶斯

5.3.1　朴素贝叶斯原理

逻辑回归、支持向量机，以及本书后面将要讲解的神经网络，其基本原理都是通过给定的输入来预测输出。但是，其中有一个隐含的要求，即输入特征 x=〖[x_1,x_2,⋯,x_m]〗^T 是完备的，也就是说，特征 x_1~x_m 是已知的。这个看似简单的要求，在实际业务应用中并非那么容易达到。

例如，在电商场景中，很多用户出于对隐私保护的考虑，不会填写自己的性别、年龄等特征信息，而在预测用户购买行为时，这些特征是非常重要的。对这些可能缺失的特征，有如下两种处理方法。

当模型使用特征时，x 不考虑可能缺失的特征，即对用户可能不填写的特征“一刀切”，全都不予考虑。这种做法比较“粗暴”。事实上，年龄等特征对预测任务来说是非常重要的，仅因为个别用户不填写而剔除特征是一种因噎废食的行为。然而，如果强制用户填写 x 涉及的特征，那么必填项是很难确定的。

针对缺失的特征，专门训练模型。例如，针对特征 x=〖[x_1,x_2,x_3]〗^T，穷举可能缺失的特征：x1=〖[x_1,x_2]〗^T，x2=〖[x_1,x_3]〗^T，x3=〖[x_2,x_3]〗^T，x4=[x_1]，x5=[x_2]，x6=[x_3]，x7=〖[x_1,x_2,x_3]〗^T（共训练7个模型，各种特征缺失的情况都有对应的模型）。但是，这样做也是不明智的——仅3个特征就需要7个对应的模型，当特征有上百个时模型的数量将非常惊人（不具备实际应用价值）。

特征缺失带来困扰的主要原因在于模型对各个维度的特征的需求是高耦合的，特征之间必须相互作用才能给出预测结果（例如，在逻辑回归中，特征之间需要加权求和）。为了从根本上解决特征缺失问题，需要对特征的各个维度进行解耦，使各个维度的特征都可以独立地进行分类。

为了解决这个问题，我们从统计学的角度来探寻分类问题的本质。分类任务就是在已知 x 时求 P(y=1│x)。通过贝叶斯定理，可以进行如下推理。

P(y=1|x)=P(x,y=1)/P(x) =(P(x|y=1)P(y=1))/(P(x))

P(y=1) 即样本中类别 y=1 的占比，比较容易计算。P(x) 为 x 出现的自然概率，与类别无关。

下面我们了解一下如何计算 P(x|y=1)。以 x=[x_1,x_2,x_3 ]^T 为例：

P(x|y=1)=P(〖[x_1,x_2,x_3]〗^T |y=1)

我们需要预测女生对男生是否喜欢的概率，y=1 为喜欢。

假设男生有3个离散特征，x_1∈{高个子,中等个子,矮个子}，x_2∈{温和,暴躁}，x_3∈{胖,匀称,瘦}。我们需要估计所有的 P(〖[x_1,x_2,x_3]〗^T |y)（y=1 或 y=0），共计 2×(3×2×3)=36 种概率。本例只有3个特征，在实际应用中，特征往往有上百个，待估计的概率将成指数级增长。这个问题的难点在于特征之间的耦合，因此，必须把 x_1 、x_2 、x_3 作为一个整体进行概率估计。

特征之间的耦合在真实世界中很常见，它对工程实践来说是一个难题。为此，工程师们进行了一些简化，假设 x_1、x_2、x_3 相互独立，可以得到

P(x_1,x_2,x_3 )=P(x_1)P(x_2)P(x_3)

同理

P(x_1,x_2,x_3 |y)=P(x_1 |y)P(x_2 |y)P(x_3 |y)

在这里需要强调的是，尽管上述独立性假设在真实的场景中不容易成立，但假设其成立能带来诸多好处，例如可以使问题得到有效解决。

根据贝叶斯定理和上述独立性假设，有如下推理。

P(y=1│x)=(P(y=1)P(x|y=1))/(P(x))=(P(y=1)P(x_1 |y=1)P(x_2 |y=1)P(x_3 |y=1))/(P(x))

P(y=0│x)=(P(y=0)P(x|y=1))/(P(x))=(P(y=0)P(x_1 |y=0)P(x_2 |y=0)P(x_3 |y=0))/(P(x))

可以通过比较 P(y=1│x) 和 P(y=0│x) 的大小来确定预测的类别，如下式所示。

d=(P(y=1│x))/(P(y=0│x) )=(P(x_1 |y=1)P(x_2 |y=1)P(x_3 |y=1)P(y=1))/(P(x_1 |y=0)P(x_2 |y=0)P(x_3 |y=0)P(y=0))

当 d>1 时，P(y=1│x)>P(y=0│x)，x 属于类别 y=1。

当 d<1 时，P(y=1│x)

如果 x_2 缺失，就直接忽略 P(x_2 |y=1) 和 P(x_2 |y=0)，判别公式变为

d=(P(y=1│x))/(P(y=0│x) )=(P(x_1 |y=1)P(x_3 |y=1)P(y=1))/(P(x_1 |y=0)P(x_3 |y=0)P(y=0))

上述分类算法叫作朴素贝叶斯算法。“朴素”体现在假设特征的各个维度相互独立上，即对问题进行了简化（这也属于归纳偏置）；“贝叶斯”则体现在对模型进行分类时使用了贝叶斯定理上。

解耦后，在前面那个预测女生对男生是否喜欢的概率的例子中，只需估计 2×(3+2+3)=16 种概率，待估计概率由指数级增长变成了线性增长，从而使估计高维特征的概率变得可行。

如果不进行独立性假设，那么：一方面，当 P(x|y) 有特征缺失时，将无法进行概率估计；另一方面，直接估计所有 P(x|y) 不具备可操作性。

在5.3.2节中，我们将讨论如何估计模型中的所有概率，并分析 P(x|y) 难以直接估计的深层原因。

5.3.2　朴素贝叶斯的参数估计

朴素贝叶斯没有显式的参数，其核心在于如何通过训练样本对 P(y=1)、P(y=0)、P(x_i |y=1)、P(x_i |y=0) 等的概率进行估计。

P(y=1) 和 P(y=0) 的概率比较容易估计。如果训练样本是自然采样的（没有刻意进行上下采样平衡），类别 y=1 的样本数量为 N_1，类别 y=0 的样本数量为 N_0，那么

P(y=1)=N_1/(N_1+N_0 )

P(y=0)=N_0/(N_1+N_0 )

P(x_i |y=1) 和 P(x_i |y=0) 的概率估计相对复杂。下面分别对特征 x_i 为离散型和连续型的概率估计进行分析。

例如，在一个预测工作匹配程度的场景中，y=1 表示录用，y=0 表示不录用。当 x_1 为离散变量，例如表示学历时，其取值分别为

1-大专以下;2-大专;3-本科;4-硕士;5-博士

以频率作为概率的估计，公式如下。

P(x_1=本科│y=1)=(count(x_1=本科,y=1))/(count(y=1))

count(y=1) 表示在训练样本中类别为 y=1 且特征 x_1 未发生缺失时的样本数量（不同于 N_1，N_1 为所有类别为 y=1 的样本数量），count(x_1=本科,y=1) 表示类别为 y=1 且对应特征为“x_1=本科”的样本数量。这是一种统计方法，不像梯度下降法那样有迭代过程。这种方法的统计速度非常快，没有复杂的运算和求导过程，只要遍历训练样本就能得到结果。

但是，通过数量比例来估计概率，需要的样本数量相对比较大，如果样本数量不足，就容易出现较大的偏差（例如，在投硬币时，只投1次，出现的是正面，于是估计出现正面的概率为100%，出现反面的概率为0，而这显然是错误的）。因此，可以对上式进行如下改进。

P(x_1=本科│y=1)=(count(x_1=本科,y=1)+n_1/c_1 )/(count(y=1)+n_1 )

n_i 由用户自行定义，c_i 为 x_i 可取值的数量。在本例中，i=1，c_1=5。在这里，相当于给统计量添加了一个先验信息，即在训练样本之外有 n_1 个类别为 y=1 的样本，在这 n_1 个样

本中有 n_1/c_1 个样本的特征为“x_1=本科”。

当 x_2 为连续变量（例如表示工资）时，应该如何估计 P(x_2│y=1) 呢？因为 x_2 是连续的，可以取的值有无数个，所以，显然无法通过上面的频率来估计。一般认为 P(x_2│y=1) 符合正态分布。正态分布只有两个参数，即均值 μ 和方差 σ。所以，可先估计 P(x_2│y=1) 的均值 μ_2 和方差 σ_2。

定义类别为 y=1 且特征 x_2 未缺失的样本索引集合为 Set_(y=1)^(x_2 )，集合中元素的数量为 |Set_(y=1)^(x_2 ) |，公式如下。

μ_2=1/|Set_(y=1)^(x_2 ) | ∑_(i∈Set_(y=1)^(x_2 ))▒〖x_((i),2) 〗

σ_2=√(1/|Set_(y=1)^(x_2 ) | ∑_(i∈Set_(y=1)^(x_2 ))▒(x_((i),2)-μ_2 )^2 )

估计均值和方差后，可以得到 P(x_2│y=1) 的表达式

P(x_2│y=1)=1/(√2π σ_2 ) e^(-〖(x_2-μ_2)〗^2/(2σ_2^2 ))

朴素贝叶斯模型是通过数学方法推导出来的，因此公式相对较多，不过理解起来并不困难。与逻辑回归相比，朴素贝叶斯模型既没有损失函数，也没有迭代学习过程。

如果没有独立性假设，直接估计 P(x|y) 会遇到一些困难，举例如下。

没有特别有效的方法将离散变量和连续变量混在一起估计。

训练样本数量有限。例如，直接估计 P(x_1=1,x_2=0,x_3=1|y=1)，同时落在 x_1=1、x_2=0、x_3=1 的样本数量会非常少，而在用频率估计概率时需要较多的样本来保证准确性。

待估计概率随特征维度成指数级增长。

朴素贝叶斯模型因具有简单、有效并能克服特征缺失的优点，在垃圾邮件筛选等文本分类任务中有不凡的表现。

值得注意的是，在使用朴素贝叶斯模型时，特征之间默认是相互独立的。如果实际业务中的特征不是相互独立的，而是有非常强的相关性的，那么，勉强使用朴素贝叶斯模型会得到很差的结果。例如，x_1 为身高，x_2 为体重，x_3 为血型，x_1 和 x_2 其实发生了部分冗余（不是相互独立的），如果通过进行概率估计强行让 x_1 和 x_2 相互独立，就会导致一些因素（身高和体重）的重要性被重复计算，从而降低其他特征（x_3）对分类结果的贡献的权重。

朴素贝叶斯模型忽略了特征之间（例如，在电商场景中，“年轻女性”和“节假日”之间）的交互关系，因此，它通常比其他算法需要更少的数据，且不容易发生过拟合。不过，正因为朴素贝叶斯模型过于简单，其效果的“天花板”也很明显，所以，在一些对准确率要求较高的场景中应谨慎使用。

5.4　维数灾难

本书前面的章节介绍了常见的分类模型。尽管这些模型各有所长，但它们的输入都是特征向量。那么，是否特征向量维度越高（特征数越多），分类效果就越好呢？图5-8展示了维度（特征数）和分类器性能之间的关系（适用于任何分类器）。

图5-8

当特征维度较少时，随着特征维度的增加，分类效果稳步提升。但是，当特征维度增加到一定程度时，继续增加特征维度反而会使分类效果降低。这种现象称为维数灾难。

下面分析一下维数灾难产生的原因。以在二分类任务中使用逻辑回归为例：当特征维度为1维时，分类器对应于一个点；当特征维度为2维时，分类器对应于一条直线；当特征维度为3维时，分类器对应于一个平面。

当特征维度为1维时，所有样本都集中在一条直线上，如图5-9所示。可以看出，两个类别“犬牙交错”地分布在一条直线上，几乎不可能找到一个点将它们分开。此时，模型的效果必然很差。

当特征维度为2维时，数据点在平面上的分布如图5-10所示。此时，数据点是线性不可分的，即一条直线无法把两个类别完全分开，但正确率已经有所提高。

将特征维度增加至3维。此时，数据分布在一个三维坐标系中，如图5-11所示，可以通过一个平面将两个类别完全分开，正确率达到最大值。将三维空间中的平面投影至一个二维坐标系，分类器就不再是线性的了。

图5-9

图5-10

图5-11

这个分类器非常复杂，并且学到了一些特例数据点的特征。因此，尽管训练集对3维特征的效果好于2维特征，但非常容易出现过拟合（在测试集上出现错误），如图5-12所示。

图5-12

随着维度的增加，过拟合现象将会加重，分类器的性能不升反降，产生维数灾难。

下面我们换一个角度讨论维数灾难。

在机器学习中，分类器为特征空间中的一条线（在高维空间中为一个面，具体形状取决于所用分类器和维度），训练过程就是调整线（面）的位置和形状，使其在训练集上尽可能准确。训练数据越多、越密，分类线越不容易被极端特例影响，学到的是具有普遍性的规律；训练数据越少，或者说数据分布越稀疏，分类器越容易学到特例，从而产生过拟合。

用数据密度 ρ 表示训练样本中数据的紧凑程度，ρ=样本数量/数据空间大小。例如，数据取值范围为

[-1,1]，数据空间为直线（数据空间大小为2），一共有10个训练样本，在一维空间中数据密度为

ρ_1=10/2=5

当特征维度增加至2维，即 [-1,1]×[-1,1] 时，取值空间变成了一个平面，数据空间大小为 2×2=4，此时数据密度为

ρ_2=10/4=2.5

依此类推，当特征维度为 f，训练样本数量为 N 时，数据密度为

ρ_f=N/2^f

通过上式可以看出，当数据量不变时，随着维度的增加，数据密度以指数级降低，单位空间中的数据点变少，极易发生过拟合，造成维数灾难。因此，在增加数据维度 f 时，为了

保证 ρ_f 不变，训练样本数量 N 应成指数级增长。

维度过高还会带来数据分布不均匀的问题。例如，在二维空间中，数据取值范围为一个矩形（各维度取值为 [-1,1]）。假设数据是随机分布的，计算位于中心圆内的数据点占比，如图5-13所示。

r_2=中心圆面积/矩形面积=(π×1^2)/(2×2)=π/4

当特征维度为3维时，计算位于中心球体内的数据点占比，如图5-14所示。

r_3=中心球体体积/立方体体积=(4/3×π〖×1〗^3)/2^3 =π/6

图5-13

图5-14

依此类推，当特征维度为 f 时，超球体体积和超立方体体积分别为

超球体体积=π^(f/2)/Γ(f/2+1) 〖×1〗^f

超立方体体积=2^f

所以

r_f=超球体体积/超立方体体积=π^(f/2)/(Γ(f/2+1)2^f )

可以看出，随着 f 的增大，r_f→0。也就是说，随着维度的增加，中心区域的数据点占

比越来越少，大部分数据点集中在边角处。

维度和超球体体积（中心区域数据占比）的关系，如图5-15所示。

图5-15

例如，在8维空间中，一共有 2^8=256 个角落，约99% 的数据点分布在这些角落，而在中心区域仅有不到1% 的数据点，模型在中心区域极易发生过拟合。

维度过高还会导致一个问题，就是欧氏距离失效。假设有两个 m 维的数据点，x=[x_1,⋯,x_m ]^T，y=[y_1,⋯,y_m ]^T，那么欧氏距离为

其中，s_i=(x_i-y_i )^2。假设特征的各个维度相互独立，当 m→∞ 时，由切比雪夫大数定理，可得

可以看出，随着 m 的增大，所有距离都会收敛至同一个常数 ∑_(i=1)^m▒〖〖E(s〗_i)〗，即所有数据之间

的距离几乎一样，而这将导致欧氏距离不再具有区分能力。

5.5　奥卡姆剃刀定律的应用

奥卡姆剃刀（Occam's Razor）定律是由逻辑学家William of Occam在14世纪提出的，表述为“如无必要，勿增实体”。

奥卡姆剃刀定律阐述了一个朴素的道理：能用简单的方法完成的任务，就不要用复杂的方法，也就是说，“切勿用高射炮打蚊子”，用当下的流行语说就是“极简主义”。那么，该定律如何应用在机器学习中呢？它和正则化又有什么关系呢？

在这里，我们首先需要了解何为模型的复杂度。机器学习中的模型对应的其实是一组函数，模型的训练过程就是从这组函数中选择一个最符合训练样本数据的。模型涵盖的函数越多，模型可能做出的选择就越多，模型就越复杂，模型的拟合能力就越强，越能应对复杂的数据分布。例如，在以下四个模型中，w_0 、w_1 、w_2 均为可变参数。

y=10

y=w_0

y=w_1 x_1+w_0

y=w_2 x_2+w_1 x_1+w_0

第一个模型没有可变参数，实际上只包含一个函数，因此，它在这四个模型中是复杂度最低的，也是最简单的。如果用它去做线性回归，则不可避免地会发生欠拟合（除非数据类别刚好都为 y=10）。但是，用它做线性回归不可能发生过拟合，因为它在训练数据和测试数据上的表现一样差。

第二个模型比第一个模型复杂，它不仅包含第一个模型（当 w_0=10 时），还包含 y=1、y=2 等情况。

第三个模型比第二个模型复杂，第四个模型比前三个模型都复杂。

将上述分析类推至逻辑回归，可以发现：特征维度越高，模型的参数越多，对应的模型就越复杂。奥卡姆剃刀定律希望模型简单，也就是说，当模型已经能完成分类任务时，就不要再扩增特征维度了（这一点和5.4节所讲的维数灾难不谋而合）。

比较了不同特征维度的复杂度，那同一个维度的情况如何呢？我们依然通过逻辑回归模型来分析。采用2维特征，有如下两个模型。

模型1：y^'=1/(1+e^(-(w_2 x_2+w_1 x_1+w_0)) )。

模型2：y^'=1/(1+e^(-(w_2 x_2+w_1 x_1+w_0)) ) 且 w_1^2+w_2^2 ≤ 1。

模型1的参数可以取任意值。模型2对参数的取值范围进行了限制（在半径为1的圆内）。因此，模型1涵盖的函数要多于模型2，模型1更复杂。

使用正则项进行模型训练，其实就是在限制模型参数 w 的取值范围——虽然没有像上述模型2那样直接限制 w 的取值范围，但可以通过给损失函数增加正则项使 w 取较大值的概率显著降低，从而间接实现限制 w 取值范围的效果，使模型得到简化。因此，正则表达式是奥卡姆剃刀定律的一个典型应用。

5.6　经验风险、期望风险和结构风险

在机器学习中，经验风险是指学习完成后模型 f 在训练样本上的平均 Loss，即

R_emp (f)=1/N ∑_(i=1)^N▒〖Loss_((i))=1/N ∑_(i=1)^N▒〖L(y_((i)),f(x_((i))))〗〗

然而，我们不仅希望模型在训练样本上表现得好，更希望它在所有样本（训练样本和尚未见过的样本）上都表现得好。于是，引入期望风险，公式如下。

R_exp (f)=∫_(X×Y)^ ▒〖L(y,f(x))ρ(x,y)dxdy〗

真正好的模型希望 R_exp (f) 足够小。

由于在实际应用中无法获得所有的样本，所以 R_exp (f) 只是一个概念，无法实际计算出来。不过，根据大数定律，当数据量 N 足够大时，经验风险近似于期望风险，即

lim┬(N→∞)⁡〖R_emp (f)〗=R_exp (f)

这就是逻辑回归、线性回归、因子分解模型的理论基础：当训练数据量 N 足够大时，优化经验风险，即最小化 R_emp (f)，可近似等价于最小化 R_exp (f)。

但是，数据量 N 多大才算“足够大”呢？并没有人给出明确的答案。而且，在实际应用中，训练样本数量不太容易达到“足够大”。因此，引入结构风险 R_srm (f) 来近似期望风险 R_exp (f)，即

R_srm (f)=1/N ∑_(i=1)^N▒〖L(y_((i)),f(x_((i))))〗+λJ(f)=R_emp (f)+λJ(f)≈R_exp (f)

结构风险的第一项仍然为经验风险 R_emp (f)，第二项 λJ(f) 是模型复杂度。R_emp (f)+

λJ(f)≈R_exp (f) 的意思是经验风险 R_emp (f) 和期望风险 R_exp (f) 的差异与模型的复杂度 J(f) 成正相关。也就是说，对于同样的经验风险 R_emp (f)，模型越复杂，J(f) 就越大，期望风险 R_exp (f) 也就越大。这里的模型复杂度是指模型的参数个数及模型的结构，例如5.5节提到的模型复杂度。

最小化结构风险 R_srm (f) 等价于同时降低经验风险和模型复杂度。通过最小化结构风险 R_srm (f)，可以在 N 有限的情况下间接达到最小化期望风险 R_exp (f) 的目的。例如，在训练逻辑回归时增加了正则项优化，即在 Loss 下降的同时使模型复杂度降低（其实就是使结构风险 R_srm (f) 最小化）。最小化结构风险和奥卡姆剃刀定律在降低模型复杂度方面的目标是一致的，它们都希望模型越简单越好。

上述三种风险的推演过程是：设理想目标最小化期望风险为 R_exp (f)，但因为不可能得到所有数据，所以实际上无法实现；当数据量 N 足够大时，用经验风险 R_emp (f) 近似期望

风险 R_exp (f)，即 R_emp (f) □(⇒┴N足够大 ) R_exp (f)（最小化常见损失函数）；当数据量 N 有限时，用

结构风险 R_srm (f) 近似期望风险 R_exp (f)，即 □(R_srm (f) ⇒┴N无法达到足够大 ) R_exp (f)（在最小化损失

函数时增加正则项）。

下面分析一下SVM模型的效果特别好的原因。

因为SVM模型的经验风险所对应的损失函数存在最小值0，所以，当数据已经是内部点且可以正确分类时，SVM不会像逻辑回归那样没有限制地降低 Loss 以提升概率。

SVM的另一个目标是最大化边界距离，从而直接优化模型结构。这一点虽然在形式上和逻辑回归使用正则表达式进行优化相同，但在配合上和经验风险不同。在逻辑回归中，“KL距离+正则表达式”会在经验风险和 ‖w‖ 上通过权重进行权衡（整体下降）。而对SVM来说，只要分类正确，降低经验风险的目的就已经达到了（不需要进一步降低），接下来就是全力降低模型复杂度 J(f) 以提高泛化能力了（所以，SVM的泛化能力很强）。通过前面的分析也可以发现，SVM的优化重心在复杂度上，不像逻辑回归那样始终两者兼顾。因此，SVM更符合奥卡姆剃刀定律。

对机器学习感兴趣的读者可以去主页关注我；本人著有《速通深度学习》以及《速通机器学习数学基础》二书，想要完整版电子档可以后台私信我；想一起学习机器学习的话也可以后台私信，本人所做机器学习0基础教程已有60余章还未公开；想了解的话也是后台私信或者评论区留言。

你可能感兴趣的:(速通机器学习,机器学习,分类,人工智能)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
UNIX域套接字
1、UNIX域套接字的定义UNIX域套接字是进程间通信（IPC）的一种方式，不涉及网络协议栈，因此在同一台主机上的通信中，它比基于TCP/IP协议的网络套接字更快速、更高效。2、UNIX域套接字的分类字节流套接字（SOCK_STREAM）：提供面向连接的、可靠的数据传输服务。数据报套接字（SOCK_DGRAM）：提供无连接的数据传输服务，数据以独立的数据报形式传输。3、UNIX套接字与TCP/IP
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
QML与C++相互调用函数并获得返回值 cpp_learners QML c++QML qt
这篇博客主要讲解在qml端如何直接调用c++的函数并获得返回值，在c++端如何直接调用qml的函数并获得返回值；主要以map或者jsonobject、list或者jsonarray为主！其他单个类型，常见的类型，例如QString、int等，就不演示了；一通百通。目录1准备工作1.1C++端1.2QML端2qml端直接调用c++端函数3c++端直接调用qml端函数3.1调用qml的qmlFuncO
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
V少JS基础班之第五弹 V少在逆向 JS基础班 javascript 开发语言 ecmascript
文章目录一、前言二、本节涉及知识点三、重点内容1-函数的定义2-函数的构成1.函数参数详解1）参数个数不固定2）默认参数3）arguments对象（类数组）4）剩余参数（Rest参数）5）函数参数是按值传递的6）解构参数传递7）参数校验技巧（JavaScript没有类型限制，需要手动校验）2.函数返回值详解3-函数的分类1-函数声明式：2-函数表达式：3-箭头函数：4-构造函数：5-IIFE：6-
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
低温冷启动 & 高温热启动 hahaha6016 fpga开发
低温冷启动1.在低温下，晶体管的阈值电压可能升高，导致时序路径变慢，从而可能引起建立时间（setuptime）违规。另外，也可能出现保持时间（holdtime）违规，因为低温下信号传播速度可能变快（但通常低温下延迟增加，所以建立时间问题更常见）。2.droppinglogiccore意味着在低温下某个逻辑核心（可能是一个特定的模块或IP核）无法正常启动或工作，导致功能失效3.cellname，这通
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
STM32 ADC详解月入鱼饵 stm32 嵌入式硬件单片机
本文介绍stm32ADC的使用，本文较长，可以配合目录跳转到需要的地方阅读。ADC转换原理本文重点在于STM32的ADC的使用，介绍ADC转换原理是为了更好理解STM32中关于ADC的配置，所以这里只是简单介绍一下ADC的转换原理，想详细了解ADC的转换原理可以看看看完这篇文章，终于搞懂了ADC原理及分类！和ADC基本工作原理-CSDN。简单来说，模拟信号输入进来，经过低通滤波操作预处理信号之后，
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
c++中迭代器的本质三月微风 c++开发语言
C++迭代器的本质与实现原理迭代器是C++标准模板库(STL)的核心组件之一，它作为容器与算法之间的桥梁，提供了统一访问容器元素的方式。下面从多个维度深入解析迭代器的本质特性。一、迭代器的基本定义与分类迭代器的本质迭代器是一种行为类似指针的对象，用于遍历和操作容器中的元素。它提供了一种统一的方式来访问不同容器中的元素，而无需关心容器的具体实现细节。标准分类体系C++标准定义了5种迭代器类型，按功能
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
udev 规则文件命名规范奇妙之二进制 #嵌入式/Linux linux 网络运维
文章目录udev规则文件名的含义、规范及数字开头的原因一、udev规则文件的基本概念二、udev规则文件名的规范与含义1.文件名格式规范2.名称各部分的含义3.文件扫描路径三、为何规则文件名通常以数字开头？1.执行顺序的精确控制2.便于分类和管理3.兼容性与标准化四、示例与实践建议1.常见规则文件示例2.自定义规则命名建议五、总结udev规则文件名的含义、规范及数字开头的原因一、udev规则文件的
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
5G UE注册-建立会话-释放会话-UE注销信令流程 nonamelake 5g
1.画这个流程图的原因3GPP组织估计跟某厂一样部门墙较重，核心网和无线各搞各的标准，为什么内部不拉通一下，搞个端到端的信令流程，好让我等菜鸟能学的容易点。看着3GPP协议里的信令流程，真心看不懂啊，不信你们瞧瞧下面这几张图。2.3GPP里的5GUE注册流程+PDU会话建立流程+PDU会话释放流程+UE注销流程3.自己动手画流程图我看到上面的4张图就头晕呀，实线+虚线+大箭头，而且有些信令的名字和
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

《速通机器学习》- 经典分类模型

5.1 支持向量机

5.1.1 支持向量机的基本原理

5.1.2 支持向量机和逻辑回归的比较

5.2 核方法

5.2.1 核函数

5.3 朴素贝叶斯

5.3.1 朴素贝叶斯原理

5.4 维数灾难

5.5 奥卡姆剃刀定律的应用

5.6 经验风险、期望风险和结构风险