SanFanCSgo

数据挖掘读书笔记--第八章(下)：分类：模型评估与选择、提高分类器准确率技术

散记知识点

——“评估分类器，提高分类器”

5. 模型评估与选择

5.1 评估分类器性能

(1) 评估分类器性能的度量

评估分类器性能的度量主要有：准确率（识别率）、敏感度（召回率(recall)）、特效性、精度(precision)、 F1 和 Fβ 。

假定 P 为正元组数、 N 为负元组数，则下图为各种度量的计算公式：

其中：

TP (True Positive) 真正例：是指被分类器正确分类的正元组个数。
TN (True Negative) 真负例：是指被分类器正确分类的负元组个数。
FP (False Postive) 假正例：是指被错误地标记为正元组的负元组个数。
FN (False Negative) 假负例：是指被错误地标记为负元组的正元组个数。

一个二分类问题的混淆矩阵:

其中， P′ 表示被分类器标记为正的元组数 (TP+FP) ； N′ 表示被分类器标记为负的元组数$(TN+FN)。

下面分别考虑每个度量指标的意义：

① 准确率
分类器在给定测试集上的准确率(accuracy)是被该分类器正确分类的元组所占的百分比：

a c c u r a c y = T P + T N P + N

准确率又称识别率，下表显示了混淆矩阵每类及总体识别率：

观察混淆矩阵，可以看出相应的分类器是否混淆了两类。当 类分布相对平衡时，准确率是评价分类器最有效的指标。

② 灵敏度和特效性

考虑类不平衡问题，即感兴趣的类（正例）很稀少的情况，准确率会不太可靠。例如，医疗数据中，类标签为癌症”cancer”，可以分为两类：得癌症”yes”和不得癌症”no”。假设正常训练一个分类器，准确率为97%，看似很高但实际上意义却不大，因为准确率很大部分由负例”no”决定，而我们感兴趣的正例”yes”却可能没正确地被识别出来，分类器得不到我们想要的结果。
针对这个问题，使用灵敏度和特效性：
灵敏度(sensitivity)为真正例识别率即正确识别正元组的百分比：

s e n s i t i v i t y = T P P

特效性(specifictiy)为真负例率即正确识别的负元组百分比：

s p e c i f i c t i y = T N N

考虑一个类分布不平衡问题cancer:{‘yes’, ‘no’}，混淆矩阵为：

观察混淆矩阵，负例‘no’占比很大，假负例即有癌症‘yes’被判为没有癌症’no’占比很大。进一步计算该分类器的灵敏度为 90/300=30.00% ，特效性为 9650/9700=98.56% 。虽然总体识别率很高，但正例‘yes’的识别率灵敏度很低仅为30%，可以看出该分类器并不能准确地识别癌症。

③ 精度和召回率

精度(precision)可以看作精确性的度量即标记为正类的元组实际为正类所占的百分比：

p r e c i s i o n = T P T P + F P

召回率(recall)是 完全性度量即正例元组标记为正的百分比(亦称灵敏度)：

r e c a l l = T P T P + F N = T P P

对②中混淆矩阵计算：分类器的精度为

90/230=39.13% 90 / 230 = 39.13 % ，召回率为

90/300=30.00% 90 / 300 = 30.00 % 。

精度和召回率通常一起使用，用固定的召回率比较精度，或用固定的精度比较召回率。例如，可在75%的召回率水平比较精度。

④ Fβ 度量

Fβ 度量将精度和召回率组合到一起：

F β = ( 1 + β 2 ) \times p r e c i s i o n \times r e c a l l β 2 \times p r e c i s i o n + r e c a l l

其中，

β β 为非负实数，当

β=1 β = 1 时，称为

F F 度量是精度和召回率的调和平均值。

Fβ F β 是精度和召回率加权度量，赋予召回率的权重是精度的

β β 倍。通常使用

F2、F0.5 F 2 、 F 0.5

总结：当数据类比较均匀地分布时，准确率效果最好。而其他度量，如灵敏度（召回率(recall)）、特效性、精度(precision)、 F1 和 Fβ 更适合类不平衡问题。

(2) 其他方面评价分类器性能

除了基于度量评价分类器性能之外，还可以根据其他方面比较分类器：速度、鲁棒性、可伸缩性、可解释性等

5.2 划分数据集与选择分类器模型

(1) 保持法和随机二次抽样

保持法(holdout)：随机划分数据集为两个集合：训练集和测试集，通常大小为2:1，使用训练集导出模型，使用测试集评估模型。
随机二次抽样(random subsampling)：将保持法重复 k 次，总准确率估计取每次迭代准确率的平均值。

(2) 交叉验证

k-折交叉验证(k-fold cross-validation)：

初始将数据集随机地划分为大小大致相等的 k 个互不相交的子集（”折”）： D1,D2,...,Dk
训练和测试 k 次，依次从 k 子集中选择1个作为测试集，其余作为训练集。例，第1次选择 D1 作为测试集 D2∼Dk 为训练集。
准确率估计是 k 次迭代正确分类的元组总数除以初始数据元组总数。

留一(leave-one-out)是 k -折交叉验证的特殊情况，每次只给测试集“留出”一个样本。

一般采取10-折交叉验证估计准确率。

(3) 自助法

自助法(bootstrap)：从给定的训练集中有放回的均匀抽样。
.632自助法：
- 假设数据集包含 d 个元组，有放回地抽取 d 次，产生 d 个样本的自助样本集（训练集）。
- 原始数据元组中，某些元组可能多次出现，而从来没有出现的元组最终构成测试集。
- 结果是，平均情况下会有：63.2%的原数据元组将会出现在训练集中，而其余的36.8%的元组将形成测试集。

之所以会是0.632，是因为每个元组被抽中的概率为 1/d ，因此到最后都未被选中的概率为 (1−1/d)d 。当 d 很大时，求极限结果近似为 e−1=0.368 。因此，36.8%未被选中的元组将形成测试集，其余63.2%的元组形成训练集。

重复迭代过程 k 次，每次得到测试集和训练集的准确率分别为 Acc(Mi)test_set、Acc(Mi)train_set ，则模型的总体准确率为：

A c c (M) = \sum i = 1 k (0.632 \times A c c (M i) t e s t_s e t + 0.368 \times A c c (M i) t r a i n_s e t)

(4) 使用统计显著性检验选择模型

假设在数据集上产生2个分类模型 M1 和 M2 ，经过10折交叉验证分别得到平均错误率。为了确定两个模型的平均错误率是否存在“真正的”差别，则需要使用统计显著性检验。

对于给定的模型，在交叉验证中计算每个错误率都可以看作来自一种概率分布的不同的独立样本。一般地，它们服从具有 k−1(k=10) 自由度的 t 分布
做假设检验，假设这两个模型相同即平均错误率之差为0。如果我们能够拒绝该假设，则可以断言两个模型之间的差时统计显著的。在此情况下，可以选择具有较低错误率的模型。
对于10折交叉验证，假设第 i 轮， M1和M2 的错误率分别为 err(M1)i 和 err(M2)i 。二者的平均错误率分别为： err¯¯¯¯¯¯¯(M1) 和 err¯¯¯¯¯¯¯(M2) ，两个模型差的方差记为： var(M1−M2)
,则计算 t 统计量： $t = e r r ¯ ¯ ¯ ¯ ¯ ¯ ¯ ( M 1 ) - e r r ¯ ¯ ¯ ¯ ¯ ¯ ¯ ( M 2 ) v a r ( M 1 - M 2 ) / k - - - - - - - - - - - - - \sqrt$ ，其中 $v a r (M 1 - M 2) = 1 k \sum i = 1 k [(e r r (M 1) i - e r r (M 2) i) - (e r r ¯ ¯ ¯ ¯ ¯ ¯ ¯ (M 1) - e r r ¯ ¯ ¯ ¯ ¯ ¯ ¯ (M 2))] 2$
为了确定 M1 和 M2 是否显著不同，计算 t 并选择显著性水平 sig (一般取1%或5%)。然后查找 t -分布表。例如，要确定二者之差对总体的95%是否显著性不同，则寻找 z=sig/2=0.025 的表值， z 为置信界。如果计算所得 t 在 t>z或t<−z 的拒绝域。则意味着我们可以拒绝原假设，并断言两个模型之间存在统计显著的差别。否则，不能拒绝原假设，断言二者之间的差可能随机的。

(5) 基于成本效益和ROC曲线比较分类器

真正例、真负例、假正例和假负例也可以用于评估与分类模型相关联的成本效益。与假负例相关联的代价比与真正例相关联的代价大得多。例如，错误地预测癌症患者未患癌症的代价远比保守地将未患癌症预测为癌症患者大得多。这种情况下，通过赋予每种错误不同的代价，可以使一种模型的错误比另一种更重要。

作为选择，通过计算每种决策的平均成本（或效益），可以考虑成本效益。

接收者操作特征(Receiver Operating Characteristic , ROC)曲线是一种比较分类器模型有用的可视化工具。ROC曲线显示了给定模型的真正例率( TPR=TP/P )和假正例率( FPR=FP/N )之间的权衡。TPR的增加以FPR的增加为代价。ROC曲线下方的面积是模型准确率的度量。

绘制ROC曲线：

ROC曲线的纵轴表示TPR，横轴表示FPR。从(0, 0)开始绘制。依次从列表顶部向下检查元组的实际类标号。
如果元组为真正例元组，则TP增加，从而TPR增加。在图中向上移动并绘制一个点。
如果元组为假正例元组，则FP增加，从而FPR增加。在图中向右移动并绘制一个点。

下图为一个概率分类器对10个检验元组返回的概率值，按概率递减排列。

从元组1开始，取该元组得分为阈值即 t=0.9 。则这样分类器认为元组1为正，而其他9元组为负。扫描10个元组对照元组实际类别(第二列)，可得 TP=1, FP=0 TN=5 FN=4 ，因此计算得 TPR=TP/P=0.2,FPR=0 ，绘制一个点(0.2, 0)。继续取第二个元组得分为阈值即 t=0.8 ，重复执行上述操作。结果产生10个点，据此绘制ROC曲线。如下图所示：

比较两个分类模型的ROC曲线：

模型的ROC曲线离对角线越近，模型的准确率越低。如果模型很好，则随着有序列表向下移动，开始会遇到真正例，曲线表现为陡峭地从0上升。后来遇到的的真正例越来越少，假正例越来越多，曲线趋于水平。

6. 提高分类准确率技术

组合分类器(ensemble)是一个复合模型，由多个分类器组合而成。个体分类器组合，组合分类器基于投票返回类标号预测。组合分类器往往比它的成员分类器更准确。

6.1 组合分类方法简介

常见的组合分类方法主要有装袋(Bagging)、融合(stacking)、提升(Adaboost)和随机森林。组合分类把 k 个学习得到的分类器模型 M1,M2,...,Mk 组合在一起，创建一个改进的复合分类模型 M∗ 。给定一个待分类的新数据元组，每个基分类通过返回类预测投票。
考虑一个被两个属性 x1,x2 描述的线性二分类问题
：
上图左是一个单决策树分类器决策边界，实际决策边界为以条直线。右图为组合决策树决策边界。尽管组合分类器的决策边界仍是分段常数，但它具有更好的解。

6.2 Bagging

给定数据集 D 包含 d 个数据元组，组合分类器数目为 k ，Bagging**过程**如下：

对每次迭代 i (i=1,2,...,k) ，采用自助法(bootstrap)，有放回地从 D 中抽样构成训练集 Di 。
对每个训练集 Di ，分别学习得到分类模型 Mi （决策树、神经网络等）。
对未知分类元组 X ，每个分类器 Mi 返回一个类标号（记作一票），统计票数最高的类标号赋给 X 。

Bagging 算法如下：

图解Bagging：

评价：

Bagging的准确率通常显著高于单个分类器，准确率的提高是因为复合模型降低了个体分类器的方差。另外能减少噪声和过拟合的影响，且更加鲁棒。

6.2 Stacking

给定训练集 D 包含数据元组 {X1,X2,...,Xn} ，对应的类别（可能相同）分别为 {y1,y2,...,yn} ，初始训练分类器数目为 k 个 {M1,M2,...,Mk} ，融合输出分类器为 M∗ ，Stacking过程如下：

训练集中的每个元组 Xi 经过每个初始训练分类模型得到 k 个输出 {Xi,M1,Xi,M2,...,Xi,Mk} 。
将 k 个输出与元组的类标号 yi 一起构成新的数据元组 X′i={Xi,M1,Xi,M2,...,Xi,Mk,yi} 。
整个每个新元组构成一个新的数据集 D′ ，训练得到融合输出分类器 M∗ 。

Stacking 算法如下：

图解Stacking：

6.2 Boosting

给定原始数据集 D ，假设训练 k 轮，boosting一般过程如下：

赋予每个训练元组一个权重，迭代地学习 k 次，每次学习得到一个分类器 Mi(i=1,2...,k) 。
而在得到分类器 Mi 之后，更新权重，使得后面的分类器 Mi+1 更关注于 Mi 误分类的元组。
最终提升的分类器 M∗ 组合每个分类器的表决，其中每个分类器投票权重是其准确率的函数。

Boosting 算法如下：

图解Boosting：

6.3 Adaboost

Adaboost(Adaptive Boosting) 是比较流行的提升算法。给定数据集 D ，包含 d 个类标记元组 (X1,y1),(X2,y2),...,(Xd,yd) ，其中 yi 为类标号，Adaboost的一般过程如下：

开始时，Adaboost对每个训练元组赋予相等的权重 1/d 。进行 k 次迭代，产生 k 个基分类器。
第 i 次迭代时，从 D 中有放回抽样形成大小为 d 的训练集 Di 。每个元组被选中的机会由它的权重决定。
接着从训练集 Di 中导出分类器 Mi ，使用 Di 作为测试集计算 Mi 的误差。
如果元组被错误地分类，则增加它的权重。反之，则反之。增加权重是为着重考虑这些分类困难的元组。
然后，使用这些权重为下一轮的分类器产生训练样本。使其更关注上一轮误分类的元组。（某些分类器可能对某些“困难”元组分类效果更好。）

一些涉及的计算：

① 求模型 Mi 的错误率，为误分类 Di 中每个元组的加权和： $e r r o r (M i) = \sum j = 1 d w i \times e r r (X j)$ 其中， err(Xj) 是元组 Xj 的误分类误差：如果 Xj 被误分类，则 err(Xj)=1 ；否则 err(Xj)=0 。如果 error(Mi)>0.5 ，则丢弃该分类器，并重新训练得到新的分类器。
② 更新权重，如果一个元组在第 i 轮正确分类，则其权重乘以： $e r r o r (M i) / (1 - e r r o r (M i))$ 一旦所有正确分类元组的权重都被更新（减小），就对所有元组权重规范化：乘以旧权重之和，除以新权重之和。结果使得，误分类元组权重增加，正确分类权重减小。
③ 分类器 Mi 的表决权重： $log 1 - e r r o r ( M i ) e r r o r ( M i )$ 分类器错误率越低，准确率就越高，因此它的表决权重就应当越高。
使用该分类模型预测未知元组 X 的分类时，将 X 通过每个分类器得到一些可能的分类，同时得到 k 个投票权重，对每个分类，计算权重和，则返回具有最大权重和的类作为 X 的类预测

Adaboost 算法如下：

评价：与Bagging相比，Adaboost**准确率高，但是由于关注误分类元组，容易产生过拟合**。

6.5 随机森林

随机森林(Random Forest)是一种特殊的组合分类器，每个个体分类器都是一颗颗决策树。不同的是，这里的个体决策树在每个结点使用随机选择的属性决定划分。

随机森林可以使用Bagging与随机属性选择结合来构建，给定 d 个训练元组的数据集 D ，其主要构造过程如下：

对每次迭代 i(i=1,2,...,k) 使用自助法从 D 有放回地抽样(Bootstrap Aggregation ) d 次，构成训练集 Di 。
设 F 是在每个结点决定划分数据集的属性数， F 远小于可用属性数。
为构造决策树分类器 Mi ，在每个结点随机选择 F 个属性作为该结点划分的候选属性。
使用CART算法来增长树，树增到最大规模，且不用进行剪枝。

这种使用随机输入选择形成的随机森林称为Forest-RI。

另一种形式为Forest-RC，使用输入属性的随机线性组合。

评价：

随机森林的准确率可以与Adaboost相媲美，但是对噪声和离群点有更好鲁棒性。
随着森林中树的增加，森林的泛化误差收敛，能够防止过拟合。
与决策树相比，不用考虑提前根据属性选择度量选择属性。
由于每次划分只考虑很少的属性，因此在大型数据库上非常有效。

6.6 拓展：探索Adaboost的数学之美

考虑初始版本Adaboost算法原理：

(1) 表决权重
在上述算法中，共有 T 次迭代，每次迭代 t 产生一个分类器模型 ht ，属于它的表决权重为：

α t = 1 2 ln (1 - ϵ t ϵ t)

每次迭代更新元组的权重分布为：

D t + 1 (i) = D t ( i ) Z t \times {e x p (- α t) h t (x i) = y i e x p (α t) h t (x i) \neq y i = D t ( i ) e x p ( - α t y i h t ( x i ) ) Z t

其中，

Dt(i) D t ( i ) 是上一次迭代元组的权重分布，

Zt Z t 为归一化因子，

yi y i 和

h(xi) h ( x i ) 为元组实际类标号和分类器类标，取值为1或-1，当二者相同时，乘积为1；不同时，乘积为-1。
输出为每个分类器的表决权重相加：

H (x) = s i g n (\sum t = 1 T α t h t (x))

定理 1 ：Adaboost总分类模型的误分类误差（总体误差）error随着 Zt 的最小而最小。
证明： $D t + 1 (i) = 1 m \cdot e - α 1 y i h 1 ( x i ) Z t \cdot . . . \cdot e - α T y i h T ( x i ) Z T = e - y i \sum t α t h t ( x i ) m \prod t Z t = e - y i f ( x i ) m \prod t Z t$ 其中， f(xi)=∑tαtht(xi) 。
对于元组 xi ，如果输出类别不是 yi ，则 H(xi)≠yi⇒yif(xi)⩽0⇒e−yif(xi)⩾1 。
从而 [[H(xi)≠yi]]⩽e−yif(xi)⇒1m∑i[[H(xi)≠yi]]⩽1m∑ie−yif(xi) 这里，模型错误率为 1m∑i[[H(xi)≠yi]] 。
继续： $1 m \sum i [[H (x i) \neq y i]] ⩽ 1 m \sum i e - y i f (x i) = \sum i (\prod t Z t) D T + 1 (i) = \prod t Z t$ 这里 ∑iDT+1(i)=1 。
因此，最小化 Zt ，就会最小化误差error上界: $min α Z t \Rightarrow min α \prod t Z t$ 定理得证。

yi 和 h(xi) 分别为元组真正分类和经过分类器模型的预测分类。 y,h(x)∈{−1,+1}
Z 为第 t 迭代使用的元组权重分布：

Z = \sum i D i e - α y i h (x i)

其中，采用概率期望思想得：

e - α y i h (x i) = e - α P (y i = h (x i)) + e α P (y i) \neq h (x i)

要取得最小值，从而最小化总体误差，对

α α 求导得：

\partial Z \partial α = - e - α \sum i D i P (y i = h (x i)) + e α \sum i D i P (y i \neq h (x i)) = 0

α = 1 2 ln \sum i D i ( 1 - P ( y i \neq h ( x i ) ) ) \sum i D i P ( y i \neq h ( x i ) ) = 1 2 ln 1 - ϵ ϵ

其中，

ϵ ϵ 表示每次迭代，单个分类器对元组的误分类误差。

(2) 误差上界

令元组权重加权和为：

r = \sum i D i y i h (x i)

其中，

Di D i 为每个元组的权重(

∑iDi=1 ∑ i D i = 1 )。

yi y i 和

h(xi) h ( x i ) 为元组实际类标号和分类器类标，取值为1或-1，当二者相同时，乘积为1；不同时，乘积为-1。则：

r = \sum i D i y i h (x i) = \sum i D i P (y i = h (x i)) - \sum i D i P (y i \neq h (x i)) = \sum i D i (1 - P (y i \neq h (x i))) - \sum i D i P (y i \neq h (x i)) = 1 - 2 ϵ (85) (86) (87)

从而，

ϵ=1−r2⇒α=12ln1+r1−r ϵ = 1 − r 2 ⇒ α = 1 2 ln ⁡ 1 + r 1 − r ，由此：

Z = \sum i D i e - α y i h (x i) = \sum i D i e - (1 2 ln 1 + r 1 - r) y i h (x i) = \sum i D i (1 + r 1 - r - - - - - \sqrt) y i h (x i) = \sum i D i (1 + r 1 - r - - - - - \sqrt P (y i \neq h (x i)) + 1 + r 1 - r - - - - - \sqrt P (y i = h (x i))) = 1 + r 1 - r - - - - - \sqrt ϵ + 1 + r 1 - r - - - - - \sqrt (1 - ϵ) = 1 1 - r 1 - r 2 - - - - - \sqrt 1 - r 2 + 1 r + 1 1 - r 2 - - - - - \sqrt 1 + r 2 = 1 - r 2 - - - - - \sqrt (88) (89) (90) (91)

最终，我们得到误差上界为：

1 m [[H (x i) \neq y i]] \leq \prod t Z t = \prod t 1 - r 2 t - - - - - \sqrt

随着迭代次数的增加，误差上界越来越小，并越来越趋近于0。这就是Adaboost的精确的很高原因所在。

Java程序设计（二十四）：基于SSM框架的基于的快递代取系统的设计与实现人工智能_SYBH 2025年java程序设计 java python 开发语言 spring boot spring 后端
引言随着电子商务的发展，越来越多的高校学生通过网购获取日常所需物品，快递服务也逐渐成为大学生活中不可或缺的一部分。然而，繁忙的学习与生活让部分学生无法及时领取自己的快递，因此基于高校校园的快递代取服务应运而生。本文将详细介绍如何基于SSM（Spring、SpringMVC、MyBatis）技术栈设计并实现一个高校快递代取系统，解决高校学生快递代取问题。通过该系统，管理员、代取人和发布者三类用户可以
电脑访问京东云私有云盘，电脑如何访问京东云私有云盘 windows-server
服务器远程连接是指通过网络技术，在远程位置控制和访问服务器。通过远程连接，用户可以在任何地方登录到自己的服务器，进行各种操作，如安装软件、运行程序、管理文件等，就像直接在服务器前操作一样。今天小编给大家讲解电脑如何访问京东云私有云盘。要使用电脑访问京东云私有云盘，您可以按照以下步骤进行操作：1.登录京东云控制台：打开京东云官方网站，输入您的账号和密码进行登录。2.访问私有云盘：登录后，在控制台的导
DRG／DIP医保结算中的偏差病例 DIPDRG分组器团队 dip 大数据
低倍率病例什么是低倍率？1、《国家医疗保障疾病诊断相关分组（CHS-DRG）分组与付费技术规范》中规定低倍率病例入组后住院费用一般低于该DRG病组支付标准30％。2、DIP低倍率病例入组后住院费用一般低于该DIP病种次均费用50％。低倍率病例产生的主要原因一是入组错误，即主要诊断选择错误、其他诊断或手术操作错填等，导致错误入组；二是治疗不充分，即患者由于病情过重出现死亡或者自身意愿提前自动出院，整
医疗机构关于DIP/DRG信息化建设 DIPDRG分组器团队数据库
推进DIP/DRG支付方式改革是一项系统性工程，牵一发而动全身。作为河北省DIP试点医院，河北医科大学第二医院将信息化与创新性管理理念融合，用好支付工具做好精细化管理，积极应对改革。■改革背景国家医疗保障局制定的《DRG/DIP支付方式改革三年行动计划》指出，为加快建立管用高效的医保支付机制，将分期分批加快推进改革进程：从2022到2024年，全面完成DRG/DIP付费方式改革任务，推动医保高质量
国际网络专线怎么开通？蓝讯小刘网络
在全球化日益加速的今天，企业越来越需要稳定、高效的网络来支撑他们的跨国业务。国际网络专线，作为外贸企业、出海企业等拓展全球业务的关键基础设施，其重要性不言而喻。那么，企业如何才能开通国际网络专线呢？本文将详细解析开通流程，帮助您的企业顺利搭建起通往国际市场的桥梁。一、选择服务商开通国际网络专线的第一步，是选择一个可靠的服务商。服务商不仅提供物理的网络连接，更应具备专业知识和技术支持，确保您的企业网
如何应对访问国外服务器缓慢的问题？SDWAN组网是性价比之选蓝讯小刘服务器运维
在全球化日益加深的今天，企业经常需要访问国外的服务器以进行远程办公、跨国业务处理、数据传输和视频会议等。然而，不少企业在使用中遇到了访问速度缓慢的问题。本文将介绍几种有效的解决方案，帮助提高访问效率。首先，我们来分析一下访问缓慢的原因：1.政策限制：为了维护国家网络的安全与稳定，我国对部分国外网站和服务器有一定的访问限制。2.技术障碍：国内与国际互联网的网络架构和协议存在差异，这可能导致数据传输不
企业如何安全合规地访问海外网站蓝讯小刘安全
国际专线、SD-WAN线路与VPN的利弊与风险在全球化背景下，中国的外贸企业以及海外公司分支机构、科研研发机构等，都需要频繁访问海外网站以开展正常业务。然而，企业访问海外网站的技术方式存在一定的合规风险。本文将概述三种访问海外网站的技术方式：国际专线、SD-WAN线路和VPN，并分析其利弊与风险。1.国际专线：这是一种合法合规的访问海外网站的方式，由国内三大通讯运营商授权或授权代理机构开通。虽然费
TikTok海外直播网络专线费用解析：跨境电商的网络新选择蓝讯小刘网络
在全球化的大潮中，跨境电商成为了连接不同国家和地区经济的重要桥梁。而要实现高效的跨境电商运营，稳定、高速的网络连接是必不可少的。TikTok海外直播网络专线即SD-WAN国际专线（就是土豆和马铃薯的区别），以其独特的优势，正逐渐成为跨境电商企业的首选网络解决方案。本文将深入解析SD-WAN国际专线的费用构成，并探讨其对全球跨境电商的影响。一、SD-WAN技术：跨境电商的网络新动力SD-WAN，即软
ESP32-C3入门教程环境篇①——简单介绍与硬件准备小康师兄 ESP32-C3入门教程物联网嵌入式 ESP32 ESP32-C3 WiFi
文章目录一、ESP32-C3简单介绍二、开发板差异三、开发板主要组件四、开发板原理图五、工作准备六、参考一、ESP32-C3简单介绍2.4GHzWi-Fi低功耗蓝牙高性能32位RISC-V单核处理器多种外设内置安全硬件二、开发板差异官方文档介绍了两种开发板ESP32-C3-DevKitM-1ESP32-C3-DevKitC-02认真看了下资料介绍，其实会发现两个开发板都差不多，底板功能pin都差不
【趣学SQL】第三章：数据处理与管理 3.2 分区表与分区索引——给数据库做“分舱救灾“的硬核指南精通代码大仙数据库 sql
第三章：数据处理与管理3.2分区表与分区索引——给数据库做"分舱救灾"的硬核指南欢迎来到「数据库装修大队」！今天我们将化身"数据空间规划师"，用一家年订单量破亿的外卖平台崩溃案例，教你如何像整理衣柜一样优雅管理海量数据。3.2.1分区表的概念——当数据库变成"春运火车站"血泪案例：某外卖平台未做分区，导致：查询3个月前的订单需要扫描20亿行数据促销活动时数据库IOPS飙到10万+（相当于春运期间所
如何修改Chromium内核|浏览器指纹伪装|Puppeteer指纹|Playwright指纹- Chromium内核修改与浏览器指纹伪装方法-anti-fingerprint指纹浏览器如何搭建环境药尘韩立前端 javascript 开发语言 python 自动化 ai
Chromium内核是许多现代浏览器的基础，如Chrome和Edge。在进行网络爬取、自动化测试或数据挖掘等任务时，使用Puppeteer或Playwright等工具时，浏览器指纹的重要性不言而喻。本文将介绍如何修改Chromium内核以及浏览器指纹伪装的方法，以构建一个抗指纹的浏览环境。首先，了解如何修改Chromium内核是至关重要的。您可以从Chromium源代码仓库中获取最新的代码，并根据
用文字“画出”流程图：用 AI+Mermaid.js 构建出你心中的可视化世界敏编程流程图 javascript mermaid
Mermaid介绍首先，什么是Mermaid?Mermaid.js是一款开源流程图/序列图的文本制作工具，它允许你使用简单的文本语法来创建各种类型的图表。无论你是开发者、学生还是普通用户，Mermaid.js都能帮助你将复杂的信息以直观、易懂的方式呈现出来。在AI技术的加持下，Mermaid现已支持把用户内容自动转成对应的文本语法，从而达到自动生成流程图的目地。这不仅提高了工作效率，还使非专业用户
账号IP属地：依据手机号还是网络环境？ hgdlip 网络 ip 网络 tcp/ip 服务器
在数字化生活中，账号的IP属地信息往往成为我们关注的一个焦点。无论是出于安全考虑，还是为了满足某些特定服务的需求，了解账号IP属地的确定方式都显得尤为重要。那么，账号IP属地根据手机号还是网络来确定的呢？本文将深入探讨这一问题。一、IP地址与账号属地显示的基本原理IP地址，即互联网协议地址，是互联网中用于唯一标识网络设备的数字标签。每当我们的设备（如手机、电脑）连接到互联网时，都会被分配一个或多个
网络传输中的三张表，MAC地址表、ARP缓存表以及路由表 h490516509 网络编程
一：MAC地址表详解说到MAC地址表，就不得不说一下交换机的工作原理了，因为交换机是根据MAC地址表转发数据帧的。在交换机中有一张记录着局域网主机MAC地址与交换机接口的对应关系的表，交换机就是根据这张表负责将数据帧传输到指定的主机上的。交换机的工作原理交换机在接收到数据帧以后，首先、会记录数据帧中的源MAC地址和对应的接口到MAC表中，接着、会检查自己的MAC表中是否有数据帧中目标MAC地址的信
工程项目管理流程示意图数据可视化
借助图形天下强大的关系数据可视化技术，该流程图清晰地展示了工程项目从立项到结束的完整流程。从开始的立项、文档评审，到工程量清单、价格咨询，再到招投标、签订合同、开展工程，直至最后的结算和收尾工作，每一环节都紧密相连，通过直观的图形展示，使得复杂的关系数据可视化，便于理解和管理整个项目流程。工程项目管理流程示意图这一流程不仅确保了项目的顺利推进，还有效监控
系统安全架构之车辆网络安全架构小正太浩二安全架构 web安全架构
一、简介随着汽车的智能化和互联化，车辆网络安全架构的重要性日益凸显。现代汽车越来越依赖于计算机和网络技术，车载电子设备数量增加，不同设备之间的互联性增强，这使得车辆网络系统容易受到网络攻击。对于汽车而言，安全问题已经不再只是关乎车辆本身的问题，而是涉及到了乘客的安全和隐私，甚至是道路安全和整个社会的安全。因此，确保车辆网络的安全性和可靠性已成为了汽车安全的重要组成部分。二、车辆网络安全的威胁和挑战
Alibaba Spring Cloud 十三 Nacos，Gateway，Nginx 部署架构与负载均衡方案空灵宫（Ethereal Palace） Alibaba Spring Cloud spring cloud gateway nginx
在微服务体系中，Nacos主要承担“服务注册与发现、配置中心”的职能，Gateway（如SpringCloudGateway）通常负责“路由转发、过滤、安全鉴权、灰度流量控制”等功能，而Nginx则常被用作“边缘反向代理”或“统一流量入口”。在实际项目里，这三者经常组合使用，以实现高扩展、高可用、可观测且灵活的流量调度。一、Nacos+Gateway+Nginx的常见部署架构一般来说，可以把Ngi
纳米级sic 立方碳化硅 beta相碳化硅颗粒 Sun_13250243710 功能性纳米材料纳米sic 纳米碳化硅立方碳化硅碳化硅颗粒 beta sic
纳米级立方碳化硅（β-SiC）颗粒是一种具有独特性能和广泛应用前景的材料，以下是具体介绍：结构与性质晶体结构：属于立方晶系，具有金刚石晶型结构。物理性质：高硬度：莫氏硬度为9.25-9.6，维氏硬度可达2500-2900kg/mm²，使其具有出色的耐磨性能。高热导率：热导率为0.063-0.096J/（cm・l・s・K），能快速传导热量，可有效散热。低热膨胀系数：在不同温度下有不同的热膨胀系数，如
【深度学习】常见模型-卷积神经网络（Convolutional Neural Networks, CNN） IT古董人工智能深度学习机器学习深度学习 cnn 人工智能
卷积神经网络（CNN）概念简介卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一种专门用于处理数据具有网格状拓扑结构（如图像、语音）的深度学习模型。它通过卷积操作从输入数据中提取局部特征，并逐层构建更复杂的特征表示，广泛应用于图像分类、目标检测、语音识别等领域。关键组成部分卷积层（ConvolutionalLayer）使用卷积核（滤波器）在输入上滑动，提取局部特征。
solidity基础 -- 映射迭代第十六年盛夏. Solidity 区块链智能合约
前提提要本文中出现的所有代码均可在本人GitHubGitHub--solidity学习代码中查询到基本概念在Solidity中，映射是一种非常有用的数据结构，它允许我们通过键来快速访问值。然而，映射本身是不可迭代的，这意味着我们不能直接遍历映射中的所有键值对。在某些情况下，我们需要对映射中的数据进行迭代操作，例如在处理用户余额、资产记录等场景时。为了实现映射的迭代功能，我们可以结合使用数组和映射来
DigitalOcean Kubernetes现已支持VPC natvie集群 DO_Community kubernetes
DigitalOceanKubernetes(DOKS)的VPCnatvie集群功能现已正式上线！这一新功能实现了DOKS集群与虚拟私有云（VPC）资源之间的无缝集成，提升了工作负载的网络灵活性和可扩展性。什么是VPCnatvie集群？VPCnatvie集群支持Kubernetes集群与VPC资源之间进行原生路由。这意味着你的DOKS集群可以作为现有VPC网络架构的自然扩展，提供更流畅的连接和更好
NVIDIA L40s、A10、A40、A100、A6000横评，哪个GPU 更适合 AI 推理任务？ DO_Community 技术科普商业建议人工智能 gpu算力 DigitalOcean ai AIGC
近年来，随着人工智能技术的发展，特别是深度学习模型的广泛应用，GPU（图形处理单元）作为加速计算的重要硬件，在AI领域扮演着越来越重要的角色。AI推理是指已经训练好的模型对新数据进行预测的过程。与训练阶段相比，推理通常对GPU的要求有所不同，更注重于能效比、延迟以及并发处理能力。本文将从这些角度出发，对比分析NVIDIA的L40s、A10、A40、A100、A6000五款GPU在AI推理任务中的表
ARM 处理器架构简介 ASMARM ARM ARM 处理器架构
ARM架构是构建每个ARM处理器的基础。ARM架构随着时间的推移不断发展，其中包含的架构功能可满足不断增长的新功能、高性能需求以及新兴市场的需要。有关最新公布版本的信息，请参阅ARMv8架构。ARM架构支持跨跃多个性能点的实现，并已在许多细分市场中成为主导的架构。ARM架构支持非常广泛的性能点，因而可以利用最新的微架构技术获得极小的ARM处理器实现和极有效的高级设计实现。实现规模、性能和低功耗是A
【趋势】《2024—2026金融科技十大趋势预测》一览学客汇商业研究商业观察人工智能大数据金融科技科技洞察 IT趋势金融行业预测
本白皮书基于新华三在金融行业的前沿实践和IDC的全球研究成果，深入分析了金融科技领域的十大关键趋势，旨在为金融机构提供前瞻性的战略指导和业务创新的参考。导言当前，在地缘政治冲突加剧、商业经济市场环境高度不确定、数字化业务加速发展的背景下，金融行业处于深度变革的潮流中，金融机构亟需重新思考其在技术支出、业务决策及业务创新发展等方面的投资重点。此外，金融机构也越来越需要借助大数据和AI技术来提升业务的
航空客户价值的数据挖掘与分析（numpy+pandas+matplotlib+scikit-learn） Want595 Python数据分析数据挖掘 numpy pandas
文章目录航空客户价值的数据挖掘与分析（numpy+pandas+matplotlib+scikit-learn）写在前面背景与挖掘目标1.1需求背景1.2挖掘目标1.3项目概述项目分析方法规划2.1RFM模型2.2LRFMC模型指标2.3分析总体流程图数据抽取探索及预处理3.1数据抽取3.2数据探索分析3.3数据预处理3.3.1数据清洗3.3.2属性规约3.3.3数据变换数据建模&应用4.1模型构
【趣学SQL】第八章：SQL 实战案例 8.2 SQL 性能监控与调优——给数据库装上“心电图仪“的硬核指南精通代码大仙数据库数据库 sql
第八章：SQL最佳实践8.2SQL性能监控与调优——给数据库装上"心电图仪"的硬核指南欢迎来到「数据库急诊监护室」！今天我们将化身"SQL性能侦探"，用一家日活百万的虚拟吃瓜论坛"瓜田社"的崩库案例，教你如何用监控工具抓住"性能杀手"，让数据库从"垂死挣扎"变"生龙活虎"。8.2.1常见的监控工具——数据库的"健康手环"全家桶工具1：Prometheus+Grafana（豪华体检套餐）#prome
[RHEL7基础篇-4] 用户和权限 JoveZou #RHEL7 基础篇 Red Hat Enterprise Linux linux rhel
[RHEL7基础篇-4]用户和权限简介用户和权限用户和组权限简介在RHEL7当中控制用户权限有DAC和ACL两种方式来控制文件或目录对于相应用户或组的权限，有的时候管理员为了系统安全往往会把root用户给藏起来，不给ssh远程登录，那时我们将使用到sudo来临时获得root用户的权限，或者通过su来切换到拥有权限的用户进行操作，该篇将会讲述用户和权限的相关配置与使用，以及如何临时获得root权限与
BGP路由器协议排错教程：BGP 路由通告的排错 AMZ学术 BGP路由器协议排错网络网络协议负载均衡服务器 tcp/ip
工程师很容易对BGP路由通告产生误解，这是本章第一个需要解释清楚的概念。4.1.1本地路由通告问题假设现在有一台路由器，它要把网络10.1.0.0/16和10.0.0.0/8放到BGP中，以便这些前缀可以被通告给其他路由器。例4-1中展示了与此相关的基本配置。例4-1基本的10.1.0.0/16网络通告和10.0.0.0/8聚合R1#showrun|srouterbgprouterbgp100no
什么是CSP？全面了解内容安全策略（Content Security Policy）山禾女鬼001 网络协议网络安全
CSP（ContentSecurityPolicy）是一种网络安全机制，旨在减少或消除跨站脚本（XSS）和数据注入攻击。它通过提供一种允许网站管理员控制哪些资源可以在网页中加载、执行，从而有效提升网站的安全性。CSP的基本概念CSP的核心思想是，通过限制网页可以加载的外部资源，防止恶意脚本通过第三方资源注入到网站中。具体来说，CSP通过一个名为Content-Security-Policy的HTT
Intersection Observer实现图片懒加载廊坊吴彦祖 js javascript js html html5
IntersectionObserver实现图片懒加载IntersectionObserver的概念和用法IntersectionObserverAPI提供了一种异步检测目标元素与祖先元素或viewport相交情况变化的方法，可以自动“观察”元素是否可见，可见的本质是目标元素与视口产生一个交叉区域，所以这个API叫做“交叉观察器”IntersectionObserverAPI允许你配置一个回调函数
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

数据挖掘读书笔记--第八章(下)：分类：模型评估与选择、提高分类器准确率技术

散记知识点

5. 模型评估与选择

6. 提高分类准确率技术

你可能感兴趣的:(数据挖掘概念与技术读书笔记)