weixin_39842955

回归问题的置信区间AUC_样本不平衡问题操作手册

引言

何谓样本不平衡——简单来说就是数据集中负样本的数量远远大于正样本的数量。在这个情况下，模型就会倾向于把样本预测为负样本，因为这是最便捷的降低损失、提高模型准确率的方法。例如：有一个正样本数量为1，负样本数量为99的数据集，模型就算无脑地把全部样本预测为负样本也能达到99%的准确度，试想有这么一个分类器，每次我们把数据喂‘给它时，在不调整阈值的情况下，它都倾向于把测试集的样本预测为负样本，你觉得这样的分类器还会是一个好的分类器吗？

下面以一个真实业务数据集为例，展现一下提高分类器表现的过程。

知乎不能生成目录，大家凑合着看

分类器评估标准

首先最重要的是要意识到准确率accuracy已经不再适用。

至于评估分类器的其他指标如召回率(Recall)，精确度(Precision)等虽然可以直观得衡量模型捕捉少数类样本的能力，但是在不同的概率阈值下，它们都会发生改变，我们可以通过改变概率阈值达到自己的目的——“如果我们需要尽可能地捕捉少数类即提高召回率，可以适当得降低概率阈值；相反，如果我们希望捕捉少数类的命中率越高越好即提高精确度，我们可以适当得提高概率阈值。”

	预测值=1	预测值=0
真实值=1	11	10
真实值=0	01	00

；

AUC或者是P-R曲线的面积是可参考的综合指标。

1.Precision-Recall曲线，因为同一个分类器下，使用不同的概率阈值对同一个测试集的样本进行预测，随着概率阈值的变化，Precision(精确度)和Recall(召回率)是成反比的，所以P-R曲线呈现出一个抛物线，不同的分类器有不同的抛物线，计算该抛物线下的面积是评估标准之一；

2.其次是ROC曲线，它的思想和P-R曲线类似，基于不同阈值下，分类器的FPR(FPR=1-Precision)和Recall是成正比的，所以在图像上就表现为一个正比例曲线，该曲线下的面积就是auc的大小。

“ROC的曲线越靠近左上角，auc的值就越大，我们可以通过调整相应的概率阈值，使得FPR尽可能小的同时(Precision尽可能大),Recall的值也尽可能大；召回率Recall较高，说明分类器可以把为数不多的正样本都找出来，当特异度FPR较小，说明我们分类器并没有误伤多数类样本，因为Precision = 1-FPR，所以精确度Precision也会较高，说明分类器预测为少数类的样本中，确实为少数类的样本数量较多，这样，我们就可以大胆得说这是一个不错的分类器了”

3.G-Mean(recall和precision的几何平均数)，F1-score(precision和recall的调和平均数)也是可参考的评估标准

数据集介绍

	负样本数量	正样本数量	总数
训练集	1336617	1797	1338414
测试集	572912	693	573605

“训练集的正负样本比例约为1：743，测试集的正负样本比例约为1：826；训练集的样本数量大约是测试集的2倍“

Baseline

其实分类算法——逻辑回归、支持向量机等在训练模型有帮助解决样本不平衡问题的参数——class_weight，虽然理论上单个分类器的效果远不如集成学习器，但可以简单感受一下这些参数能否带来改变。 注：逻辑回归、支持向量机因为涉及梯度、距离的计算，所以在训练之前需要对连续性特征进行标准化，也可以提高运算速度

结果汇总

Model	训练集auc	测试集auc	训练集PR	测试集PR
Gradient Boosting Trees	87.89	86.02	8.59	1.66
Random Forest_withoutbalanced	100.0	69.54	100.0	0.92
Logistic Regression_withbalanced	82.31	82.81	0.92	0.76
Logistic Regression_withoutbalanced	79.32	80.54	0.77	0.62
Random Forest_withbalanced	100.0	65.01	100.0	0.49

实践证明，使用逻辑回归的class_weight = ‘balanced’对auc和PR值都略有提升；但使用此参数后随机森林的表现反而降低了。

关于class_weight & scale_pos_weight

class_weight——支持向量机、逻辑回归

我们先看看逻辑回归的损失函数——(支持向量机同理，只不过是交叉熵损失换成了Hinge Loss)

当正则化系数C逐渐变小，正则化强度就会逐渐增大，参数的θ的取值就会逐渐减小，相对应的预测概率值就会减小 ——“因为，当正则项时,和正则项的比是1：1，当C减小，相对地，部分就会增大，损失函数对它的惩罚就加重，导致就会压缩得越来越小“。

（注意这里的正则化系数的位置，不同于之前的

，这里的C越大，正则化的强度越大，对系数的大小压缩程度就越大。）

逻辑回归class_weight参数的底层原理就是在训练模型时根据正负样本的数量改变C的大小，其中，正样本的数量较少，则对应的C的取值较大，从而对θ的压缩程度较小，则相应得能提高预测概率值。

scale_pos_weight——XGBoost

XGBoost中存在着调节样本不平衡的参数scale_pos_weight,通常我们在参数中输入的是负样本量与正样本量之比

底层原理：通过scale_pos_weight改变了正负样本的权重，进而改变了正负样本损失函数的大小，最终改变了样本的概率预测值 wi。

#源码截取：
w = 1 #默认是1
if (label == 1.0f) {
            w *= scale_pos_weight;
          }
# w = scale_pos_weight,即负样本的数量/正样本的数量
# 改变了损失函数，即改变了损失函数的一阶导和二阶导大小，落到每个叶结点的概率预测值也随之改变。
_out_gpair[_idx] = GradientPair(Loss::FirstOrderGradient(p, label) * w,
                   Loss::SecondOrderGradient(p, label) * w);

XGBoost第t棵树的损失函数：

样本落在第t棵树的第j个叶子节点的概率预测值为：

“其中是损失函数关于上一棵树的预测值的的一阶导，是损失函数关于上一棵树的预测值的二阶导，当正样本的损失函数发生改变，相应的叶子节点的预测值也会发生改变。”

本质上说，scale_pos_weight参数也是通过调节样本的预测概率值来改变预测结果，当我们需要提高模型的评估标准 ——如 auc、召回率recall的大小等，可以通过调整scale_pos_weight参数达到我们的目的；但是，假如需要确切了解每个样本为正样本的可能性大小时，不宜使用scale_pos_weight参数。

改进方法一：XGBoost

经验上来看，XGBoost的效果应该会优于GBDT，实际效果是不是这样呢？

调整XGBoost的参数

能够调整的参数如下:

第一步：学习率和迭代次数

1.eta/learning_rate(学习率):0.1#为了加快收敛速度，先设定一个较大的值；

2.n_estimators/num_round(迭代次数):100~1500

第二步：调整树的参数(主要为了解决过拟合问题)

1.1 max_depth(树的深度):4-9

1.2 min_child_weight:3-16;

2.1 gamma：

2.2 reg_lambda(L2正则项)：1~10

2.3 reg_alpha(L1正则项)：1~10

3.1 subsample(从样本进行采样的比例):0.5~1.0

3.2 colsample_bytree(构造每一棵树的随机抽样出的特征占所有特征的比例)：0.5~1.0

第三步：样本不平衡的参数(尝试)

scale_pos_weight:

第四步：降低学习率，提高迭代次数(为了提高准确率)

eta/learning_rate:0.01

n_estimators:1000

结果汇总

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
93.15	86.84	17.8	1.89	XGBoost	默认参数
96.32	86.86	14.02	1.77	XGBoost	scale_pos_weight = 100
94.89	87.21	25.49	1.81	XGBoost	colsample_bytree = 0.55
93.17	87.22	17.32	1.98	XGBoost	reg_lambda = 9.5
91.16	87.35	9.01	1.8	XGBoost	reg_alpha = 6.5

“scale_pos_weight’作为官方指定的针对样本不平衡问题的参数，使用之后，虽然训练集的表现提高了，但是测试集的表现还不如默认参数，说明该参数并不能提高模型的泛化能力，也许在测试集和训练集分布更接近的情况下效果会有所不同“；

“‘colsample_bytree=0.5时’虽然提高了模型在测试集上的表现，但是加剧了过拟合的现象”；

“基于此数据集，调整正则项的效果是最优的，不仅可以缓解过拟合，而且提高了模型在测试集auc的表现”。

改进方法二：重采样 + XGBoost

重采样(Over-Sample，也翻译为过采样)即通过一定的方法增加正样本的数量，使正样本和负样本数量之比趋于平衡；关于增加正样本的方法无非有两种，一是从正样本的数据集中随机挑选出为达到我们目标正负样本比例的正样本数量；二是通过线性插值的方法，随机生成正样本。

什么是线性插值呢？简单来说就是选择两个点A、B，连成线之后随机选择一个步长产生一个新的点。

线性插值选择基准点A的方法不同，就构成了不同生成正样本的方法：

图片选自知乎用户@程小新的回答

图片选自知乎用户@程小新的回答

以SMOTE和BorderlineSMOTE为例，普通的SMOTE是从所有的少数类样本中随机选择一个点A，在从这个A的K个近邻中随机挑选一个B，把A-B连线，然后随机选择一个步长steps，就能生成一个正样本；不断重复该步骤，就能生成我们想要的数量；

BorderLine选择A点的规则不同，它倾向于选择被负样本包围的正样本，然后也是从 K个近邻中随机挑选一个点构成B，然后再线性插值生成一个正样本；

不同的SMOTE就是选择A点的方法不同，在此不一一枚举。

具体算法细节可查看:https://imbalanced-learn.org/

结果汇总

重采样方法效果全览：

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数	耗时
99.79	80.11	99.81	0.55	ADASYN	默认参数(采样后1:1)	2h51m
99.98	79.03	99.98	0.5	BorderlineSMOTE	默认参数(采样后1:1)	2h50min
99.76	80.28	99.97	0.59	SMOTE	默认参数(采样后1:1)	4sec
96.18	85.41	95.74	1.48	RandomOverSampler	默认参数(采样后1:1)	4sec

改变重采样后正负样本的比例

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
95.1	86.94	37.47	1.74	RandomOverSampler	sampling_strategy = 0.005(重采样后1：200)
95.6	87.05	56.1	1.77	RandomOverSampler	sampling_strategy = 0.02(重采样后1：50)

重采样后，调整正则项

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
97.38	86.95	69.85	1.67	RandomOverSampler	sampling_strategy = 0.02(重采样后1：50);reg_lambda=10.5
95.01	87.33	29.56	1.6	RandomOverSampler	sampling_strategy = 0.002(重采样后1：500);reg_lambda=9.5
96.83	87.24	51.39	1.64	RandomOverSampler	sampling_strategy = 0.004(重采样后1：250);reg_lambda=4.5

“使用重采样的方法之后，虽然平衡了正负样本比例(默认参数是1：1)，但无论是线性插值还是随机采样的重采样方法都增加了不少冗余数据和噪音数据，这时候分类器可能把少数类样本都判断正确了，但同时也会误伤不少多数类样本，使得模型在各个指标的表现还不如原数据集；当改变重采样后正负样本的比例，虽然表现仍然不如原数据集，但是相对于默认参数，模型的表现略有提升，这启发我们训练模型时，训练集的正负样本比例不能过于偏离验证集；

无论是原数据集还是重采样后的数据集，调整正则项都对模型的AUC和P-R值有所提升。“

改进方法三：降采样 + XGBoost

降采样(Under_Sampling)，如果说重采样是想尽办法增加正样本，那么降采样就是想尽办法减少负样本；除了随机抽样的降采样方法之外，其他所有的降采样的方法都可以总结为“清除噪音数据”，定义噪音数据的规则不同，就形成了不同的降采样方法，因为是根据噪音数据进行降采样，必须是满足算法定义的噪音才能够被清除，所以很多方法我们并不能控制降采样后的正负样本比例。

A11KNN

ENN-1

ENN-2

简单看来，第一降采样方法——A11KNN，似乎对噪音的清除不如后两种彻底；但是它们都倾向于清除夹杂在正负样本之间的数据。

具体算法细节可查看：https://imbalanced-learn.org/

结果汇总

降采样方法总览

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数	耗时
94.38	87.61	20.44	2.34	A11KNN	默认参数(降采样后1：1)	7h30m
99.18	86.64	99.34	1.3	RandomUnderSampler	默认参数(降采样后正负样本比例几乎没有变化)	1sec
100.0	32.58	100.0	0.1	ClusterCentroids	默认参数(降采样后1：1)	1h2m
100.0	70.72	100.0	0.25	NearMiss	默认参数(降采样后1：1)	16sec

改变降采样后正负样本的比例

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
93.39	86.9	20.64	1.91	RandomUnderSampler	sampling_strategy = 0.002(重采样后1：500)
94.5	87.01	52.7	1.67	RandomUnderSampler	sampling_strategy = 0.02(重采样后1：50)
96.43	87.15	88.91	1.46	RandomUnderSampler	sampling_strategy = 0.2(重采样后1：50)

“降采样去除了一部分多数类样本，虽然在提高运行速度的同时也使样本比例趋于平衡，但是同时也使得模型失去了不少的学习机会，使得结果偏向于少数类，导致把部分多数类的样本分错,最终模型的相关评估指标反而还不如降采样之前，在尝试了不同的采样后正负样本的比例之后，结果有所改善。“

降采样后调整正则项

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
92.48	87.3	16.69	1.97	RandomUnderSampler	sampling_strategy = 0.002(重采样后1：500)；reg_lambda=5.5
92.38	87.33	23.79	1.86	RandomUnderSampler	sampling_strategy = 0.005(重采样后1：200);reg_lambda=10.5
93.47	87.53	61.36	1.64	RandomUnderSampler	sampling_strategy = 0.05(重采样后1：20);reg_lambda=10.5
92.94	87.36	34.19	1.95	RandomUnderSampler	sampling_strategy = 0.01;reg_lambda= 9.0

改进方法四：混合采样 + XGBoost

既然重采样可能增加噪音数据，而降采样可以清除噪音数据，如果把两种方法结合，结果又会如何呢？

结果汇总

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
99.78	80.23	99.81	0.55	SMOTENN	默认参数
99.76	80.15	99.78	0.61	SMOTETomek	默认参数

改变一下混合采样后，正负样本的比例

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
99.22	84.35	89.32	0.76	SMOTENN	sampling_strategy = 0.02

”auc和P-R值都不如单纯的使用降采样或者重采样”

改进方法五：改进的集成算法

传统的Bagging(袋装)集成学习器——如随机森林，虽然是集合了多个基分类器，但是在训练每个基分类器时，都是基于一个不平衡样本(从训练集中随机有放回到地采样），所以最终训练的模型为了追求低损失，还是会将预测结果偏向多数类；为了改善此现象，可以把每个基分类器的训练数据设定为经过重采样(bootstrap)后的平衡数据，然后再综合每个基分类器的预测结果官方API: [1] https://imbalanced-learn.org/stable/ensemble.html; [2] https://imbalanced-learn.org/stable/auto_examples/ensemble/plot_comparison_ensemble_classifier.html#sphx-glr-auto-examples-ensemble-plot-comparison-ensemble-classifier-py

BalancedRandomForestClassifier

即改进的随机森林，训练每一棵决策树都是基于一个降采样后的数据集——因为直接降采样之后再训练集成算法有可能丢失不少信息量，如果把原数据集的多数类样本分成若干份，这若干份的多数类样本都和少数类样本集合成一个个训练集提供给随机森林(这样就能充分利用每一个多数类样本)。

结果汇总

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
98.36	85.61	14.21	0.91	BRFC	默认参数
99.28	86.36	28.72	0.98	BRFC	sampling_strategy =0.5

“基于此数据集，改进后的随机森林方法的确优于原始的随机森林方法。“

[题外话]——为什么GBDT和XGBoost不能用这种改进方法？

因为RFC(随机森林)训练每一棵决策树都是并行的，每一棵树的训练集可以不同；而GBDT和XGBoost是串行的，每一棵树的训练集必须相同。

”和XGBoost、GBDT相比，除了基分类器的训练数据不同，每一个基分类器(每一棵树)的形成原理也不同——前者是拟合梯度，往梯度下降的方向生成决策树；后者是根据信息增益‘’

训练集auc	测试集auc	训练集PR	测试集PR	方法	方法
99.26	86.19	29.48	1.02	RandomUndersample+RFC	先降采样到1:500;然后使用BFC

改进方法六：基于AdaBoost的集成——EasyEnsemble&BalanceCascade

为什么算法的作者要选择AdaBoost作为基分类器？首先，AdaBoost的每一个基分类器(每一棵树)的权重都是基于训练结果决定；其他的集成算法如GBDT、XGBoost的基分类器的权重都是不变的超参数，事先决定的，和训练结果无关；其次AdaBoost还有一个特点就是在训练每一个基分类器(每一棵树)之后都会根据训练结果改变训练集的样本权重——增加分类错误的样本，降低分类正确的样本权重；

Q1:传统的AdaBoost和这两种方法有什么不同？

1.AdaBoost的基分类器是树模型；而后者的基分类器是AdaBoost——集成算法的集成；

2.AdaBoost在训练每一个基分类器时都是基于整个数据集；而后者的基分类器在训练数据时都是基于一个随机降采样后的数据集(比例可以选择，不一定是1：1)

Q2:BalanceCascade和EasyEnsemble相比作了什么优化

EasyEnsemble

EasyEnsemble

EasyEnsemble只是简单的基于AdaBoost的集成，阈值是固定的事先选定的超参数，最终标签的决定是使用投票法；

Balance Cascade也是基于AdaBoost的集成，但是每一个基分类器都有各自的概率阈值，换言之，概率阈值不再是超参数，会根据每一个基分类器的训练结果改变，然后把预测正确的多分类样本删除，再从剩下的样本中进行Boostrap方法的降采样，最终的标签预测值也是由投票法决定，见下图

而BalanceCascade的每一个基分类器的概率阈值又是如何决定的呢？

“训练出一个基分类器——AdaBoost之后，对全体多数类样本进行预测，得到每一个多数类样本的概率预测值；得到多数类样本的概率预测值之后，开始计算为达到特定的假正率(FPR)——概率阈值应该设定的大小（联想假正率(FPR)的意义：所有多数类样本中被预测错误的比率，为了达到较低的假正率(FPR)，需要较高的预测概率阈值，这时候被误伤的多数类样本就越少），在这么高的概率阈值下，都能把这部分的负样本预测错误，说明它们对正样本的预测干扰较大，应该留下来继续训练，其他预测正确的多数类样本可以移除；

结果汇总

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
98.65	85.78	16.17	0.93	EasyEnsemble	默认参数,基分类器adaboost
89.93	86.66	4.17	1.72	EasyEnsemble	默认参数，基分类器是GBDT
98.17	87.25	39.52	1.93	EasyEnsemble	默认参数,基分类器是XGBoost
87.89	1.32	86.51	1.05	BalanceCascade	默认参数，n_estimators = 100

“基于此数据集使用‘EasyEnsemble’的方法，似乎可以提高模型(GBDT)的泛化能力。“

“BalanceCascade方法虽然在测试集的不如XGBoost(和GBDT差不多)但是其泛化能力和稳定性似乎是最好的，是否可以尝试优化这个模型？“

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
88.16	1.38	86.42	0.96	BalanceCascade	基分器数量不变，把基分器Adaboost调成更复杂

很遗憾，只提高了训练集的表现，并没有提高测试集的表现。

[注]

BalanceCascade是09年左右提出的方法，这个方法关注的是当前的基分类器——一个AdaBoost分类错误的负样本，如果分类错误就留下来给下一个基分类器继续训练，分类正确就删除；同时还不要忘了AdaBoost的特点——增大分类错误样本的权重(无论正负)。这种思想最大优点就是可以增强模型的复杂度，但是又让人不免担心有过拟合的风险，除非测试集的正负样本和训练集的分布类似——‘噪声类‘数据较多。

假如噪声类数据不多，或者我们比较关注模型的泛化能力，10年之后又有人提出了一个新的算法

——Self-paced Ensemble

改进方法七：Self-paced Ensemble

首先需要认识以下几个概念：

1.分类硬度分布——Hardness contribution

其实就是损失函数——交叉熵，平方根误差rmse或者平均绝对值误差mae，可以理解为分类难度，损失函数越大，分类难度就越大；

2.基分类器是什么？

可以是集成算法、也可以是单一的分类器；

3.训练每一个基分类器的数据是怎样的？

都是降采样后的数据，和改进方法六类似；但是不舍弃任何数据，而且采样的方法有创新：简单来说就是，把多数类样本分成两类，噪声类数据和非噪声数据，我们的模型应该集中训练非噪声数据，即噪声数据采样的权重较小，非噪声数据采样的权重较大；

其中，噪声和非噪声是一个相对的概念，由分类硬度函数决定(Hardness contribution)——这个函数的大小也决定了对多数类样本的采样情况，而且分类硬度函数的大小随着基分类器的增加会发生变化，降采样后的数据也会发生变化——这也是自适应(Self-paced)的由来。

“因为普通的随机降采样方法不能保证采样后的数据在空间上的分布和采样前的一致，所以此方法先通过对多数类样本进行分箱，然后每一箱都抽取一定的比例和少数类样本组成1：1的训练集训练基分类器；这样就能保证每一次训练基分器的多数类样本分布都能和原数据的多数类样本保持一致；具体抽取的比例根据每一箱的分类难度而定，对于易误分类的样本，抽取的数量较少，反之较多，这样的优点是能够保证分类器的鲁棒性以及减轻对噪声的敏感性”

结果汇总

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
89.41	85.41	1.46	0.73	基分类器是GBDT	n_estimators=100
99.7	87.06	92.87	1.23	基分类器是XGBClassifier	n_estimators=150
100.0	86.16	100.0	1.2	基分类器是决策树	n_estimators= 350

降采样到1：50，后使用SPE

训练集auc	测试集auc	训练集PR	测试集PR	方法	参数
99.72	87.25	97.74	1.27	基分类器是XGBclassifier	n_estimators=100
89.54	85.4	18.84	0.74	基分类器是GBDT	n_estimators=100

经验总结

首选方法：

降采样：一般是用来平衡数据集、去噪。平衡数据集的有随机欠采样/NearMiss，采样和训练速度都很快。随机欠采样在任何情况下都能用，但在数据集不平衡程度较高时会不可避免地丢弃大部分多数类样本造成信息损失。NearMiss对噪声极端敏感，有噪声基本就废掉。去噪方法有很多，如Tomeklink，AllKNN等，需要数据集上有良好定义的距离度量，在大规模数据集上计算量大。去噪之后对有的分类器有效，有的无效。
集成：随机降采样+集成，在不平衡比较高时需要较多的基学习器来达到较好的效果。注意Boosting容易被噪声影响，Bagging方法是真正的万金油，增加基学习器数量效果一般不会下降。高级降采样+集成，也可以尝试，运行会慢并且效果不能保证比随机方法好。高级过采样+集成，同上，数据规模大且不平衡程度高情况下，训练样本数量爆炸。尤其是集成方法还要训练好多个基学习器。BalanceCascade，信息利用效率高，只用很少的基学习器就能达到较好的效果，但对噪声不鲁棒。

效果不大的方法：

过采样：随机过采样任何情况下都不要用，及其容易造成过拟合。SMOTE、ADASYN在小规模数据上可以一试。当数据规模大且不平衡程度高时，过采样方法生成巨量的合成样本，需要很多额外计算资源。同时此类过采样基于少数类样本的结构信息，在少数类的表示质量很差时甚至会反向优化：过采样效果还不如直接训练。
混合采样：理论上加入了去噪类的欠采样算法来清洁过采样之后的数据集。实际使用起来我没感觉到有什么不同，唯一的区别是加了去噪方法之后更慢了。

参考资料

[1] 极端类别不平衡数据下的分类问题S01：困难与挑战 - 刘芷宁的文章 - 知乎 https://zhuanlan.zhihu.com/p/54199094

[2] 极端类别不平衡数据下的分类问题S02：问题概述，模型选择及人生经验 - 刘芷宁的文章 - 知乎 https://zhuanlan.zhihu.com/p/66373943

[3] Self-paced Ensemble: 高效、泛用、鲁棒的不平衡学习框架 - 刘芷宁的文章 - 知乎 https://zhuanlan.zhihu.com/p/86891438

[4] 机器学习不平衡数据处理参考 - 小方哥哥的文章 - 知乎 https://zhuanlan.zhihu.com/p/68099299

[5] sklearn中SVC和LogisticRegression的class_weight作用？ - 何事秋风的回答 - 知乎 https://www.zhihu.com/question/265420166/answer/293896934

[6] 非平衡分类问题 | BalanceCascade方法及其Python实现 - 家里蹲大学研究僧的文章 - 知乎 https://zhuanlan.zhihu.com/p/36093594

后记

其实整个过程恰恰印证了那句最经典的话——“数据决定了模型评分的上限，模型只是逼近这个上限罢了”，因为省略了特征工程，所以我的整个探索归结起来就是一个如何处理XGBoost的过拟合问题。稍微翻了一下其他人的分类方案，他们大多都是在特征工程上下功夫，或者最后加一个Stack（模型融合）；还有一个重要的点必须声明：方案不具有普适性——不同的数据集有不同的情形，需要多尝试多探索

你可能感兴趣的:(回归问题的置信区间AUC,样本不平衡,pytorch)

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。