Goldxwang

使用sklearn进行集成学习——实践

1 Random Forest和Gradient Tree Boosting参数详解
2 如何调参？
　　2.1 调参的目标：偏差和方差的协调
　　2.2 参数对整体模型性能的影响
　　2.3 一个朴实的方案：贪心的坐标下降法
　　　　2.3.1 Random Forest调参案例：Digit Recognizer
　　　　　　2.3.1.1 调整过程影响类参数
　　　　　　2.3.1.2 调整子模型影响类参数
　　　　2.3.2 Gradient Tree Boosting调参案例：Hackathon3.x
　　　　　　2.3.2.1 调整过程影响类参数
　　　　　　2.3.2.2 调整子模型影响类参数
　　　　　　2.3.2.3 杀一记回马枪
　　2.4 “局部最优解”（温馨提示：看到这里有彩蛋！）
　　2.5 类别不均衡的陷阱
3 总结
4 参考资料

1 Random Forest和Gradient Tree Boosting参数详解

　　在sklearn.ensemble库中，我们可以找到Random Forest分类和回归的实现：RandomForestClassifier和RandomForestRegression，Gradient Tree Boosting分类和回归的实现：GradientBoostingClassifier和GradientBoostingRegression。有了这些模型后，立马上手操练起来？少侠请留步！且听我说一说，使用这些模型时常遇到的问题：

明明模型调教得很好了，可是效果离我的想象总有些偏差？——模型训练的第一步就是要定好目标，往错误的方向走太多也是后退。
凭直觉调了某个参数，可是居然没有任何作用，有时甚至起到反作用？——定好目标后，接下来就是要确定哪些参数是影响目标的，其对目标是正影响还是负影响，影响的大小。
感觉训练结束遥遥无期，sklearn只是个在小数据上的玩具？——虽然sklearn并不是基于分布式计算环境而设计的，但我们还是可以通过某些策略提高训练的效率。
模型开始训练了，但是训练到哪一步了呢？——饱暖思淫欲啊，目标，性能和效率都得了满足后，我们有时还需要有别的追求，例如训练过程的输出，袋外得分计算等等。

　　通过总结这些常见的问题，我们可以把模型的参数分为4类：目标类、性能类、效率类和附加类。下表详细地展示了4个模型参数的意义：

参数	类型	RandomForestClassifier	RandomForestRegressor	GradientBoostingClassifier	GradientBoostingRegressor
loss	目标			损失函数 ● exponential：模型等同AdaBoost ★ deviance：和Logistic Regression的损失函数一致	损失函数 ● exponential：模型等同AdaBoost ★ deviance：和Logistic Regression的损失函数一致
alpha	目标			损失函数为huber或quantile的时，alpha为损失函数中的参数	损失函数为huber或quantile的时，alpha为损失函数中的参数
class_weight	目标	类别的权值
n_estimators	性能	子模型的数量 ● int：个数 ★ 10：默认值	子模型的数量 ● int：个数 ★ 10：默认值	子模型的数量 ● int：个数 ★ 100：默认值	子模型的数量 ● int：个数 ★ 100：默认值
learning_rate	性能			学习率（缩减）	学习率（缩减）
criterion	性能	判断节点是否继续分裂采用的计算方法 ● entropy ★ gini	判断节点是否继续分裂采用的计算方法 ★ mse
max_features	性能	节点分裂时参与判断的最大特征数 ● int：个数 ● float：占所有特征的百分比 ★ auto：所有特征数的开方 ● sqrt：所有特征数的开方 ● log2：所有特征数的log2值 ● None：等于所有特征数	节点分裂时参与判断的最大特征数 ● int：个数 ● float：占所有特征的百分比 ★ auto：所有特征数的开方 ● sqrt：所有特征数的开方 ● log2：所有特征数的log2值 ● None：等于所有特征数	节点分裂时参与判断的最大特征数 ● int：个数 ● float：占所有特征的百分比 ● auto：所有特征数的开方 ● sqrt：所有特征数的开方 ● log2：所有特征数的log2值 ★ None：等于所有特征数	节点分裂时参与判断的最大特征数 ● int：个数 ● float：占所有特征的百分比 ● auto：所有特征数的开方 ● sqrt：所有特征数的开方 ● log2：所有特征数的log2值 ★ None：等于所有特征数
max_depth	性能	最大深度，如果max_leaf_nodes参数指定，则忽略 ● int：深度 ★ None：树会生长到所有叶子都分到一个类，或者某节点所代表的样本数已小于min_samples_split	最大深度，如果max_leaf_nodes参数指定，则忽略 ● int：深度 ★ None：树会生长到所有叶子都分到一个类，或者某节点所代表的样本数已小于min_samples_split	最大深度，如果max_leaf_nodes参数指定，则忽略 ● int：深度 ★ 3：默认值	最大深度，如果max_leaf_nodes参数指定，则忽略 ● int：深度 ★ 3：默认值
min_samples_split	性能	分裂所需的最小样本数 ● int：样本数 ★ 2：默认值	分裂所需的最小样本数 ● int：样本数 ★ 2：默认值	分裂所需的最小样本数 ● int：样本数 ★ 2：默认值	分裂所需的最小样本数 ● int：样本数 ★ 2：默认值
min_samples_leaf	性能	叶节点最小样本数 ● int：样本数 ★ 1：默认值	叶节点最小样本数 ● int：样本数 ★ 1：默认值	叶节点最小样本数 ● int：样本数 ★ 1：默认值	叶节点最小样本数 ● int：样本数 ★ 1：默认值
min_weight_fraction_leaf	性能	叶节点最小样本权重总值 ● float：权重总值 ★ 0：默认值	叶节点最小样本权重总值 ● float：权重总值 ★ 0：默认值	叶节点最小样本权重总值 ● float：权重总值 ★ 0：默认值	叶节点最小样本权重总值 ● float：权重总值 ★ 0：默认值
max_leaf_nodes	性能	最大叶节点数 ● int：个数 ★ None：不限制叶节点数	最大叶节点数 ● int：个数 ★ None：不限制叶节点数	最大叶节点数 ● int：个数 ★ None：不限制叶节点数	最大叶节点数 ● int：个数 ★ None：不限制叶节点数
bootstrap	性能	是否bootstrap对样本抽样 ● False：子模型的样本一致，子模型间强相关 ★ True：默认值	是否bootstrap对样本抽样 ● False：子模型的样本一致，子模型间强相关 ★ True：默认值
subsample	性能			子采样率 ● float：采样率 ★ 1.0：默认值	子采样率 ● float：采样率 ★ 1.0：默认值
init	性能			初始子模型	初始子模型
n_jobs	效率	并行数 ● int：个数 ● -1：跟CPU核数一致 ★ 1:默认值	并行数 ● int：个数 ● -1：跟CPU核数一致 ★ 1:默认值
warm_start	效率	是否热启动，如果是，则下一次训练是以追加树的形式进行 ● bool：热启动 ★ False：默认值	是否热启动，如果是，则下一次训练是以追加树的形式进行 ● bool：热启动 ★ False：默认值	是否热启动，如果是，则下一次训练是以追加树的形式进行 ● bool：热启动 ★ False：默认值	是否热启动，如果是，则下一次训练是以追加树的形式进行 ● bool：热启动 ★ False：默认值
presort	效率			是否预排序,预排序可以加速查找最佳分裂点，对于稀疏数据不管用 ● Bool ★ auto：非稀疏数据则预排序，若稀疏数据则不预排序	是否预排序,预排序可以加速查找最佳分裂点，对于稀疏数据不管用 ● Bool ★ auto：非稀疏数据则预排序，若稀疏数据则不预排序
oob_score	附加	是否计算袋外得分 ★ False：默认值	是否计算袋外得分 ★ False：默认值
random_state	附加	随机器对象	随机器对象	随机器对象	随机器对象
verbose	附加	日志冗长度 ● int：冗长度 ★ 0：不输出训练过程 ● 1：偶尔输出 ● >1：对每个子模型都输出	日志冗长度 ● int：冗长度 ★ 0：不输出训练过程 ● 1：偶尔输出 ● >1：对每个子模型都输出	日志冗长度 ● int：冗长度 ★ 0：不输出训练过程 ● 1：偶尔输出 ● >1：对每个子模型都输出	日志冗长度 ● int：冗长度 ★ 0：不输出训练过程 ● 1：偶尔输出 ● >1：对每个子模型都输出

# ★：默认值

　　不难发现，基于bagging的Random Forest模型和基于boosting的Gradient Tree Boosting模型有不少共同的参数，然而某些参数的默认值又相差甚远。在《使用sklearn进行集成学习——理论》一文中，我们对bagging和boosting两种集成学习技术有了初步的了解。Random Forest的子模型都拥有较低的偏差，整体模型的训练过程旨在降低方差，故其需要较少的子模型（n_estimators默认值为10）且子模型不为弱模型（max_depth的默认值为None），同时，降低子模型间的相关度可以起到减少整体模型的方差的效果（max_features的默认值为auto）。另一方面，Gradient Tree Boosting的子模型都拥有较低的方差，整体模型的训练过程旨在降低偏差，故其需要较多的子模型（n_estimators默认值为100）且子模型为弱模型（max_depth的默认值为3），但是降低子模型间的相关度不能显著减少整体模型的方差（max_features的默认值为None）。

2 如何调参？

　　聪明的读者应当要发问了：”博主，就算你列出来每个参数的意义，然并卵啊！我还是不知道无从下手啊！”

　　参数分类的目的在于缩小调参的范围，首先我们要明确训练的目标，把目标类的参数定下来。接下来，我们需要根据数据集的大小，考虑是否采用一些提高训练效率的策略，否则一次训练就三天三夜，法国人孩子都生出来了。然后，我们终于进入到了重中之重的环节：调整那些影响整体模型性能的参数。

2.1 调参的目标：偏差和方差的协调

　　同样在《使用sklearn进行集成学习——理论》中，我们已讨论过偏差和方差是怎样影响着模型的性能——准确度。调参的目标就是为了达到整体模型的偏差和方差的大和谐！进一步，这些参数又可分为两类：过程影响类及子模型影响类。在子模型不变的前提下，某些参数可以通过改变训练的过程，从而影响模型的性能，诸如：“子模型数”（n_estimators）、“学习率”（learning_rate）等。另外，我们还可以通过改变子模型性能来影响整体模型的性能，诸如：“最大树深度”（max_depth）、“分裂条件”（criterion）等。正由于bagging的训练过程旨在降低方差，而boosting的训练过程旨在降低偏差，过程影响类的参数能够引起整体模型性能的大幅度变化。一般来说，在此前提下，我们继续微调子模型影响类的参数，从而进一步提高模型的性能。

2.2 参数对整体模型性能的影响

　　假设模型是一个多元函数F，其输出值为模型的准确度。我们可以固定其他参数，从而对某个参数对整体模型性能的影响进行分析：是正影响还是负影响，影响的单调性？

　　对Random Forest来说，增加“子模型数”（n_estimators）可以明显降低整体模型的方差，且不会对子模型的偏差和方差有任何影响。模型的准确度会随着“子模型数”的增加而提高。由于减少的是整体模型方差公式的第二项，故准确度的提高有一个上限。在不同的场景下，“分裂条件”（criterion）对模型的准确度的影响也不一样，该参数需要在实际运用时灵活调整。调整“最大叶节点数”（max_leaf_nodes）以及“最大树深度”（max_depth）之一，可以粗粒度地调整树的结构：叶节点越多或者树越深，意味着子模型的偏差越低，方差越高；同时，调整“分裂所需最小样本数”（min_samples_split）、“叶节点最小样本数”（min_samples_leaf）及“叶节点最小权重总值”（min_weight_fraction_leaf），可以更细粒度地调整树的结构：分裂所需样本数越少或者叶节点所需样本越少，也意味着子模型越复杂。一般来说，我们总采用bootstrap对样本进行子采样来降低子模型之间的关联度，从而降低整体模型的方差。适当地减少“分裂时考虑的最大特征数”（max_features），给子模型注入了另外的随机性，同样也达到了降低子模型之间关联度的效果。但是一味地降低该参数也是不行的，因为分裂时可选特征变少，模型的偏差会越来越大。在下图中，我们可以看到这些参数对Random Forest整体模型性能的影响：

　　对Gradient Tree Boosting来说，“子模型数”（n_estimators）和“学习率”（learning_rate）需要联合调整才能尽可能地提高模型的准确度：想象一下，A方案是走4步，每步走3米，B方案是走5步，每步走2米，哪个方案可以更接近10米远的终点？同理，子模型越复杂，对应整体模型偏差低，方差高，故“最大叶节点数”（max_leaf_nodes）、“最大树深度”（max_depth）等控制子模型结构的参数是与Random Forest一致的。类似“分裂时考虑的最大特征数”（max_features），降低“子采样率”（subsample），也会造成子模型间的关联度降低，整体模型的方差减小，但是当子采样率低到一定程度时，子模型的偏差增大，将引起整体模型的准确度降低。还记得“初始模型”（init）是什么吗？不同的损失函数有不一样的初始模型定义，通常，初始模型是一个更加弱的模型（以“平均”情况来预测），虽说支持自定义，大多数情况下保持默认即可。在下图中，我们可以看到这些参数对Gradient Tree Boosting整体模型性能的影响：

2.3 一个朴实的方案：贪心的坐标下降法

　　到此为止，我们终于知道需要调整哪些参数，对于单个参数，我们也知道怎么调整才能提升性能。然而，表示模型的函数F并不是一元函数，这些参数需要共同调整才能得到全局最优解。也就是说，把这些参数丢给调参算法（诸如Grid Search）咯？对于小数据集，我们还能这么任性，但是参数组合爆炸，在大数据集上，或许我的子子孙孙能够看到训练结果吧。实际上网格搜索也不一定能得到全局最优解，而另一些研究者从解优化问题的角度尝试解决调参问题。

　　坐标下降法是一类优化算法，其最大的优势在于不用计算待优化的目标函数的梯度。我们最容易想到一种特别朴实的类似于坐标下降法的方法，与坐标下降法不同的是，其不是循环使用各个参数进行调整，而是贪心地选取了对整体模型性能影响最大的参数。参数对整体模型性能的影响力是动态变化的，故每一轮坐标选取的过程中，这种方法在对每个坐标的下降方向进行一次直线搜索（line search）。首先，找到那些能够提升整体模型性能的参数，其次确保提升是单调或近似单调的。这意味着，我们筛选出来的参数是对整体模型性能有正影响的，且这种影响不是偶然性的，要知道，训练过程的随机性也会导致整体模型性能的细微区别，而这种区别是不具有单调性的。最后，在这些筛选出来的参数中，选取影响最大的参数进行调整即可。

　　无法对整体模型性能进行量化，也就谈不上去比较参数影响整体模型性能的程度。是的，我们还没有一个准确的方法来量化整体模型性能，只能通过交叉验证来近似计算整体模型性能。然而交叉验证也存在随机性，假设我们以验证集上的平均准确度作为整体模型的准确度，我们还得关心在各个验证集上准确度的变异系数，如果变异系数过大，则平均值作为整体模型的准确度也是不合适的。在接下来的案例分析中，我们所谈及的整体模型性能均是指平均准确度，请各位留心。

2.3.1 Random Forest调参案例：Digit Recognizer

　　在这里，我们选取Kaggle上101教学赛中的Digit Recognizer作为案例来演示对RandomForestClassifier调参的过程。当然，我们也不要傻乎乎地手工去设定不同的参数，然后训练模型。借助sklearn.grid_search库中的GridSearchCV类，不仅可以自动化调参，同时还可以对每一种参数组合进行交叉验证计算平均准确度。

2.3.1.1 调整过程影响类参数

　　首先，我们需要对过程影响类参数进行调整，而Random Forest的过程影响类参数只有“子模型数”（n_estimators）。“子模型数”的默认值为10，在此基础上，我们以10为单位，考察取值范围在1至201的调参情况：

# 左图为模型在验证集上的平均准确度，右图为准确度的变异系数。横轴为参数的取值。

　　通过上图我们可以看到，随着“子模型数”的增加，整体模型的方差减少，其防止过拟合的能力增强，故整体模型的准确度提高。当“子模型数”增加到40以上时，准确度的提升逐渐不明显。考虑到训练的效率，最终我们选择“子模型数”为200。此时，在Kaggle上提交结果，得分为：0.96500，很凑合。

2.3.1.2 调整子模型影响类参数

　　在设定“子模型数”（n_estimators）为200的前提下，我们依次对子模型影响类的参数对整体模型性能的影响力进行分析。

　　对“分裂条件”（criterion）分别取值gini和entropy，得到调参结果如下：

　　显见，在此问题中，“分裂条件”保持默认值gini更加合适。

　　对“分裂时参与判断的最大特征数”（max_feature）以1为单位，设定取值范围为28至47，得到调参结果如下：

　　“分裂时参与判断的最大特征数”的默认值auto，即总特征数（sqrt(784)=28）的开方。通过提升该参数，整体模型的准确度得到了提升。可见，该参数的默认值过小，导致了子模型的偏差过大，从而整体模型的偏差过大。同时，我们还注意到，该参数对整体模型性能的影响是近似单调的：从28到38，模型的准确度逐步抖动提升。所以，我们可考虑将该参数纳入下一步的调参工作。

　　对“最大深度”（max_depth）以10为单位，设定取值范围为10到100，得到调参结果如下：

　　随着树的深度加深，子模型的偏差减少，整体模型的准确度得到提升。从理论上来说，子模型训练的后期，随着方差增大，子模型的准确度稍微降低，从而影响整体模型的准确度降低。看图中，似乎取值范围从40到60的情况可以印证这一观点。不妨以1为单位，设定取值范围为40到59，更加细致地分析：

　　有点傻眼了，怎么跟预想的不太一样？为什么模型准确度的变化在40到59之间没有鲜明的“规律”了？要分析这个问题，我们得先思考一下，少一层子节点对子模型意味着什么？若少的那一层给原子模型带来的是方差增大，则新子模型会准确度提高；若少的那一层给原子模型带来的是偏差减小，则新子模型会准确度降低。所以，细粒度的层次变化既可能使整体模型的准确度提升，也可能使整体模型的准确度降低。从而也说明了，该参数更适合进行粗粒度的调整。在训练的现阶段，“抖动”现象的发生说明，此时对该参数的调整已不太合适了。

　　对“分裂所需的最小样本数”（min_samples_split）以1为单位，设定取值范围为2到11，得到调参的结果：

　　我们看到，随着分裂所需的最小样本数的增加，子模型的结构变得越来越简单，理论上来说，首先应当因方差减小导致整体模型的准确度提升。但是，在训练的现阶段，子模型的偏差增大的幅度比方差减小的幅度更大，所以整体模型的准确度持续下降。该参数的默认值为2，调参后，最优解保持2不变。

　　对“叶节点最小样本数”（min_samples_leaf）以1为单位，设定取值范围为1到10，得到调参结果如下：

　　同“分裂所需的最小样本数”，该参数也在调参后，保持最优解1不变。

　　对“最大叶节点数”（max_leaf_nodes）以100为单位，设定取值范围为2500到3400，得到调参结果如下：

　　类似于“最大深度”，该参数的增大会带来模型准确的提升，可是由于后期“不规律”的抖动，我们暂时不进行处理。

　　通过对以上参数的调参情况，我们可以总结如下：

参数	默认值准确度	调整后最佳准确度	提升幅度
分裂条件（criterion）	0.964023809524	0.964023809524	0
分裂时参与判断的最大特征数（max_feature）	0.963380952381	0.964428571429	0.00104762
最大深度（max_depth）			抖动
分裂所需的最小样本数（min_samples_split）	0.963976190476	0.963976190476	0
叶节点最小样本数（min_samples_leaf）	0.963595238095	0.963595238095	0
最大叶节点数（max_leaf_nodes）			抖动

　　接下来，我们固定分裂时参与判断的最大特征（max_features）为38，在Kaggle上提交一次结果：0.96671，比上一次调参好了0.00171，基本与我们预期的提升效果一致。

　　还需要继续下一轮坐标下降式调参吗？一般来说没有太大的必要，在本轮中出现了两个发生抖动现象的参数，而其他参数的调整均没有提升整体模型的性能。还是得老调重弹：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。在DR竞赛中，与其期待通过对RandomForestClassifier调参来进一步提升整体模型的性能，不如挖掘出更有价值的特征，或者使用自带特征挖掘技能的模型（正如此题，图分类的问题更适合用神经网络来学习）。但是，在这里，我们还是可以自信地说，通过贪心的坐标下降法，比那些用网格搜索法穷举所有参数组合，自以为得到最优解的朋友们更进了一步。

2.3.2 Gradient Tree Boosting调参案例：Hackathon3.x

　　在这里，我们选取Analytics Vidhya上的Hackathon3.x作为案例来演示对GradientBoostingClassifier调参的过程。

2.3.2.1 调整过程影响类参数

　　GradientBoostingClassifier的过程影响类参数有“子模型数”（n_estimators）和“学习率”（learning_rate），我们可以使用GridSearchCV找到关于这两个参数的最优解。慢着！这里留了一个很大的陷阱：“子模型数”和“学习率”带来的性能提升是不均衡的，在前期会比较高，在后期会比较低，如果一开始我们将这两个参数调成最优，这样很容易陷入一个“局部最优解”。在目标函数都不确定的情况下（如是否凸？），谈局部最优解就是耍流氓，本文中“局部最优解”指的是调整各参数都无明显性能提升的一种状态，所以打了引号。下图中展示了这个两个参数的调参结果：

# 图中颜色越深表示整体模型的性能越高

　　在此，我们先直觉地选择“子模型数”为60，“学习率”为0.1，此时的整体模型性能（平均准确度为0.8253）不是最好，但是也不差，良好水准。

2.3.2.2 调整子模型影响类参数

　　对子模型影响类参数的调整与Random Forest类似。最终我们对参数的调整如下：

子模型数

n_estimators

学习率

learning_rate

叶节点最小样本数

min_samples_leaf

最大深度

max_depth

子采样率

subsample

分裂时参与判断的最大特征数

max_feature

0.1

0.77

　　到此，整体模型性能为0.8313，与workbench（0.8253）相比，提升了约0.006。

2.3.2.3 杀一记回马枪

　　还记得一开始我们对“子模型数”（n_estimators）和“学习率”（learning_rate）手下留情了吗？现在我们可以回过头来，调整这两个参数，调整的方法为成倍地放大“子模型数”，对应成倍地缩小“学习率”（learning_rate）。通过该方法，本例中整体模型性能又提升了约0.002。

2.4 “局部最优解”

　　目前来说，在调参工作中，广泛使用的仍是一些经验法则。Aarshay Jain对Gradient Tree Boosting总结了一套调参方法，其核心思想在于：对过程影响类参数进行调整，毕竟它们对整体模型性能的影响最大，然后依据经验，在其他参数中选择对整体模型性能影响最大的参数，进行下一步调参。这种方法的关键是依照对整体模型性能的影响力给参数排序，然后按照该顺序对的参数进行调整。如何衡量参数对整体模型性能的影响力呢？基于经验，Aarshay提出他的见解：“最大叶节点数”（max_leaf_nodes）和“最大树深度”（max_depth）对整体模型性能的影响大于“分裂所需最小样本数”（min_samples_split）、“叶节点最小样本数”（min_samples_leaf）及“叶节点最小权重总值”（min_weight_fraction_leaf），而“分裂时考虑的最大特征数”（max_features）的影响力最小。

　　Aarshay提出的方法和贪心的坐标下降法最大的区别在于前者在调参之前就依照对整体模型性能的影响力给参数排序，而后者是一种“很自然”的贪心过程。还记得2.3.2.1小节中我们讨论过“子模型数”（n_estimators）和“学习率”（learning_rate）的调参问题吗？同理，贪心的坐标下降法容易陷入“局部最优解”。对Random Forest调参时会稍微好一点，因为当“子模型数”调到最佳状态时，有时就只剩下诸如““分裂时参与判断的最大特征数”等Aarshay认为影响力最小的参数可调了。但是，对Gradient Tree Boosting调参时，遇到“局部最优解”的可能性就大得多。

　　Aarshay同样对Hackathon3.x进行了调参试验，由于特征提取方式的差异，参数赋值相同的情况下，本文的整体模型性能仍与其相差0.007左右（唉，不得不再说一次，特征工程真的很重要）。首先，在过程影响类参数的选择上，Aarshay的方法与贪心的坐标下降法均选择了“子模型数”为60，“学习率”为0.1。接下来，Aarshay按照其定义的参数对整体模型性能的影响力，按序依次对参数进行调整。当子模型影响类参数确定完成后，Aarshay的方法提升了约0.008的整体模型性能，略胜于贪心的坐标下降法的0.006。但是，回过头来继续调试“子模型数”和“学习率”之后，Aarshay的方法又提升了约0.01的整体模型性能，远胜于贪心的坐标下降法的0.002。

　　诶！诶！诶！少侠请住手！你说我为什么要在这篇博文中介绍这种“无用”的贪心的坐标下降法？首先，这种方法很容易凭直觉就想到。人们往往花了很多的时间去搞懂模型的参数是什么含义，对整体模型性能有什么影响，搞懂这些已经不易了，所以接下来很多人选择了最直观的贪心的坐标下降法。通过一个实例，我们更容易记住这种方法的局限性。除了作为反面教材，贪心的坐标下降法就没有意义了吗？不难看到，Aarshay的方法仍有改进的地方，在依次对参数进行调整时，还是需要像贪心的坐标下降法中一样对参数的“动态”影响力进行分析一下，如果这种影响力是“抖动”的，可有可无的，那么我们就不需要对该参数进行调整。

2.5 类别不均衡的陷阱

　　哈哈哈，这篇博文再次留了个陷阱，此段文字并不是跟全文一起发布！有人要说了，按照我的描述，Aarshay的调参试验不可再现啊！其实，我故意没说Aarshay的另一个关键处理：调参前的参数初始值。因为Hackathon3.x是一个类别不均衡的问题，所以如果直接先调试“最大深度”（max_depth），会发现其会保持默认值3作为最优解，而后面的调参中，“分裂所需最小样本数”（min_samples_split）、“叶节点最小样本数”（min_samples_leaf）再怎么调都没有很大作用。这是因为，正例样本远远小于反例，所以在低深度时，子模型就可能已经对正例过拟合了。所以，在类别不均衡时，只有先确定“叶节点最小样本数”（min_samples_leaf），再确定“分裂所需最小样本数”（min_samples_split），才能确定“最大深度”。而Aarshay设定的初始值，则以经验和直觉避开了这个险恶的陷阱。

　　如果实在觉得经验和直觉不靠谱，我还尝试了一种策略：首先，我们需要初步地调一次“子采样率”（subsample）和“分裂时考虑的最大特征数”（max_features），在此基础上依次调好“叶节点最小样本数”（min_samples_leaf）、“分裂所需最小样本数”（min_samples_split）以及“最大深度”（max_depth）。然后，按照Aarshay的方法，按影响力从大到小再调一次。通过这种方法，整体模型性能在未等比缩放过程影响类参数前，已达到约0.8352左右，比workbench相比，提升了约0.1，与Aarshay的调参试验差不多，甚至更好一点点。

　　回过头来，我们再次看看贪心的坐标下降法是怎么掉入这个陷阱的。在确定过程影响类参数后，贪心的坐标下降法按照“动态”的对整体模型性能的影响力大小，选择了“叶节点最小样本数”进行调参。这一步看似和上一段的描述是一致的，但是，一般来说，含随机性（“子采样率”和“分裂时考虑的最大特征数”先初步调过）的“叶节点最小样本数”要大于无随机性。举个例来说，因为增加了随机性，导致了子采样后，某子样本中只有一个正例，且其可以通过唯一的特征将其分类，但是这个特征并不是所有正例的共性，所以此时就要求“叶节点最小样本数”需要比无随机性时大。对贪心的坐标下降来说，“子采样率”和“分裂时考虑的最大特征数”在当下，对整体模型性能的影响比不上“叶节点最小样本数”，所以栽了个大跟头。

3 总结

　　在这篇博文中，我一反常态，花了大部分时间去试验和说明一个有瑕疵的方案。数据挖掘的工作中的方法和技巧，有很大一部分暂时还未被严谨地证明，所以有很大部分人，特别是刚入门的小青年们（也包括曾经的我），误以为其是一门玄学。实际上，尽管没有被严谨地证明，我们还是可以通过试验、分析，特别是与现有方法进行对比，得到一个近似的合理性论证。

　　另外，小伙伴们你们有什么独到的调参方法吗？请不要有丝毫吝啬，狠狠地将你们的独门绝技全释放在我身上吧，请大胆留言，残酷批评！

你可能感兴趣的:(sklearn)

K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python画出分子化学空间分布（UMAP） Sakaiay python
利用umap画出分子化学空间分布图安装pipinstallumap-learn下面是用一个数据集举的例子importtorchimportumapimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfromsklearn.manifoldimportTSNEfromrdkit.Chemimport
分类算法可视化方法 dundunmm 数据挖掘分类数据挖掘人工智能可视化
可视化方法可以用于帮助理解分类算法的决策边界、性能和在不同数据集上的行为。下面列举几个常见的可视化方法。1.决策边界可视化这种方法用于可视化不同分类算法在二维特征空间中如何分隔不同类别。对于理解决策树、支持向量机（SVM）、逻辑回归和k近邻（k-NN）等模型的行为非常有用。importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasets
conda安装包报PackagesNotFoundError错误张遥数据分析 python anaconda
先查找包(base)bash-3.2$anacondasearch-tcondasklearn返回包的相关信息根据对应的包的包名使用如下命令(base)bash-3.2$anacondashowcorjos/sklearn-pandas会直接给出安装命令condainstall--channelhttps://conda.anaconda.org/corjossklearn-pandas
【ML】支持向量机SVM及Python实现（详细） 2401_84009698 程序员支持向量机 python 算法
fromsklearn.preprocessingimportStandardScalerfrommatplotlib.colorsimportListedColormapfromsklearn.svmimportSVC###2.1加载数据样本加载样本数据及其分类标签iris=datasets.load_iris()X=iris.data[:,[2,3]]#按花瓣划分#X=iris.data[:,
python3.7安装keras教程_python 3.7 安装 sklearn keras(tf.keras) weixin_39641103
#1sklearn一般方法网上有很多教程，不再赘述。注意顺序是numpy+mkl，然后scipy的环境，scipy，然后sklearn#2anocondaanaconda原始的环境已经自带了sklearn，这里说一下新建环境（比如创建了一个tensorflow的环境），activatetensorflow2.0，然后condainstallsklearn即可，会帮你把各种需要的库都安装。#kera
# Seaborn热图修改画布大小|Seaborn热图修改横纵坐标大小|Seaborn删除注释|Seaborn删除调色板|Seaborn注释添加标注文字|Seaborn删除刻度线 Red Red 生信小技巧 python 开发语言 ux 笔记学习方法
Seaborn热图修改画布大小|Seaborn热图修改横纵坐标大小|Seaborn删除注释|Seaborn删除调色板|Seaborn注释添加标注文字|Seaborn删除刻度线查看图片importmatplotlibaspltplt.show()修改画布大小#导入需要用到的相关包importseabornassnsimportpandasaspdimportmatplotlibfromsklearn
推荐算法学习记录2.2——kaggle数据集的动漫电影数据集推荐算法实践——基于内容的推荐算法、协同过滤推荐萱仔学习自我记录推荐算法学习 python matplotlib 开发语言
1、基于内容的推荐：这种方法根据项的相关信息（如描述信息、标签等）和用户对项的操作行为（如评论、收藏、点赞等）来构建推荐算法模型。它可以直接利用物品的内容特征进行推荐，适用于内容较为丰富的场景。‌#1.基于内容的推荐算法fromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimport
30、基于SelectFromModel和LassoCV的特征选择凌晨思索
30、基于SelectFromModel和LassoCV的特征选择importmatplotlib.pyplotaspltimportnumpyasnpfromsklearn.datasetsimportload_diabetesfromsklearn.feature_selectionimportSelectFromModelfromsklearn.linear_modelimportLasso
01-30 姬汉斯
今天看的是关于文档识别和分类的处理案例。利用多项式贝叶斯公式计算TF-IDF值，以此计算出文档中的词频，文档频率等数据属性，TFIDFVectorizer类用于进行整理，NTLK包进行标注处理，计算文档中各个字符的权重，通过分类器进行分类处理。Sklearn在其中依然有巨大作用，还在熟悉其特性
Python处理大数据，如何提高处理速度 RS& #python python 大数据 pandas
Python处理大数据，如何提高处理速度？一、利用大数据分析工具Dask：https://dask.org/Dask简介：Dask支持Pandas的DataFrame和NumpyArray的数据结构，并且既可在本地计算机上运行，也可以扩展到在集群上运行。Dask可支持pandas、Numpy、Sklearn、XGBoost、XArray、RAPIDS等等。原理及使用方法：https://blog.
自动安装第三方库python,python第三方库自动安装脚本杏仁菌子自动安装第三方库python
#python第三方库自动安装脚本，需要在cmd中运行此脚本#BatchInstall.pyimportoslibs={"numpy","matplotlib","pillow","sklearn","requests",\"jieba","beautifulsoup4","wheel","networkx","sympy",\"pyinstaller","django","flask","wer
XGBoost调参demo（Python）妄念驱动机器学习算法 python 机器学习 XGBoost python
XGBoost我们用的是保险公司的一份数据#各种库importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.metricsi
机器学习实战----波士顿房价预测模型永远偷渡不了的非洲人机器学习机器学习 sklearn python
波士顿房价模型预测是一个回归问题，可以采用r2_score方法来作为评价指标。importnumpyasnpimportpandasaspdfromsklearn.metricsimportr2_score#从sklearn的数据库中导入波士顿房产数据fromsklearn.datasetsimportload_bostonfromsklearn.model_selectionimporttrai
python机器学习算法--贝叶斯算法在下小天n 机器学习 python 机器学习算法
1.贝叶斯定理在20世纪60年代初就引入到文字信息检索中，仍然是文字分类的一种热门（基准）方法。文字分类是以词频为特征判断文件所属类型或其他（如垃圾邮件、合法性、新闻分类等）的问题。原理牵涉到概率论的问题，不在详细说明。sklearn.naive_bayes.GaussianNB(priors=None,var_smoothing=1e-09)#Bayes函数·priors：矩阵，shape=[n
Python中sklearn实现随机森林RF回归与变量重要性影响程度排序分析疯狂学习GIS
本文详细介绍在Python中，实现随机森林（RandomForest，RF）回归与变量重要性分析、排序的代码编写与分析过程。其中，关于基于MATLAB实现同样过程的代码与实战，大家可以点击查看这篇博客1（https://blog.csdn.net/zhebushibiaoshifu/article/details/114806478）。本文分为两部分，第一部分为代码的分段讲解，第二部分为完
机器学习小组第三周：简单的数据预处理和特征工程 -Helslie 机器学习机器学习
学习目标●无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler●缺失值处理●处理分类型特征：编码与哑变量●处理连续型特征：二值化与分段学习资料首先，参考：《机器学习的敲门砖：归一化与KD树》及《特征工程系列：特征预处理（上）》中相关部分。其次，其他知识点可参考推荐博文：sklearn中的数据预处理和特征工程。20200311数据归一化在量纲不同的情况下，对于部分算法不能反映样本中每
Python图像纹理分割 2401_84585316 程序员 python 开发语言
将下图左右两种不同类型的纹理区域分开，方法输出结果是一幅与该图像等大小的二值图像，左边为0，右边为1，或者相反，灰色边框线在设计的方法中不作考虑，自行去除。2️⃣实现源码importmatplotlib.imageasmpimgimportmatplotlib.pyplotaspltimportnumpyasnpfromcv2importcv2fromsklearn.multiclassimpor
鸢尾花的简单分类器 Oneshot_fea8
importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromscipy.spatial.distanceimporteuclideanimportnumpyasnpDATA_FILE='./data_ai/Iris.csv'SPECIES=['Iris-setosa',#山鸢尾'Iris-versicolor',#变色鸢
ARIMA-temp-humidity TuringSnowy 笔记
importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromstatsmodels.tsa.statespace.sarimaximportSARIMAXfromstatsmodels.graphics.tsaplotsimportplot_acf,plot_pacffromsklearn.metricsimportmean_squ
基于Python的机器学习系列（16）：扩展 - AdaBoost 会飞的Anthony 信息系统机器学习人工智能 python 机器学习开发语言
简介在本篇中，我们将扩展之前的AdaBoost算法实现，深入探索其细节并进行一些修改。我们将重点修复代码中的潜在问题，并对AdaBoost的实现进行一些调整，以提高其准确性和可用性。1.修复Alpha计算中的问题在AdaBoost中，如果分类器的错误率e为0，则计算出的权重α将是未定义的。为了解决这个问题，我们可以在计算过程中向分母中添加一个非常小的值，以避免除零错误。2.调整学习率sklearn
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
文本分析之关键词提取（TF-IDF算法） SEVEN-YEARS tf-idf
键词提取是自然语言处理中的一个重要步骤，可以帮助我们理解文本的主要内容。TF-IDF（TermFrequency-InverseDocumentFrequency）是一种常用的关键词提取方法，它基于词频和逆文档频率的概念来确定词语的重要性。准备工作首先，我们需要准备一些工具和库，包括Pandas、jieba（结巴分词）、sklearn等。Pandas：用于数据处理。jieba：用于中文分词。skl
使用SVM进行评论情感分析 github_czy 支持向量机机器学习人工智能
importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.svmimportSVCfromsklearn.metricsimportaccuracy_score,precision_score
sklearn 评估模型常用函数小Z资本 sklearn 人工智能 python
`sklearn.metrics`是scikit-learn库中的一个模块，它提供了许多用于评估预测模型性能的指标和工具。这些指标和工具可以帮助你了解模型在训练集和测试集上的表现，以及模型是否能够很好地泛化到未见过的数据。以下是一些`sklearn.metrics`中常用的函数和指标：1.**分类指标**：-`accuracy_score`:计算分类准确率。-`classification_rep
[sklearn] 分类指标解惑 PigeonGuan sklearn 分类人工智能
首先查看metrics官方文档：https://scikit-learn.org/stable/api/sklearn.metrics.htmlweighted/macro/micro/samples的区别weighted和samplesweighted这个参数在roc_auc_score函数中，其实就是考虑了trueinstance的情况（也就是需要传一个sample_weights的参数？）。
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统体育赛事热度预测系统体育赛事数据分析体育赛事可视化体育赛事大数据机器学习大数据毕业设计大数据毕设机器学习人工智能计算机毕业设计大全
开发技术前端：vue.js、element-ui、echarts后端：springboot、mybatis大数据：spark、hadoop数据库：mysql关系型数据库、neo4j图数据库算法：协同过滤推荐算法、MLP深度学习模型、SVD神经网络混合推荐算法、lstm模型、KNN、CNN、Sklearn、K-Means第三方平台：百度AI、阿里云短信、支付宝沙箱支付爬虫：Pythonchrome-
PyTorch深度学习模型训练流程的python实现：回归 moyao_miao python 人工智能深度学习 pytorch 回归
回归的流程与分类基本一致，只需要把评估指标改动一下就行。回归输出的是损失曲线、R^2曲线、训练集预测值与真实值折线图、测试集预测值散点图与真实值折线图。输出效果如下：注意：预测值与真实值图像处理为按真实值排序，图中呈现的升序与数据集趋势无关。代码如下：fromfunctoolsimportpartialimportnumpyasnpimportpandasaspdfromsklearn.prepr
在sklearn中如何实现参数网格搜索（GridSearch）？ 2401_85761762 sklearn 人工智能 python
深入理解Scikit-learn中的参数网格搜索（GridSearch）引言在机器学习模型的开发过程中，超参数的调整对于模型性能有着至关重要的影响。Scikit-learn（简称sklearn），作为Python中一个广泛使用的机器学习库，提供了强大的工具来帮助我们进行超参数的优化。其中，GridSearchCV是实现参数网格搜索的利器。本文将详细介绍GridSearchCV的使用方法，并探讨其在
sklearn preprocessing perfectmanman 代码
sklearnpreprocessing代码代码来自Anaconda软件里sklearn模块init.py"""The:mod:`sklearn.preprocessing`moduleincludesscaling,centering,normalization,binarizationandimputationmethods."""from.dataimportBinarizerfrom.da
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri