我的下铺刚田武

cap7 集成学习和随机森林

集成学习：聚合一组预测器的预测结果，比最好的单个预测器要好。
随机森林：训练一组决策树分类器，每一棵树都基于训练集不同的随机子集进行训练，将所有预测树的结果中最多的类别作为预测结果。
硬投票分类器：聚合每个分类器的预测，将得票最多的结果作为预测类别。
集成学习的效果好于单个弱分类器的原因：大数定理。
假设创建了一个包含1000个分类器的集成，每个分类器都只有51%的几率是正确的（弱分类器），如果你以大多数投票的类别作为预测结果，你可以期待的准确率是75%。
其前提是：所有的分类器都是完全独立的，彼此的错误毫不相关。
当预测器尽可能互相独立时，集成方法的效果最优。获得多种分类器的方法之一是使用不同的算法训练分类器，这会增加他们犯不同类型的错误的机会，从而提升集成的准确率。
训练一个投票分类器，由三种不同的分类器组成：

#聚合一组预测器的预测结果，得到的最终结果好于单个预测器。
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
log_clf=LogisticRegression()
rnd_clf=RandomForestClassifier()
svm_clf=SVC()
voting_clf=VotingClassifier(
estimators=[('lr',log_clf),('rf',rnd_clf),('svc',svm_clf)],
    voting='hard'
)
from sklearn.datasets import make_moons
x,y=make_moons(n_samples=1000,noise=0.3)
voting_clf.fit(x,y)

数据集可视化：

import matplotlib.pyplot as plt
plt.plot(x[:,0],x[:,1],'b.')

查看各个分类器的预测正确率：

from sklearn.metrics import accuracy_score
x_test,y_test=make_moons(n_samples=1000)
for clf in (log_clf,rnd_clf,svm_clf,voting_clf):
    clf.fit(x,y)
    y_pred=clf.predict(x_test)
    print(clf.__class__.__name__,accuracy_score(y_test,y_pred))

输出为：

LogisticRegression 0.867
RandomForestClassifier 0.988
SVC 0.978
VotingClassifier 0.974

软投票法：如果所有分类器都可以估算出类别的概率，那么可以将概率在所有单个分类器上平均，然后将平均概率最高的类别作为预测结果。

bagging和pasting

前面提到，获得不同种类的分类器的方法之一是使用不同的训练算法，另一种方法是每个预测器使用的算法相同，但是在不同的训练集随机子集上进行训练。
采样时如果将样本放回，则是bagging（bootstrap aggregating的缩写），采样时不放回叫作pasting.
与单个弱分类器相比，集成的偏差和方差都更低。
以下代码训练一个包含500个决策树分类器的集成，每次随机从数据集中采样100个训练实例进行训练，然后放回（bagging示例，如果想用pasting，只需要设置bootstrap=False.）

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
bag_clf=BaggingClassifier(
DecisionTreeClassifier(),n_estimators=500,
    max_samples=100,bootstrap=True,n_jobs=-1
)
bag_clf.fit(x,y)

y_pred=bag_clf.predict(x_test)
print(clf.__class__.__name__,accuracy_score(y_test,y_pred))

输出：

VotingClassifier 0.971

注：如果基础分类器可以估算类别概率，则BaggingClassifier自动执行的是软投票法。

包外评估

由于bagging算法采用有放回的抽样方式（自助采样法），假设训练集有m个样本，每次抽取一个后放回，直到抽到m个样本，那么样本始终没有被抽到的概率为 $(1-\frac{1}{m})^m$ ，取极限得：37%
这意味着对于每一个分类器大约有36.8%的样本没有用于训练，这样的样本称为包外（oob）实例，可以使用这些实例进行评估，而不单独的验证集或交叉验证。在Scikit-learn中只需要设置参数oob_score=True即可使用这种方法估计。

#包外评估
bag_clf=BaggingClassifier(
DecisionTreeClassifier(),n_estimators=500,
    bootstrap=True,n_jobs=-1,oob_score=True
)
bag_clf.fit(x,y)
bag_clf.oob_score_

输出：

0.908

这个集成的包外评估结果为90.8%，计算其在测试集上的表现：

from sklearn.metrics import accuracy_score
y_pred=bag_clf.predict(x_test)
accuracy_score(y_test,y_pred)

输出：

0.8666666666666667

随机子空间法

抽样对象不是实例，而是特征。每个预测器使用输入特征的随机子集进行训练，保留所有实例。

Random Patches

对训练实例和特征都进行抽样。

随机森林

随机森林是决策树的集成。可以使用RandomForestClassifier或者BaggingClassifier类生成随机森林。
训练一个拥有500棵树的随机森林分类器，每棵树限制为最多16个叶节点。

from sklearn.ensemble import RandomForestClassifier
rnd_clf=RandomForestClassifier(n_estimators=500,max_leaf_nodes=16,n_jobs=-1)
rnd_clf.fit(x,y)
y_pred_rf=rnd_clf.predict(x_test)
accuracy_score(y_test,y_pred)

输出：

0.8666666666666667

特征重要性

重要的特征更可能出现在靠近根节点的位置，而不重要的特征通常出现在靠近叶节点的位置，甚至根本不出现。因此，可以通过计算一个特征在森林中所有书上的平均深度，来估算其重要程度。

rnd_clf.feature_importances_  #查看特征重要性

输出：

array([0.43920445, 0.56079555])

提升法：boosting

循环训练预测器，每一次都对其前序做出一些改正。

AdaBoost

新预测期对其前序进行纠正的办法之一，就是更多地关注前序拟合不足的训练实例，从而使新的预测器不断地越来越关注于难缠的问题。
首先训练一个基础分类器（比如决策树），用它对训练集进行预测，然后对错误分类的训练实例增加其相对权重，接着，使用这个最新的权重对第二个分类器进行训练，然后再次对训练集进行预测，继续更新权重，不断循环向前，并且把所有的基础分类器组合在一起就是AdaBoost集成。
梯度下降旨在逐渐调整单个预测期的参数使得成本函数最小化，AdaBoost集成在于不断往集成中加入预测器，使模型越来越好。
缺点：无法并行计算，扩展性不如bagging和pasting。

#adaboost分类器
from sklearn.ensemble import AdaBoostClassifier
ada_clf=AdaBoostClassifier(
DecisionTreeClassifier(max_depth=1),n_estimators=200,
    algorithm='SAMME.R',learning_rate=0.5
)
ada_clf.fit(x,y)
y_pred=ada_clf.predict(x_test)
accuracy_score(y_test,y_pred)

输出：

0.86

梯度提升

和AdaBoost类似，也是逐步在集成中添加预测器，每一个预测器都对其前序做出改正。不同之处在于，它不是在每个迭代中调整实例权重，而是让新的预测器针对前一个预测器的残差进行拟合。

#梯度提升
from sklearn.ensemble import GradientBoostingClassifier
gbrt=GradientBoostingClassifier(max_depth=2,n_estimators=3,learning_rate=1.0)
gbrt.fit(x,y)
y_pred=gbrt.predict(x_test)
accuracy_score(y_test,y_pred)

输出：

0.86

如何确定决策树的最佳数量？

早期停止法。

#寻找最优基础预测期个数:早期停止法
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
x_train,x_val,y_train,y_val=train_test_split(x,y)
gbrt=GradientBoostingClassifier(max_depth=2,n_estimators=120)
gbrt.fit(x_train,y_train)
errors=[mean_squared_error(y_val,y_pred) for y_pred in gbrt.staged_predict(x_val)]
bst_n_estimators=np.argmin(errors)
gbrt_best=GradientBoostingClassifier(max_depth=2,n_estimators=bst_n_estimators)
gbrt_best.fit(x_train,y_train)
y_pred=gbrt.predict(x_test)
accuracy_score(y_test,y_pred)

输出：

0.88

早期停止法的其他实现方法：连续5次迭代验证误差未改善时，直接停止训练。

#早期停止法的其他实现：验证误差连续5次迭代未改善时，直接停止训练
gbrt=GradientBoostingClassifier(max_depth=2,warm_start=True)
min_val_error=float('inf')
error_going_up=0
for n_estimators in range(1,120):
    gbrt.n_estimators=n_estimators
    gbrt.fit(x_train,y_train)
    y_pred=gbrt.predict(x_val)
    val_error=mean_squared_error(y_val,y_pred)
    if val_error

 
  输出： 
  0.8667
 
  堆叠法：stacking 
  与其使用一些简单的函数（硬投票、软投票）来聚合集成中所有预测器的预测，为什么不训练一个模型来执行这一步的聚合呢？堆叠法就是对基础预测器的预测结果进行机器学习获得最后结果。
 sklearn暂不支持堆叠法。


    
        你可能感兴趣的:(集成学习,AdaBoost,bagging,pasting)
        
            
                
                    梯度提升机 (Gradient Boosting Machines, GBM)
                        ALGORITHM LOL
boosting集成学习机器学习
                        梯度提升机(GradientBoostingMachines,GBM)通俗易懂算法梯度提升机（GradientBoostingMachines，GBM）是一种集成学习算法，主要用于回归和分类问题。GBM本质上是通过训练一系列简单的模型（通常是决策树），然后将这些模型组合起来，从而提高整体预测性能。基本步骤初始模型：首先，我们用一个简单的模型（如一个常数值）作为预测模型，记为F0(x)F_0(x)F
                    
                    AdaBoost算法（AdbBoost Algorithm）—有监督学习方法、非概率模型、判别模型、非线性模型、非参数化模型、批量学习
                        剑海风云
ArtificialIntelligence人工智能机器学习提升方法AdaBoost
                        定义输入:训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}T={(x1,y1),(x2,y2),⋯,(xN,yN)},其中，xi∈χ⊆Rn,yi∈y={−1,+1}x_i\in\chi\subseteqR^n,y_i\in{\tty}=\{-1,+1\}xi∈χ⊆Rn,yi∈y={−1,+1}
                    
                    《机器学习》—— XGBoost（xgb.XGBClassifier） 分类器
                        张小生180
机器学习人工智能
                        文章目录一、XGBoost分类器的介绍二、XGBoost（xgb.XGBClassifier）分类器与随机森林分类器（RandomForestClassifier）的区别三、XGBoost（xgb.XGBClassifier）分类器代码使用示例一、XGBoost分类器的介绍XGBoost分类器是一种基于梯度提升决策树（GradientBoostingDecisionTree，GBDT）的集成学习算
                    
                    2024 数学建模国赛 C 题模型及算法（无废话版）
                        不染53
数学建模数学建模算法python
                        目录写在开始需要掌握的数学模型/算法评价体系/评价类问题时间序列处理数据降维聚类问题（无监督）分类问题（有监督）集成学习（Bagging/Boosting）回归问题关联分析统计学方法/统计模型智能优化算法需要掌握的Python专业库需要掌握的软件/工具写在开始本人获2023年数学建模国赛C题国家级一等奖，备赛期间专攻C题。本文总结了在备赛期间总结的模型和算法，足以应对90%国赛C题中涉及到的问题。
                    
                    Spark MLlib模型训练—回归算法 Random forest regression
                        不二人生
SparkML实战spark-ml回归随机森林
                        SparkMLlib模型训练—回归算法Randomforestregression随机森林回归(RandomForestRegression)是一种集成学习方法，通过结合多个决策树的预测结果来提升模型的准确性和稳健性。相较于单一的决策树模型，随机森林通过随机采样和多棵树的集成，减少了模型的方差，从而在处理复杂数据集时展现出更好的性能。本文将详细介绍随机森林回归的原理、实现方法、应用场景，并通过Sc
                    
                    基于Python的机器学习系列（18）：梯度提升分类（Gradient Boosting Classification）
                        会飞的Anthony
信息系统机器学习人工智能机器学习python分类
                        简介梯度提升（GradientBoosting）是一种集成学习方法，通过逐步添加新的预测器来改进模型。在回归问题中，我们使用梯度来最小化残差。在分类问题中，我们可以利用梯度提升来进行二分类或多分类任务。与回归不同，分类问题需要使用如softmax这样的概率模型来处理类别标签。梯度提升分类的工作原理梯度提升分类的基本步骤与回归类似，但在分类任务中，我们使用概率模型来处理预测结果：初始化模型：选择一个
                    
                    基于Python的机器学习系列（17）：梯度提升回归（Gradient Boosting Regression）
                        会飞的Anthony
人工智能信息系统机器学习机器学习python回归
                        简介梯度提升（GradientBoosting）是一种强大的集成学习方法，类似于AdaBoost，但与其不同的是，梯度提升通过在每一步添加新的预测器来减少前一步预测器的残差。这种方法通过逐步改进模型，能够有效提高预测准确性。梯度提升回归的工作原理在梯度提升回归中，我们逐步添加预测器来修正模型的残差。以下是梯度提升的基本步骤：初始化模型：选择一个初始预测器h0(x)，计算该预测器的预测值。计算残差：
                    
                    基于Python的机器学习系列（16）：扩展 - AdaBoost
                        会飞的Anthony
信息系统机器学习人工智能python机器学习开发语言
                        简介在本篇中，我们将扩展之前的AdaBoost算法实现，深入探索其细节并进行一些修改。我们将重点修复代码中的潜在问题，并对AdaBoost的实现进行一些调整，以提高其准确性和可用性。1.修复Alpha计算中的问题在AdaBoost中，如果分类器的错误率e为0，则计算出的权重α将是未定义的。为了解决这个问题，我们可以在计算过程中向分母中添加一个非常小的值，以避免除零错误。2.调整学习率sklearn
                    
                    基于CNN-BiLSTM-Adaboost风电功率预测研究（Matlab代码实现）
                        创新优化代码学习
cnnmatlab人工智能
                        欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、研究方法1.数据准备与预处理2.CNN特征提取3.BiLSTM序列建模4.Adaboost集成学习5.模型训练与评估三、研究优势四、未来展望2运行结果3参考文献4Matlab代码、数据⛳️赠与读者‍做科研，涉及到一个深在的思想系
                    
                    机器学习基础（四）——决策树与随机森林
                        Bayesian小孙
机器学习基础决策树机器学习随机森林
                        决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
                    
                    机器学习 之 决策树与随机森林的实现
                        SEVEN-YEARS
机器学习决策树随机森林
                        引言随着互联网技术的发展，垃圾邮件过滤已成为一项重要的任务。机器学习技术，尤其是决策树和随机森林，在解决这类问题时表现出色。本文将介绍随机森林的基本概念，并通过一个具体的案例——筛选垃圾电子邮件——来展示随机森林的实际应用。随机森林简介随机森林是一种基于决策树的集成学习方法，它通过构建多个决策树并综合它们的预测结果来提高准确性和防止过拟合。随机森林的工作原理主要包括以下几个步骤：自助采样：从原始数
                    
                    【KELM回归预测】基于麻雀算法优化核极限学习SSA-KELM-Adaboost实现风电回归预测附matlab代码
                        天天酷科研
粉丝福利算法回归学习SSA-KELM-Ada
                        以下是使用麻雀算法优化核极限学习机（SSA-KELM）和Adaboost算法实现风电回归预测的MATLAB代码示例：matlab复制%导入风电数据load(‘wind_data.mat’);%假设数据存储在wind_data.mat文件中X=wind_data(:,1:end-1);%输入特征Y=wind_data(:,end);%输出标签%数据归一化X=normalize(X,‘range’);
                    
                    每天一个数据分析题（五百零五）- 提升方法
                        跟着紫枫学姐学CDA
数据分析题库数据分析
                        提升方法（Boosting），是一种可以用来减小监督式学习中偏差的机器学习算法。基于Boosting的集成学习，其代表算法不包括？A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据
                    
                    每天一个数据分析题（五百零六）- 装袋方法
                        跟着紫枫学姐学CDA
数据分析数据挖掘
                        装袋方法(bagging)也叫做bootstrapaggregating,是在原始数据集有放回地重采样S次后得到新数据集的一种技术，其代表算法有？A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专
                    
                    每天一个数据分析题（二百二十）
                        跟着紫枫学姐学CDA
数据分析题库数据分析数据挖掘
                        在集成学习的GBDT算法中，每次训练新的决策树的目的是()？A.预测原始数据的标签B.预测上一个模型的残差C.降低模型的偏差D.降低模型的方差题目来源于CDA模拟题库点击此处获取答案
                    
                    【深度学习】吴恩达-课后作业-搭建多层神经网络以及应用
                        —Xi—
深度学习深度学习机器学习人工智能python神经网络
                        Ng的深度学习，其实前几个月就听完了，课后作业也是大懂不懂的都做了一遍，代码也跟着各种各样的参考敲了一遍，但暑假几个月没怎么学习。。。基本也忘得差不多了，这几周回顾了一下深度学习这门课的笔记，看了别的博主的总结，对CNN，RNN,LSTM,注意力机制等网络结构进行了复盘，虽然感觉自己很心浮气躁，一边也在学集成学习那几个算法和推荐系统相关，这里也告诉自己：贪多嚼不烂，心急吃不了热豆腐，慢慢来，还是要
                    
                    周报 | 24.8.12-24.8.18文章汇总
                        双木的木
深度学习拓展阅读深度学习人工智能transformer算法pythonstablediffusionllama
                        为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|24.8.5-24.8.11文章汇总-CSDN博客OpenCV与AI深度学习|实战|使用YoloV8实例分割识别猪的姿态（含数据集）-CSDN博客极市平台|异常检测开源数据集汇总-CSDN博客程序员学长|快速学习一个算法，集成学习-CSDN博客Coggle数据科学|行业落地分享：大模型RAG汽车应用实践_rag中的意图识别-CSD
                    
                    随机森林学习笔记概述
                        好好学习的不知名程序员
随机森林学习笔记
                        随机森林（RandomForest）是一种集成学习方法，它通过构建多个决策树并将它们的预测结果进行投票或平均来提高预测性能。随机森林在许多实际应用中表现出了很好的性能，尤其是在分类和回归问题上。以下是关于随机森林的一些学习笔记概述：1.基本概念集成学习：通过组合多个弱学习器来提高预测性能的方法。决策树：一种基本的分类和回归方法，通过递归地将数据集分割成不同的子集来构建树形结构。随机森林：由多个决策
                    
                    基于R语言遥感随机森林建模与空间预测
                        weixin_贾
统计语言类模型分布式
                        随机森林作为一种集成学习方法，在处理复杂数据分析任务中特别是遥感数据分析中表现出色。通过构建大量的决策树并引入随机性，随机森林在降低模型方差和过拟合风险方面具有显著优势。在训练过程中，使用Bootstrap抽样生成不同的训练集，并在节点分裂时随机选择特征子集，这使得模型具备了处理高维和非线性数据的能力。随机森林对噪声和异常值具有鲁棒性，其预测结果通过对多棵树的集成投票或平均获得，减少了单个异常对结
                    
                    随机森林原理&sklearn实现
                        一稻道人
机器学习算法&预测模型Python随机森林sklearn算法
                        原理定义随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（EnsembleLearning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。随机森林应该是机器学习算法时最先接触到的集成算法，集成学习的家族：Bagging：个体评估器之间不存在强依赖关系，一系列个体学习器可以并行生成。代表算法：随机森林（R
                    
                    【机器学习笔记】 9 集成学习
                        RIKI_1
机器学习机器学习笔记集成学习
                        集成学习方法概述Bagging从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：假设一个班级每个人的成绩都不太好，每个人单独做的考卷分数都不高，但每个人都把自己会做的部分做了，把所有考卷综合起来得到成绩就会比一个人做的高Boosting训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化
                    
                    常用的模型集成方法介绍：bagging、boosting 、stacking
                        weixin_30585437
人工智能c/c++数据结构与算法
                        本文介绍了集成学习的各种概念，并给出了一些必要的关键信息，以便读者能很好地理解和使用相关方法，并且能够在有需要的时候设计出合适的解决方案。本文将讨论一些众所周知的概念，如自助法、自助聚合（bagging）、随机森林、提升法（boosting）、堆叠法（stacking）以及许多其它的基础集成学习模型。为了使所有这些方法之间的联系尽可能清晰，我们将尝试在一个更广阔和逻辑性更强的框架中呈现它们，希望这
                    
                    R-CNN、Fast R-CNN、Faster R-CNN实现
                        今 晚 打 老 虎
面试之CV基础知识深度学习点滴
                        R-CNN：传统的目标检测算法：使用穷举法（不同大小比例的滑窗）进行区域选择，时间复杂度高对提取的区域进行特征提取（HOG或者SIFT），对光照、背景等鲁棒性差使用分类器对提取的特征进行分类（SVM或Adaboost）R-CNN的过程：采用SelectiveSearch生成类别独立的候选区域使用AlexNet来提取特征，输入是227*227*3，输出是4096将4096维的特征向量送入SVM来分类
                    
                    【机器学习算法】KNN鸢尾花种类预测案例和特征预处理。全md文档笔记（已分享，附代码）
                        
机器学习python算法
                        本系列文章md笔记（已分享）主要讨论机器学习算法相关知识。机器学习算法文章笔记以算法、案例为驱动的学习，伴随浅显易懂的数学知识，让大家掌握机器学习常见算法原理，应用Scikit-learn实现机器学习算法的应用，结合场景解决实际问题。包括K-近邻算法，线性回归，逻辑回归，决策树算法，集成学习，聚类算法。K-近邻算法的距离公式，应用LinearRegression或SGDRegressor实现回归预
                    
                    【机器学习】机器学习常见算法详解第4篇：KNN算法计算过程（已分享，附代码）
                        
机器学习python算法
                        本系列文章md笔记（已分享）主要讨论机器学习算法相关知识。机器学习算法文章笔记以算法、案例为驱动的学习，伴随浅显易懂的数学知识，让大家掌握机器学习常见算法原理，应用Scikit-learn实现机器学习算法的应用，结合场景解决实际问题。包括K-近邻算法，线性回归，逻辑回归，决策树算法，集成学习，聚类算法。K-近邻算法的距离公式，应用LinearRegression或SGDRegressor实现回归预
                    
                    基于决策树的金融市场波动性预测与应用
                        OverlordDuke
机器学习决策树决策树算法机器学习
                        基于决策树的金融市场波动性预测与应用项目背景与意义数据概述与分析数据来源数据特征数据预处理与特征工程模型训练与评估结果与应用总结LightGBM是一个机器学习算法库，用于梯度提升机（GradientBoostingMachine）的实现。梯度提升机是一种集成学习方法，通过串行训练多个弱学习器（通常是决策树），每次学习的模型都试图纠正前一次模型的错误，从而逐步提升整体模型的性能。LightGBM算法
                    
                    影像组学学习笔记(20)-通俗讲解集成学习ensemble learning
                        北欧森林

                        本笔记来源于B站Up主:有Li的影像组学系列教学视频本节(20)主要介绍:集成学习的通俗讲解集成学习(ensemblelearning)将多个分类器结合在一起使用Bagging:同质学习器，彼此独立，投票/平均Boosting:同质学习器，层层递进，后面的会着重学习前面犯过的错误Stacking:异质学习器，学习学习器李博士以考试为比喻，通俗的讲解了三者之间的区别拓展学习：Bagging和Boos
                    
                    学习笔记 2019-04-30
                        段勇_bf97

                        HousePrices-bagging_xgboost+lasso+ridgeKaggle入門級賽題：房價預測FFMPEG视音频编解码零基础学习方法35岁程序员的独家面试经历公司名称公司介绍薪水车辆工程专业33岁简历有些传感器方面的东西20k-35k非渣硕是如何获得百度、京东双SP一些面试经验20k-40k吴以均的简历一个大牛的简历北京航空航天大学毕业生的简历厦门大学软件学院毕业生的简历名称介绍H
                    
                    lightGBM集成学习算法
                        亦旧sea
集成学习算法机器学习
                        LightGBM集成学习算法是一种基于梯度提升决策树（GradientBoostingDecisionTree）的机器学习算法。它是由微软提出的一种高效的梯度提升框架，主要用于解决分类和回归问题。在集成学习中，LightGBM使用多个决策树来构建一个更强大的模型。每个决策树都是通过迭代地拟合负梯度进行训练的。训练过程中，每个新的决策树都会尝试纠正先前模型的错误，并与当前模型进行融合，从而提高整体模
                    
                    XGboost集成学习
                        亦旧sea
集成学习机器学习人工智能
                        XGBoost集成学习是一种基于决策树的集成方法，用于解决分类和回归问题。它是一种GradientBoosting（梯度提升）的改进版，通过使用一系列弱学习器（例如决策树）的集合来构建一个更强大的模型。XGBoost通过迭代的方式逐步优化模型的预测结果。在每一轮迭代中，它先计算模型的负梯度（残差），然后用一个新的弱学习器来拟合这个残差。接着，它将当前模型的预测结果与新学习器的预测结果相加，得到一个
                    
                                java杨辉三角
                                    3213213333332132
java基础
                                    
package com.algorithm;

/**
 * @Description 杨辉三角
 * @author FuJianyong
 * 2015-1-22上午10:10:59
 */
public class YangHui {
	public static void main(String[] args) {
		//初始化二维数组长度
		int[][] y
                                
                                《大话重构》之大布局的辛酸历史
                                    白糖_
重构
                                    《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。 
  
 
 背景 
 
        公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
                                
                                电驴链接在线视频播放源码
                                    dubinwei
源码电驴播放器视频ed2k
                                    本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： 
http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。 
项目源码： 
http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。 
项目源码依赖于两个库项目，库项目一链接： 
http://git.oschina.
                                
                                Javascript中函数的toString()方法
                                    周凡杨
JavaScriptjstoStringfunctionobject
                                    简述 
    The toString() method returns a string representing the source code of the function. 
    简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。 
句法 
    function.
                                
                                struts处理自定义异常
                                    g21121
struts
                                    很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。 
非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。 
此处我们用的是非运行时异常，首先定义一个异常LoginException: 
/**
 * 类描述：登录相
                                
                                Linux中find常见用法示例
                                    510888780
linux
                                    Linux中find常见用法示例 
 
·find   path   -option   [   -print ]   [ -exec   -ok   command ]   {} \; 
 
 
 
 
find命令的参数；
                                
                                SpringMVC的各种参数绑定方式
                                    Harry642
springMVC绑定表单
                                    1. 基本数据类型(以int为例，其他类似)： 
Controller代码： 
 

    @RequestMapping("saysth.do")
    public void test(int count) {
    }
 
表单代码： 
 

<form action="saysth.do" method="post&q
                                
                                Java 获取Oracle ROWID
                                    aijuans
javaoracle
                                      
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. 
The oracle.sql.ROWID class i
                                
                                java获取方法的参数名
                                    antlove
javajdkparametermethodreflect
                                    reflect.ClassInformationUtil.java 
package reflect;

import javassist.ClassPool;
import javassist.CtClass;
import javassist.CtMethod;
import javassist.Modifier;
import javassist.bytecode.CodeAtt
                                
                                JAVA正则表达式匹配 查找 替换 提取操作
                                    百合不是茶
java正则表达式替换提取查找
                                    正则表达式的查找;主要是用到String类中的split(); 
      String str; 
     str.split();方法中传入按照什么规则截取,返回一个String数组 
  
常见的截取规则: 
str.split("\\.")按照.来截取

str.
                                
                                Java中equals()与hashCode()方法详解
                                    bijian1013
javasetequals()hashCode()
                                    一.equals()方法详解 
    equals()方法在object类中定义如下：  
public boolean equals(Object obj) {
    return (this == obj);
}
 
   很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
                                
                                精通Oracle10编程SQL(4)使用SQL语句
                                    bijian1013
oracle数据库plsql
                                    --工资级别表
create table SALGRADE
(
  GRADE    NUMBER(10),
  LOSAL    NUMBER(10,2),
  HISAL    NUMBER(10,2)
)

insert into SALGRADE values(1,0,100);
insert into SALGRADE values(2,100,200);
inser
                                
                                【Nginx二】Nginx作为静态文件HTTP服务器
                                    bit1129
HTTP服务器
                                     Nginx作为静态文件HTTP服务器 
 
  在本地系统中创建/data/www目录，存放html文件(包括index.html) 
 创建/data/images目录，存放imags图片 
 在主配置文件中添加http指令 
 
  
http {
    server {
        listen       80;
        server_name  
                                
                                kafka获得最新partition offset
                                    blackproof
kafkapartitionoffset最新
                                    kafka获得partition下标，需要用到kafka的simpleconsumer 
  
import java.util.ArrayList;
import java.util.Collections;
import java.util.Date;
import java.util.HashMap;
import java.util.List;
import java.
                                
                                centos 7安装docker两种方式
                                    ronin47

                                          第一种是采用yum 方式 
             yum install -y docker 
          
                                
                                java-60-在O(1)时间删除链表结点
                                    bylijinnan
java
                                    

public class DeleteNode_O1_Time {

	/**
	 * Q 60 在O(1)时间删除链表结点
	 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点
	 * 
	 * Assume the list is:
	 * head->...->nodeToDelete->mNode->nNode->..
                                
                                nginx利用proxy_cache来缓存文件
                                    cfyme
cache
                                    user  zhangy users;
worker_processes 10;
error_log  /var/vlogs/nginx_error.log  crit;
pid        /var/vlogs/nginx.pid;
#Specifies the value for ma
                                
                                [JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题
                                    comsci
嵌入式
                                     
    假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： 
 
    string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 
 
    定义一个0整数c,然后用这个整数c去
                                
                                如何集成支付宝官方文档
                                    dai_lm
android
                                    官方文档下载地址 
 
https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 
 
集成的必要条件 
1. 需要有自己的Server接收支付宝的消息 
2. 需要先制作app，然后提交支付宝审核，通过后才能集成 
 
调试的时候估计会真的扣款，请注意 

                                
                                应该在什么时候使用Hadoop
                                    datamachine
hadoop
                                    原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 
 
存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 
 
--------------------------------------------万能的分割线-------------------------------- 
有人问我，“你在大数据和Hado
                                
                                在GridView中对于有外键的字段使用关联模型进行搜索和排序
                                    dcj3sjt126com
yii
                                    在GridView中使用关联模型进行搜索和排序 
首先我们有两个模型它们直接有关联:   
class Author extends CActiveRecord {
...
}
 
class Post extends CActiveRecord {
...
    function relations() {
        return array(
            '
                                
                                使用NSString 的格式化大全
                                    dcj3sjt126com
Objective-C
                                    格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
                                
                                使用activeX插件对象object滚动有重影
                                    蕃薯耀
activeX插件滚动有重影
                                        
使用activeX插件对象object滚动有重影       <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
                                
                                SpringMVC4零配置
                                    hanqunfeng
springmvc4
                                    基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。 
  
  
项目说明如下： 
1.db.sql是项目中用到的表，数据库使用的是oracle11g 
2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 
3.默认项目为零配置启动，如果需要更改启动方式，请
                                
                                《开源框架那点事儿16》：缓存相关代码的演变
                                    j2eetop
开源框架
                                    问题引入 
上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。 
该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。 
当然去看相关实现代代码的时候，大致是下面的样子。    
[java] 
view plain 
copy 
print 
?   
 
 public vo
                                
                                AngularJS浅析
                                    kvhur
JavaScript
                                    概念 
 
 AngularJS is a structural framework for dynamic web apps. 
 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm 
 Directive 
扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
                                
                                架构师之jdk的bug排查(一)---------------split的点号陷阱
                                    nannan408
split
                                    1.前言. 
   jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 
2.代码 
 

String[] paths = "object.object2.prop11".split("'");
System.ou
                                
                                如何对10亿数据量级的mongoDB作高效的全表扫描
                                    quentinXXZ
mongodb
                                      本文链接: 
http://quentinXXZ.iteye.com/blog/2149440  
一、正常情况下，不应该有这种需求 
首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。 
说一下，
                                
                                C语言算法之水仙花数
                                    qiufeihu
c算法
                                    /**
* 水仙花数
*/
#include <stdio.h>
#define N 10
int main()
{
    int x,y,z;
    for(x=1;x<=N;x++)
    	for(y=0;y<=N;y++)
    		for(z=0;z<=N;z++)
    			if(x*100+y*10+z == x*x*x
                                
                                JSP指令
                                    wyzuomumu
jsp
                                     
 jsp指令的一般语法格式： <%@ 指令名 属性 =”值 ” %> 
  常用的三种指令： page,include,taglib 
 page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> 
 include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.