Sarah ฅʕ•̫͡•ʔฅ

sklearn(二十一)：Ensemble methods

在sklearn中，ensemble methods有两种类型：

average method：随机的从trainingdata中抽取多个subdata，训练多个base estimator，在预测new sample的value时，将所有的base estimator的预测结果相加，求平均，作为最终的预测结果。在average method中，尽量使base estimator完全拟合subdata，通过ensemble降低base estimator overfitting的可能，从而得到一个较好的结果。这种类型的方法有：Bagging methods, Forests of randomized trees等。
boosting method：依次建立多个weak base estimator，每个estimator用来拟合上一个estimator的bias，根据各个estimator拟合效果的优劣，给每个estimator以一定权重，在预测一个new sample时，将各个estimator的prediction乘以权重，相加，得到最终的prediction。这类型的方法有： AdaBoost, Gradient Tree Boosting等。

Bagging meta-estimator

该estimator的工作原理：
从training data中随机抽取n个subdata，用于训练n个base estimator，在训练的过程中，base estimator的bias越小越好（不用怕overfitting，因为在aggregate各个estimator的时候，会降低overfitting的影响）。
当要预测一个new sample时，分别用base estimator进行预测，然后将最终的预测结果相加求平均。
在抽取subdata的过程中，可以抽取data的一个子集，也可以抽取feature中的一个子集，作为最终的subdata。

sklearn.ensemble.BaggingClassifier(base_estimator=None, n_estimators=10, max_samples=1.0, max_features=1.0, bootstrap=True, bootstrap_features=False, oob_score=False, warm_start=False, n_jobs=None, random_state=None, verbose=0)
#base_estimator：选取的estimator
#n_estimators：拟合的estimator数量
#max_samples：subdata中最大的样本量
#max_features：subdata中最大的特征数
#bootstrap：是否实施有放回抽样
#bootstrap_features：是否要对feature实施有放回抽样
#oob_score：是否用out of bag data来估计generalization error
#warm_start：是否利用上一次的结果

code示例：


>>> from sklearn.ensemble import BaggingClassifier
>>> from sklearn.neighbors import KNeighborsClassifier
>>> bagging = BaggingClassifier(KNeighborsClassifier(),
...                             max_samples=0.5, max_features=0.5)

Forests of randomized trees

在sklearn中有3中类型的“随机森林”，下面分别阐述：

type I：RandomForestClassifier and RandomForestRegressor RandomForest：随机抽取n分sub_data，在这些data上训练n个“完全长成树”。在预测时：以n个tree的预测结果的average为最终的预测值。虽然“完全长成树”增加了single tree的overfitting。但是，average操作将弱化overfitting，总体来看：虽然single tree的variance增加，但是通过average操作能够降低最终的预测variance。
type II：ExtraTreesClassifier and ExtraTreesRegressor ExtraTrees与RandomForest最大的不同之处在于，相比于RandomForest在node split中寻找最优的（feature，value）来切割data，ExtraTrees是从随机生成的若干个（feature,value）中选取一个最优的threshold作为切割data的依据。ExtraTrees的这种动作虽然会增大singal tree的bias，但是会降低variance，从而降低最终ensemble model的variance。
type III：Totally Random Trees Embedding ：RandomTreesEmbedding 利用这一model可以transform data feature，具体原理如下：拟合一棵forests of completely random trees，将data中各个sample归结到该森林的一个叶子节点上，并且以森林的叶子节点index作为特征空间，构建各个sample的特征向量，使得该特征向量，除sample所属的index 维度值为1以外，其它各个维度的值均为0。（这种特征向量类似于文本分类中的one-hot vector）。
利用该tree构建的data的特征向量，可以作为input data拟合其他的模型。
新的特征向量矩阵的size和稀疏性，可以通过控制tree的max_depth来控制。
对于RandomForest classifier中参数优化经验：Empirical good default values are max_features=n_features for regression problems, and max_features=sqrt(n_features) for classification tasks (where
n_features is the number of features in the data).

AdaBoost：classification and multi-classification

sklearn中AdaBoost既可以进行classification，又可以进行regression，分别用：AdaBoostClassifier and AdaBoostRegressor
AdaBoost的核心思想是：选定一个base estimator，在一系列reweight的data上拟合一系列的weak estimator，并根据这些estimator预测的准确度，给各个estimator一个权重，然后将所有estimator乘以各自权重，相加，得到最终的prediction。在每次迭代的过程中，都需要给data重新赋予权重，该权重的大小与estimator对sample的分类准确度相关，准确度越大，则权重越小，这样，使得下一轮的model learning，更注重于未正确分类的sample。

#在实际应用中，AdaBoost主要调节的两个参数是：n_estimator，以及base_estimator的复杂度；

sklearn.ensemble.AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm=’SAMME.R’, random_state=None)
#base_estimator：选用的model
#n_estimators：要拟合的 estimator的数量
#learing_rate：用于缩减每个estimator的prediction权限from 1 to any float
#algorithm：用于实施adaboost的算法{‘SAMME’, ‘SAMME.R’}
#random_state：确定random_state

sklearn.ensemble.AdaBoostRegressor(base_estimator=None, n_estimators=50, learning_rate=1.0, loss=’linear’, random_state=None)
#loss： {‘linear’, ‘square’, ‘exponential’}

这里着重讲一下，传统AdaBoost和SAMME的区别：二者的主要区别在于对estimator的权重alpha的定义不一样：
AdaBoost对alpha的定义：

SAMME对alpha的定义：

SAMME主要还考虑了多分类问题，在AdaBoost中，alpha的计算只适用于二分类问题，当应用于k分类问题时，由于每个weak estimator的准确率只有1/k，则其错误率为1-（1/k），那么原alpha就会变为负数，则对于一个错分的sample，根据其权重更新公式
下一轮的weight将小于这一轮的weight，这与reweight的原则相反。
而用SAMME的alpha计算公式，可以有效避免alpha<0的问题，从而保证每个sample的reweight方向正确。

参考博文：
AdaBoost
SAMME

Gradient Tree Boosting/Gradient Boosted Regression Trees

Gradient Tree Boosting与AdaBoost都是boosting的方法，虽然二者都是串行的算法，但是，AdaBoost的每次iteration是拟合残差，GTB的每次iteration是拟合损失函数的负梯度（将其作为残差的近似值）。AdaBoost中，base_estimator可以自定义，而GTB中base_estimator为tree。
Gradient Boosted Regression Trees (GBRT)可以用于classification和regression,其优缺点如下：

优点：
能够自动处理heterogeneous features data；
具有很强的预测能力；
对于trainingdata中output空间中的outlier具有很强的robustness；
缺点：
由于boosting方法的 sequential nature，该算法很难用“并行化方法计算”，针对这一问题，可以采用XGBoost解决。

Classification

sklearn.ensemble.GradientBoostingClassifier(loss=’deviance’, learning_rate=0.1, n_estimators=100, subsample=1.0, criterion=’friedman_mse’, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, min_impurity_split=None, init=None, random_state=None, max_features=None, verbose=0, max_leaf_nodes=None, warm_start=False, presort=’auto’, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001)
#learning_rate：可以避免overfitting
#loss：用于计算estimator误差的Loss function。{‘deviance’：logistic regression, ‘exponential’：For loss ‘exponential’ gradient boosting recovers the AdaBoost algorithm.}。exponential仅能由于二分类问题，而deviance则能够用于多分类问题。对于有错分样本的trainingdata而言，exponential没有deviance 鲁棒性强。
#subsample：用于fit base_estimator的subdata，当subsample<1时，GBT将用stocastic gradient descent来进行每次iteration。对此做出解释：GBT本身就像是采用gradient descent的方法，将损失函数当做要优化的目标函数，将base_estimator当做是损失函数中的变量，该损失函数符合凸优化条件，因此，可以用gradient descent来达到最优解，在最优化过程中，只要不断优化每次的base_estimator即可，当subsample=1时，每次base_estimator的更新使用所有sample进行，当subsample<1时，就变成了stacastic gradient descent，每次base_estimator的更新使用的是部分sample进行。
#criterion：用于评判split好坏的标准{friedman_mse,mes,mae}
#init：使用的base_estimator类型
#max_features：在选择best splitting时考虑的feature数量？？？是指feature的选择范围？还是指一次split要考虑的feature数量？
#validation_fraction：cross-validation的比例，用于确定是否要early stopping iteration

note that：GBC在实施multi-classification任务时，每一次的iteration都要产生n_classes个regression trees，因此，GBC产生tree的总量可达n_estimators * n_classes。在实际multi-classification中，建议用RandomForestClassifier代替GBC。
也就是说RFC中，single tree就可以解决multi-classification问题，而GBC中，采用one vs rest策略来解决multi-classification问题。

Regression

sklearn.ensemble.GradientBoostingRegressor(loss=’ls’, learning_rate=0.1, n_estimators=100, subsample=1.0, criterion=’friedman_mse’, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, min_impurity_split=None, init=None, random_state=None, max_features=None, alpha=0.9, verbose=0, max_leaf_nodes=None, warm_start=False, presort=’auto’, validation_fraction=0.1, n_iter_no_change=None, tol=0.0001)
#loss：目标函数{‘ls’：least squares regression, ‘lad’：least absolute deviation, ‘huber’：combine ls and lad, ‘quantile’：allows quantile regression }, optional (default=’ls’}
#learning_rate：trade off between n_estimators and learning_rate。learning_rate可以看作是正则化项，小的learning_rate会降低每个base_estimator的predictive power，建议在调参时选用小的Learning_rate(<0.1)，learning_rate越小，n_estimators越大，因为，此时需要更多的base_estimator来维持同等水平的training error。
#alpha：loss function中huber和quantile 的参数
#validation_fraction：利用cross-validation可以决定是否early stopping iteration by test_error < limit。
#warm_start：允许在previous拟合好的model上加入更多的weak estimator。

#经验显示，有learning_rate outperforms  no-learning_rate。subsample with learning_rate能够进一步提高accuracy，而subsample without learning_rate则表现较差。

note that：用一个小的max_feature能够降低运行时间。

参考博文：
分位数回归模型学习笔记
分位数回归
GBDT&GBRT与XGBoost
决策树之CART（分类回归树）详解

绘制Partial dependence plots

如果你想要绘制one feature和target y之间的相关关系（one-way plots），或者绘制two features和target y之间的相关关系（two-way plots），你可以用以下moudle。给出示例code，详情查官网。

>>> from sklearn.datasets import make_hastie_10_2
>>> from sklearn.ensemble import GradientBoostingClassifier
>>> from sklearn.ensemble.partial_dependence import plot_partial_dependence #绘制partial dependence plots。

>>> X, y = make_hastie_10_2(random_state=0)
>>> clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
...     max_depth=1, random_state=0).fit(X, y)
>>> features = [0, 1, (0, 1)]
>>> fig, axs = plot_partial_dependence(clf, X, features)

>>> from sklearn.ensemble.partial_dependence import partial_dependence #给出partial dependence function 的值

>>> pdp, axes = partial_dependence(clf, [0], X=X)
>>> pdp  
array([[ 2.46643157,  2.46643157, ...
>>> axes  
[array([-1.62497054, -1.59201391, ...

Voting Classifier

其核心思想是：将多种不同的classifier集合起来，最终的预测结果采用“多数服从少数”，或者“average”的方法，给出。

sklearn.ensemble.VotingClassifier(estimators, voting=’hard’, weights=None, n_jobs=None, flatten_transform=None)
#estimators：结合的classifier列表
#voting：{hard：majority rule，soft：average rule}
#weights：各个classifier上的权重

给出average rule的示例code：

>>> from sklearn.model_selection import GridSearchCV
>>> clf1 = LogisticRegression(solver='lbfgs', multi_class='multinomial',
...                           random_state=1)
>>> clf2 = RandomForestClassifier(random_state=1)
>>> clf3 = GaussianNB()
>>> eclf = VotingClassifier(estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)], voting='soft')#集合多个classifier

>>> params = {'lr__C': [1.0, 100.0], 'rf__n_estimators': [20, 200],}

>>> grid = GridSearchCV(estimator=eclf, param_grid=params, cv=5)#利用gridsearch来寻找eclf中各个classifier的最优参数
>>> grid = grid.fit(iris.data, iris.target)

官方文档：Ensemble methods

交叉编译Python-3.6.0到aarch64/aarch32 —— 支持sqlite3
参考https://datko.net/2013/05/10/cross-compiling-python-3-3-1-for-beaglebone-arm-angstrom/平台主机：ubuntu14.0464bit开发板：qemu+aarch64（参考：http://www.cnblogs.com/pengdonglin137/p/6442583.html）工具链：aarch64-linux-
python# python:3.5 aarch64构建镜像 Ling丶落 centos
构建失败从ubuntu中尝试构建FROMpython:3.5-slimLABELMAINTAINER="[email protected]"#installrelatedpackagesENVENVIRONMENTDOCKER_PRODWORKDIR/workCOPY./dataset.py/work/dataset.pyCOPY./model.py/work/model.pyCOPY./PyA
opencv-python与opencv-contrib-python的区别联系剑心缘零碎小知识 python opencv
opencv-python包含基本的opencvopencv-contrib-python是高配版，带一些收费或者专利的算法，还有一些比较新的算法的高级版本,这些算法稳定之后会加入上面那个。官网对contrib模块的简介（点击链接跳转）参考链接
使用AutoKeras2.0的AutoModel进行结构化数据回归预测
1、FirstofAll:ReadTheFuckingSourceCodeimportautokerasasakimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportmean_squared_error#生成数据集np.random.seed(42)x=np.random.r
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
两步移动搜索法（2SFCA）python 我在北京coding python python 开发语言
实现两步移动搜索法（Two-StepFloatingCatchmentAreaMethod,2SFCA）是一种广泛应用于地理信息系统（GIS）领域的方法，用于评估设施的空间可达性。以下是基于Python和GeoPandas的一种实现方式。准备工作为了实现2SFCA方法，需要准备以下数据集：供给点：表示服务提供方的位置及其服务能力。需求点：表示潜在使用者的位置及其需求量。距离矩阵：描述供给点与需求点
Java、python中高级开发工程师岗位框架要求统计爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ java python 开发语言
一、主流框架使用频率框架/技术出现频率说明SpringBoot89%几乎成为Java后端开发的标配，用于快速构建微服务和独立应用。SpringCloud76%微服务架构必备，提供服务发现、配置管理、网关等核心组件。MyBatis/MyBatis-Plus72%最流行的ORM框架，MyBatis-Plus进一步简化开发。Spring68%基础框架，中高级岗位要求深入理解IoC、AOP原理。Hiber
PPOCRLabel 环境配置教程 ysh9888 人工智能算法计算机视觉 opencv
PPOCRLabel环境配置教程_哔哩哔哩_bilibili1安装conda2新建环境condacreate--nameppocrpython=3.8--channelhttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/condaactivateppocrpipinstall-rrequirements.txt-ihttps://pypi
response.split(“\n“)[0].strip() 是什么 ZhangJiQun&MXP 教学 2021 AI python python 机器学习人工智能语言模型自然语言处理
response.split(“\n”)[0].strip()是什么returnresponse.split("\n")[0].strip()这行代码在Python中通常用于对字符串进行处理并返回处理后的结果response.split("\n")：split()是Python字符串对象的一个方法，用于根据指定的分隔符将字符串拆分成一个列表。在这行代码中，"\n"作为分隔符，表示按照换行符来拆分字
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
Python函数 python知识
1文档字符串函数定义下的第一个字符串是文档字符串，用于解释函数。可以通过help(function_name)或function_name.__doc__来查看。2函数返回单个返回值：return一个值无返回值：函数执行完毕没有return语句，或者return后面没有值，会隐式地返回None返回多个值：实际上是返回一个包含所有值的元组(tuple)3参数函数声明：使用def关键字来创建函数默认参
Python-selenium爬取藏在歌词里 python selenium 开发语言
selenium前言使用python的requests模块还是存在很大的局限性，例如：只发一次请求；针对ajax动态加载的网页则无法获取数据等等问题。特此，本章节将通过selenium模拟浏览器来完成更高级的爬虫抓取任务。什么是seleniumSelenium是一个用于自动化Web应用程序测试的开源工具集。它提供了一组API和工具，可以与多种编程语言一起使用，如Java、Python、C#等，用于
python --飞浆离线ocr使用/paddleocr
依赖#python==3.7.3paddleocr==2.7.0.2paddlepaddle==2.5.2loguru==0.7.3frompaddleocrimportPaddleOCRimportcv2importnumpyasnpif__name__=='__main__':OCR=PaddleOCR(use_doc_orientation_classify=False,#检测文档方向use
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
llama-cpp-python使用教程 try2find llama python 开发语言
以下是llama-cpp-python的完整使用教程，涵盖安装、基础用法、高级功能（如GPU加速、多模态等）和常见问题解决。1.安装1.1基础安装（CPU版）pipinstallllama-cpp-python-ihttps://pypi.tuna.tsinghua.edu.cn/simple1.2启用GPU加速（CUDA）CMAKE_ARGS="-DGGML_CUDA=ON"pipinstall
【Python】列表嵌套字典多规则排序魔都吴所谓 Python 算法工具 python 服务器 java
数据a=[{"project":"pro_613","branchList":[]},{"project":"pro_614","branchList":[]},{"project":"pro_612","branchList":[]},{"project":"pro_631","branchList":[]},{"project":"pro_617","branchList":[]},{"pro
Redis存储Cookie实现爬虫保持登录 requests | selenium
前言前面已经介绍了requests和selenium这两种方式的基础知识和模拟登录,但是我们需要每次都进行登录,这明显是很麻烦并且不合理的,所以这次我分享一下怎么可以让我们的程序进行一次登录之后,和普通浏览器一样下次不进行登录直接进行对网站数据的爬取下面的我分享的内容需要前置知识,如果同志有知识不理解,可以查看我以前写的文章Python爬虫request三方库实战-CSDN博客Python爬虫XP
Requestium - 将Requests和Selenium合并在一起的自动化测试工具测试界晓晓软件测试测试工具 selenium 自动化软件测试功能测试自动化测试程序人生
Requests是Python的第三方库，主要用于发送http请求，常用于接口自动化测试等。Selenium是一个用于Web应用程序的自动化测试工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。本篇介绍一款将Requests和Selenium结合在一起的自动化测试工具-Requestium简介Requestium是一个Python库，它将Requests、Selenium和P
深度解析：venv和conda如何解决依赖冲突难题咕咕日志 conda python
文章目录前言一、虚拟环境的核心价值1.1依赖冲突的典型场景1.2隔离机制实现原理二、venv与conda的架构对比2.1工具定位差异2.2性能基准测试（以创建环境+安装numpy为例）三、venv的配置与最佳实践3.1基础工作流3.2多版本Python管理四、conda的进阶应用4.1环境创建与通道配置4.2混合使用conda与pip的风险控制4.3跨平台环境导出五、工具选型决策树5.1场景化推荐
冒泡排序算法详解（含Python代码实现）算法_小学生算法
冒泡排序（BubbleSort）是最基础的排序算法之一，通常用于学习排序算法的入门理解。本文将通过Python代码实现冒泡排序，并详细讲解其原理、执行流程、复杂度分析及适用情况。✨一、算法简介冒泡排序的核心思想是：相邻两个元素比较，将较大的元素不断“冒泡”至右侧，最终实现排序。其基本过程是重复比较相邻的元素，如果顺序错误就交换，重复这一过程，直到没有任何需要交换的为止。二、Python代码实现下面
PyTorch中 item()、tolist()使用详解和实战示例点云SLAM PyTorch深度学习 pytorch 人工智能 python 深度学习张量的操作 item tolist
在PyTorch中，.item()和.tolist()是两个常用于从Tensor中提取Python原生数据的方法，尤其在调试、日志记录或将结果传给非张量库时非常有用。下面是它们的详解与代码示例。1..item()方法用途：将仅包含一个元素的张量（即标量张量）转换为对应的Python原生数据类型（float,int,等）。限制：只能用于只包含一个元素的Tensor，否则会报错。示例代码：import
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
Github 2025-07-05 Rust开源项目日报Top10 老孙正经胡说 github rust 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-07-05统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Rust项目10TypeScript项目1uv:极快的Python软件包安装程序和解析器创建周期：147天开发语言：Rust协议类型：ApacheLicense2.0Star数量：7066个Fork数量：200次关注人数：7066人贡献人数：45人O
JSONLines和JSON数据格式使用教程 Cachel wood 现代程序设计技术 json jsonlines 贪心算法算法 spark ajax 大数据
文章目录一、核心区别二、JSONLines的优势三、Python中使用JSONLines1.写入JSONLines文件2.读取JSONLines文件3.处理大文件示例四、常见工具支持1.命令行工具2.编程语言库五、适用场景选择六、注意事项总结JSONLines（简称jsonl或jl）和传统JSON都是用于存储结构化数据的格式，但它们的设计目标和使用场景有所不同。以下是详细对比和使用指南：一、核心区
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi