youraner520

sklearn随机森林-分类参数详解

sklearn中的集成算法

1、sklearn中的集成算法模块ensemble

ensemble.AdaBoostClassifier    ： AdaBoost分类
ensemble.AdaBoostRegressor   ：Adaboost回归
ensemble.BaggingClassifier   ：装袋分类器
ensemble.BaggingRegressor  ：装袋回归器
ensemble.ExtraTreesClassifier ：Extra-trees分类（超树，极端随机树）
ensemble.ExtraTreesRegressor ： Extra-trees回归
ensemble.GradientBoostingClassifier ： 梯度提升分类
ensemble.GradientBoostingRegressor  ：梯度提升回归
ensemble.IsolationForest  ：隔离森林
**ensemble.RandomForestClassifier  ：随机森林分类
ensemble.RandomForestRegressor ： 随机森林回归**
ensemble.RandomTreesEmbedding  ：完全随机树的集成

ensemble.VotingClassifier ：用于不合适估算器的软投票/多数规则分类

集成算法中，有一半以上都是树的集成模型，可以想见决策树在集成中必定是有很好的效果。在这堂课中，我们会以随机森林为例，慢慢为大家揭开集成算法的神秘面纱。

2 RandomForestClassifier

class sklearn.ensemble.RandomForestClassifier (n_estimators=’10’, criterion=’gini’, max_depth=None,
min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’,
max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False,
n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)

 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

随机森林是非常具有代表性的Bagging集成算法，它的所有基评估器都是决策树，分类树组成的森林就叫做随机森林分类器，回归树所集成的森林就叫做随机森林回归器。这一节主要讲解RandomForestClassifier，随机森林分类器。

2.1 重要参数

2.1.1 控制基评估器的参数

2.1.2 n_estimators

这是森林中树木的数量，即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的，n_estimators越大，模型的效果往往越好。但是相应的，任何模型都有决策边界n_estimators达到一定的程度之后，随机森林的精确性往往不在上升或开始波动，并且，n_estimators越大，需要的计算量和内存也越大，训练的时间也会越来越长。对于这个参数，我们是渴望在训练难度和模型效果之间取得平衡。
n_estimators的默认值在现有版本的sklearn中是10，但是在即将更新的0.22版本中，这个默认值会被修正为100。这个修正显示出了使用者的调参倾向：要更大的n_estimators。

1. 导入我们需要的包

%matplotlib inline
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_wine

 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

2. 导入需要的数据集

wine = load_wine()
wine.data
wine.target

 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3

3. 复习:sklearn建模的基本流程

from sklearn.model_selection import train_test_split
Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
clf = DecisionTreeClassifier(random_state=0)
rfc = RandomForestClassifier(random_state=0)
clf = clf.fit(Xtrain,Ytrain)
rfc = rfc.fit(Xtrain,Ytrain)
score_c = clf.score(Xtest,Ytest)
score_r = rfc.score(Xtest,Ytest)
print("Single Tree:{}".format(score_c)
,"Random Forest:{}".format(score_r)
)

 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11

4. 画出随机森林和决策树在一组交叉验证下的效果对比

#目的是带大家复习一下交叉验证
#交叉验证：是数据集划分为n分，依次取每一份做测试集，每n-1份做训练集，多次训练模型以观测模型稳定性的方法
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
rfc = RandomForestClassifier(n_estimators=25)
rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10)
clf = DecisionTreeClassifier()
clf_s = cross_val_score(clf,wine.data,wine.target,cv=10)
plt.plot(range(1,11),rfc_s,label = "RandomForest")
plt.plot(range(1,11),clf_s,label = "Decision Tree")
plt.legend()
plt.show()
#====================一种更加有趣也更简单的写法===================#
"""
label = "RandomForest"
for model in [RandomForestClassifier(n_estimators=25),DecisionTreeClassifier()]:
score = cross_val_score(model,wine.data,wine.target,cv=10)
print("{}:".format(label)),print(score.mean())
plt.plot(range(1,11),score,label = label)
plt.legend()
label = "DecisionTree"
"""

 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22

5. 画出随机森林和决策树在十组交叉验证下的效果对比

rfc_l = []
clf_l = []
for i in range(10):
rfc = RandomForestClassifier(n_estimators=25)
rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
rfc_l.append(rfc_s)
clf = DecisionTreeClassifier()
clf_s = cross_val_score(clf,wine.data,wine.target,cv=10).mean()
clf_l.append(clf_s)
plt.plot(range(1,11),rfc_l,label = "Random Forest")
plt.plot(range(1,11),clf_l,label = "Decision Tree")
plt.legend()
plt.show()
#是否有注意到，单个决策树的波动轨迹和随机森林一致？
#再次验证了我们之前提到的，单个决策树的准确率越高，随机森林的准确率也会越高

 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15

6. n_estimators的学习曲线

#####【TIME WARNING: 2mins 30 seconds】#####
superpa = []
for i in range(200):
rfc = RandomForestClassifier(n_estimators=i+1,n_jobs=-1)
rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
superpa.append(rfc_s)
print(max(superpa),superpa.index(max(superpa)))
plt.figure(figsize=[20,5])
plt.plot(range(1,201),superpa)
plt.show()

 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10

2.1.3 random_state

随机森林的本质是一种装袋集成算法（bagging），装袋集成算法是对基评估器的预测结果进行平均或用多数表决原则来决定集成评估器的结果。在刚才的红酒例子中，我们建立了25棵树，对任何一个样本而言，平均或多数表决原则下，当且仅当有13棵以上的树判断错误的时候，随机森林才会判断错误。单独一棵决策树对红酒数据集的分类准确率在0.85上下浮动，假设一棵树判断错误的可能性为0.2(ε)，那20棵树以上都判断错误的可能性是：

其中，i是判断错误的次数，也是判错的树的数量，ε是一棵树判断错误的概率，（1-ε）是判断正确的概率，共判对
25-i次。采用组合，是因为25棵树中，有任意i棵都判断错误。

import numpy as np
from scipy.special import comb
np.array([comb(25,i)*(0.2**i)*((1-0.2)**(25-i)) for i in range(13,26)]).sum()

可见，判断错误的几率非常小，这让随机森林在红酒数据集上的表现远远好于单棵决策树。
那现在就有一个问题了：我们说袋装法服从多数表决原则或对基分类器结果求平均，这即是说，我们默认森林中的每棵树应该是不同的，并且会返回不同的结果。设想一下，如果随机森林里所有的树的判断结果都一致（全判断对或全判断错），那随机森林无论应用何种集成原则来求结果，都应该无法比单棵决策树取得更好的效果才对。但我
们使用了一样的类DecisionTreeClassifier，一样的参数，一样的训练集和测试集，为什么随机森林里的众多树会有不同的判断结果？
问到这个问题，很多小伙伴可能就会想到了：sklearn中的分类树DecisionTreeClassifier自带随机性，所以随机森林中的树天生就都是不一样的。我们在讲解分类树时曾提到，决策树从最重要的特征中随机选择出一个特征来进行分枝，因此每次生成的决策树都不一样，这个功能由参数random_state控制。
随机森林中其实也有random_state，用法和分类树中相似，只不过在分类树中，一个random_state只控制生成一棵树，而随机森林中的random_state控制的是生成森林的模式，而非让一个森林中只有一棵树。

import numpy as np
from scipy.special import comb
np.array([comb(25,i)*(0.2**i)*((1-0.2)**(25-i)) for i in range(13,26)]).sum()
rfc = RandomForestClassifier(n_estimators=20,random_state=2)
rfc = rfc.fit(Xtrain, Ytrain)
#随机森林的重要属性之一：estimators，查看森林中树的状况
rfc.estimators_[0].random_state
for i in range(len(rfc.estimators_)):
print(rfc.estimators_[i].random_state)

 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9

2.1.4 bootstrap & oob_score

要让基分类器尽量都不一样，一种很容易理解的方法是使用不同的训练集来进行训练，而袋装法正是通过有放回的随机抽样技术来形成不同的训练数据，bootstrap就是用来控制抽样技术的参数。
在一个含有n个样本的原始训练集中，我们进行随机采样，每次采样一个样本，并在抽取下一个样本之前将该样本放回原始训练集，也就是说下次采样时这个样本依然可能被采集到，这样采集n次，最终得到一个和原始训练集一样大的，n个样本组成的自助集。由于是随机采样，这样每次的自助集和原始数据集不同，和其他的采样集也是不同的。这样我们就可以自由创造取之不尽用之不竭，并且互不相同的自助集，用这些自助集来训练我们的基分类
器，我们的基分类器自然也就各不相同了。
bootstrap参数默认True，代表采用这种有放回的随机抽样技术。通常，这个参数不会被我们设置为False。
然而有放回抽样也会有自己的问题。由于是有放回，一些样本可能在同一个自助集中出现多次，而其他一些却可能被忽略，一般来说，自助集大约平均会包含63%的原始数据。因为每一个样本被抽到某个自助集中的概率为：

当n足够大时，这个概率收敛于1-(1/e)，约等于0.632。因此，会有约37%的训练数据被浪费掉，没有参与建模，
这些数据被称为袋外数据(out of bag data，简写为oob)。除了我们最开始就划分好的测试集之外，这些数据也可以被用来作为集成算法的测试集。也就是说，在使用随机森林时，我们可以不划分测试集和训练集，只需要用袋外数据来测试我们的模型即可。当然，这也不是绝对的，当n和n_estimators都不够大的时候，很可能就没有数据掉落在袋外，自然也就无法使用oob数据来测试模型了。
如果希望用袋外数据来测试，则需要在实例化时就将oob_score这个参数调整为True，训练完毕之后，我们可以用随机森林的另一个重要属性：oob_score_来查看我们的在袋外数据上测试的结果：

#无需划分训练集和测试集
rfc = RandomForestClassifier(n_estimators=25,oob_score=True)
rfc = rfc.fit(wine.data,wine.target)
#重要属性oob_score_
rfc.oob_score_

 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5

2.2 重要属性和接口

至此，我们已经讲完了所有随机森林中的重要参数，为大家复习了一下决策树的参数，并通过n_estimators，random_state，boostrap和oob_score这四个参数帮助大家了解了袋装法的基本流程和重要概念。同时，我们还介绍了.estimators_ 和 .oob_score_ 这两个重要属性。除了这两个属性之外，作为树模型的集成算法，随机森林自然也有.feature_importances_这个属性。
随机森林的接口与决策树完全一致，因此依然有四个常用接口：apply, fit, predict和score。除此之外，还需要注
意随机森林的predict_proba接口，这个接口返回每个测试样本对应的被分到每一类标签的概率，标签有几个分类
就返回几个概率。如果是二分类问题，则predict_proba返回的数值大于0.5的，被分为1，小于0.5的，被分为0。
传统的随机森林是利用袋装法中的规则，平均或少数服从多数来决定集成的结果，而sklearn中的随机森林是平均每个样本对应的predict_proba返回的概率，得到一个平均概率，从而决定测试样本的分类。

rfc = RandomForestClassifier(n_estimators=25)
rfc = rfc.fit(Xtrain, Ytrain)
rfc.score(Xtest,Ytest)
rfc.feature_importances_
rfc.apply(Xtest)
rfc.predict(Xtest)
rfc.predict_proba(Xtest)

 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7

Bonus：Bagging的另一个必要条件

之前我们说过，在使用袋装法时要求基评估器要尽量独立。其实，袋装法还有另一个必要条件：基分类器的判断准确率至少要超过随机分类器，即时说，基分类器的判断准确率至少要超过50%。之前我们已经展示过随机森林的准
确率公式，基于这个公式，我们画出了基分类器的误差率ε和随机森林的误差率之间的图像。大家可以自己运行一下这段代码，看看图像呈什么样的分布。
#大家可以分别取尝试一下这些属性和接口


rfc = RandomForestClassifier(n_estimators=25)
rfc = rfc.fit(Xtrain, Ytrain)
rfc.score(Xtest,Ytest)
rfc.feature_importances_
rfc.apply(Xtest)
rfc.predict(Xtest)
rfc.predict_proba(Xtest)
import numpy as np
x = np.linspace(0,1,20)
y = []
for epsilon in np.linspace(0,1,20):
E = np.array([comb(25,i)*(epsilon**i)*((1-epsilon)**(25-i))
for i in range(13,26)]).sum()
y.append(E)
plt.plot(x,y,"o-",label="when estimators are different")
plt.plot(x,x,"--",color="red",label="if all estimators are same")
plt.xlabel("individual estimator's error")
plt.ylabel("RandomForest's error")
plt.legend()
plt.show()

Linux dirname、basename 指令 weixin_30457465 操作系统
Linuxdirname、basename指令(2012-04-3021:44:53)转载▼标签：杂谈分类：linux一、dirname指令1、功能：从给定的包含绝对路径的文件名中去除文件名（非目录的部分），然后返回剩下的路径（目录的部分）2、用法：dirnamefilename例如下面几个例子（1）#dirname/etc/sysconfig/network-scripts/ifcfg-eth0
String字符串转换为实体对象荔枝桃子 java
将一个String字符串转换为实体对象LibraryGdsFaxingCatgDTO类publicclassLibraryGdsFaxingCatgDTO{/***层级展示*/privateStringhierarchy;/***发行分类总数据*/privateListdata;publicStringgetHierarchy(){returnhierarchy;}publicvoidsetHie
梯度提升决策树树（GBDT）公式推导化作星辰决策树算法机器学习
###逻辑回归的损失函数逻辑回归模型用于分类问题，其输出是一个概率值。对于二分类问题，逻辑回归模型的输出可以表示为：\[P(y=1|x)=\frac{1}{1+e^{-F(x)}}\]其中\(F(x)\)是一个线性组合函数，通常表示为：\[F(x)=\sum_{m=0}^{M}h_m(x)\]这里的\(h_m(x)\)是学习到的决策树。###损失函数的推导对于单个样本\((x_i,y_i)\)，逻
fit_transform,fit,transform区别和作用浊酒南街 #机器学习深度学习人工智能
目录前言fit,transform,fit_transform函数介绍函数使用示例前言sklearn中封装的各种算法调用之前都要fit。fit相对于整个代码而言，为后续API服务，用于从一个训练集中学习模型参数，包括归一化时要用到的均值，标准偏差。fit之后，可以调用各种API方法，transform是其中之一。所以当你调用transform之外的方法，也必须要先fit。但是fit与transfo
深度学习-94-大语言模型LLM之基于langchain的链Chain的基础应用和调用方式皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1Chain链的分类1.1LCELChains(链构造器)1.2LegacyChains(遗留链)2链的基础应用2.1OllamaLLM2.2是否使用chain的对比2.2.1不使用Chain2.2.2使用Chain3链的调用方式3.1通过invoke方法【推荐】3.2通过predict方法3.3通过apply方法3.4通过generate方法4参考附录1Chain链的分类为开发更复杂的应
基于Python和TensorFlow/Keras框架的大模型实战教程小蘑菇二号大模型
目录目标准备工作步骤1:导入必要的库步骤2:加载和准备数据步骤3:构建模型步骤4:训练模型步骤5:评估模型步骤6:可视化训练过程步骤7:模型预测步骤8:模型保存与加载总结基于Python和TensorFlow/Keras框架的大模型实战教程。这个教程将涵盖从数据准备到模型训练、评估和部署的整个流程。我们将以一个简单的图像分类任务为例进行说明。目标通过本教程，您将学会如何使用TensorFlow/K
数字水印算法分类以及区别（含有变换域python代码链接） Nefelibat 数字水印数字水印变换域
目录看代码前需要知道的理论知识使用场景分类水印算法运行名词解释历史信息的两个丢失其他抗打印水印数字水印技术变换域算法。去github上下载了一个用python写的源码:https://codeload.github.com/Messi-Q/python-watermark/zip/master然后自己跑了一下，该代码包括两个部分。一个是图像数字水印代码实现，一个是PDF数字水印代码实现。看代码前需
计算广告（一）爱学习的菜鸟罢了搜广推人工智能
计算广告学是一个十分庞大的学科，里面涵盖了自然语言处理、机器学习、推荐系统等众多研究方向。而且广告作为互联网行业的三大盈利模式（广告、电商、游戏）之一，也是这三大模式中最有技术含量的，计算广告学一直都吸引着无数学术界/工业界的精英投入其中（ps：计算广告学也是机器学习在商业界最成功的应用之一）。行业分类例子盈利搜索引擎Google百度广告社交网络腾讯facebook广告增值服务游戏电商网站亚马逊阿
这些可以免费下载3D模型网站，一定要收藏！ mirrornan 3D模型 3d 3D模型模型下载
免费下载3D模型可以通过多个途径实现，以下是一些推荐的网站和方法：1、Sketchfab（sketchfab.com）模型资源丰富，涵盖各个类目。可以直接在线查看3D效果，无需插件。很多模型都是免费的，但部分可能需要注册账号后下载。2、Turbosquid（turbosquid.com）模型素材非常全面，分类清晰。提供多种格式的3D文件，如max、fbx、obj、c4d、maya等。需要注册登录后
facebook欧洲户开户条件有哪些又有何优势？推广小赵经验分享
在当今数字营销时代，Facebook广告已成为企业推广产品和服务的重要渠道。而为了更好地利用这一平台，广告主们需要理解不同类型的Facebook广告账户。Facebook广告账户根据其属性可分为多种类型，包括个人广告账户、企业管理（BM）广告账户、国内企业户和海外企业户。在这些账户中，Facebook的“三不限户”特别受到广告主的青睐，这类账户属于企业账户，按地区分类可分为国内三不限账户和海外三不
GNSS接收机测试怎么做 network_tester GNSS模拟器卫星定位导航授时测试网络测试工具功能测试信息与通信网络安全集成测试测试覆盖率
GNSS接收机测试是评估GNSS接收机性能好坏的重要环节，它主要包括一系列关键性能测试，以确保接收机在各种环境和条件下都能稳定、准确地工作。以下是对GNSS接收机测试的详细分析：一、测试分类GNSS接收机测试主要分为射频传导测试、天线OTA测试和外场测试三大类。射频传导测试：主要检验板端的性能，通过模拟卫星信号源播发GNSS调制信号，并观察接收机的接收性能。天线OTA测试：针对天线与接收机整体性能
MATLAB 代码的主要功能是基于功能连接（FC）数据，利用支持向量机（SVM）进行分类，并通过留一法交叉验证、特征选择、超参数寻优、一致性特征分析以及置换检验等步骤，评估分类性能和特征的显著性 max500600 MATLAB 开发语言算法 matlab 支持向量机分类
clear;clcNumROI=37;%ROI数目NumCon=605;%连接数目%选择病人组数据文件夹%path1=spm_select(1,'dir','pleaseselectpatientsdir');path1='D:\siying\42ML_day3\nnnnnn\FC\Patient';%和第7行用一个即可，为手动改路径file1=dir([path1,filesep,'*.txt'
基于.net的新闻发布系统的设计与实现糖果_0812 .net asp.net 数据库 internet c#语言
摘要：随着网络技术的发展和Internet应用的普及，互联网已成为人们获取信息的一个重要途径。而越来越多的企业和单位拥有了自己的新闻发布系统。本文主要运用ASP.NET技术框架基于C#语言制作的一个动态网站，数据库采用SQLServer。实现网站新闻的动态管理，使得对信息的管理更加及时、高效，提高了工作效率。关键词：ASP.NET；C#；新闻发布系统中图分类号：TP311.13文献标识码：A文章编
java集合与队列详解羽落风起 Java 队列 java 集合
说明java集合是jdk自带java核心功能，它主要用来存储大量同类型数据快速高效稳定的查找、添加、替换，主要分为List、Set、Map、Queue，前两个继承Collection接口，Map为独立接口。分类Collection接口List接口，有序可重复。分类ArrayList:底层是数组，默认大小10每次增加一半，线程不安全，效率高，查询快，增删慢Vector:底层数组，查询快，增删慢，线程
Python进阶—高级语法 Echo.py Python基础语法 python 开发语言
目录文章目录目录1、在==和is之间选择2、元组的相对不可变性3、字典中的键映射多个值4、Linux5、python中字典的key要求6、编码7、进制之间的转换8、关系运算符(时间处理)9、时间处理模块❶常用时间处理方法❷转化为13位时间戳10、三元运算符11、成员运算符12、For循环机制13、变量的分类14、闭包(函数的嵌套)15、函数(方法)的执行流程16、匿名函数17、Django和Fla
云计算相关 xianKOG 云计算云计算
文章目录一、虚拟化1、虚拟化技术概述特点2、虚拟化与云化3、计算虚拟化分类与作用常见的计算服务架构4、存储虚拟化5、网络虚拟化二、行业管理规章制度1、服务器管理制度访问控制变更管理备份与恢复监控与审计2、操作系统安全管理规范更新与补丁管理用户账号管理防火墙与安全软件日志管理3、虚拟化管理规定资源分配隔离策略模版与镜像三、操作系统1、操作系统安装2、操作系统调优3、操作系统管理维护4、常见服务安装与
C语言程序设计——手机通讯录系统 green qwq C和C++语言程序综合设计实践 c语言
题目【难度系数】3级【任务描述】模拟手机通信录管理系统，实现对个人通信录的管理。【功能描述】通讯录信息管理：包括添加、删除、修改、查询、保存、浏览等操作。通讯录信息主要包括：编号、姓名、电话号码、分类（例如包括：A办公类；B个人类；C商务类等）、电子邮件、生日等。具体信息可参照设计者的手机通讯录结构。查询功能：选择此功能时，列出用户类别，例如：A办公类；B个人类；C商务类。根据选中的类别，显
tensorflow-迁移学习使用Resnet残差网络实现猫狗分类问题浮夸 tensorflow python
遇到的bug都放在之前的文章里了importosimportpandasaspdimportwarningsimporttensorflowastffromtensorflow.pythonimportkerasfromkeras.preprocessing.imageimportImageDataGeneratorimportkeras.optimizersasopfromtensorflow.
R数据分析：多分类问题预测模型的ROC做法及解释公众号Codewar原创作者 R 数据分析
有同学做了个多分类的预测模型，结局有三个类别，做的模型包括多分类逻辑回归、随机森林和决策树，多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的，后面两种模型报告了混淆矩阵，审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了，刚好借这个机会给大家讲讲ROC在多分类问题情形下的具体使用和做法。ROC曲线回顾ROC曲线（ReceiverOperatingCharacteristicCurve）
Vue3项目开发——新闻发布管理系统（八） bjzhang75 Vue知识学习及项目开发实践项目开发实践 Vue3 项目开发新闻发布管理系统
文章目录十、新闻管理模块设计开发1、新闻管理主页面设计1.1基本架构搭建1.1.1搜索表单1.1.2新闻主表格样式(静态数据模拟渲染)1.2新闻分类选择框1.2.1新建组件1.2.2页面中导入渲染1.2.3调用接口，动态渲染下拉分类，设计成v-model的使用方式1.2.4父组件定义参数绑定1.2.5发布状态，也绑定一下，便于将来提交表单2、新闻表格渲染2.1封装API接口，新闻主表格渲染2.1.
python实战（十五）——中文手写体数字图像CNN分类 CM莫问 python实战深度学习 python cnn 人工智能深度学习算法图像分类手写体识别
一、任务背景本次python实战，我们使用来自Kaggle的数据集《ChineseMNIST》进行CNN分类建模，不同于经典的MNIST数据集，我们这次使用的数据集是汉字手写体数字。除了常规的汉字“零”到“九”之外还多了“十”、“百”、“千”、“万”、“亿”，共15种汉字数字。二、python建模1、数据读取首先，读取jpg数据文件，可以看到总共有15000张图像数据。importpandasas
CANopen学习笔记卡钦斯基通信协议网络
1.CANopen的预定义报文ID分类CANopen在设计时，对其定义为小网络、控制信号的实时通讯：报文传输采用CAN标准帧格式。即11bit的ID域，以尽量减小传输时间。网络控制报均采用数据最小字节数。比如心跳报文，只有1个字节数据。实时更新的过程数据无需接收方报文应答。即采用生产消费模型，降低总线负载。需要接收方确认的配置参数一般都时采用快速单字传输。即1个报文最多传达1个32bit的参数变量
使用神经网络做二分类预测 weixin_33816300 人工智能 python matlab
不想整理代码了。先给个结果图：train0loss:1838.0616train100loss:1441.5283train200loss:1299.4546train300loss:934.36536train400loss:506.06702train500loss:322.9782train600loss:271.5825train700loss:360.091train800loss:23
Python笔记1.2（open、logging、os、shutil、glob、decode、encode、pickle、tqdm） qq742234984 python 笔记数据库
Python笔记1.1（datetime、argparse、sys、overwrite、eval、json、os、zfill、endswith、traceback、深浅拷贝）Python笔记2（函数参数、面向对象、装饰器、高级函数、捕获异常、dir）Python笔记1.214、withopen()asfile和open()参数详解15、logging日志的等级logging.basicConfig
Swin-Unet多分类：图像分割领域的强大工具甄亚凌
Swin-Unet多分类：图像分割领域的强大工具【下载地址】Swin-Unet多分类资源文件介绍本仓库提供了一个名为“Swin-Unet多分类”的资源文件，该文件主要用于图像分割任务中的多分类问题。资源文件中包含了一个基于Swin-Unet模型的实现，旨在对图像进行多分类分割项目地址:https://gitcode.com/open-source-toolkit/32588项目介绍在图像处理和计算
kaggle入门级竞赛Spaceship Titanic LIghtgbm+Optuna调参机器学习司猫白机器学习实战机器学习 python 集成学习 scikit-learn
kaggle入门级竞赛SpaceshipTitanic简介数据介绍数据集描述数据字段描述train.csv-约三分之二（~8700）乘客的个人记录，用作培训数据。test.csv-剩余三分之一（~4300）乘客的个人记录，用作测试数据。您的任务是预测Transported该集合中乘客的价值。Sample_submission.csv-格式正确的提交文件。代码分类变量optuna算法简介简介欢迎来到
AI赋能电商：从个性化推荐到智能化运营 w(ﾟДﾟ)w吓洗宝宝了当下编程领域的分析大数据人工智能
引言随着互联网技术的飞速发展，电子商务已经成为人们日常生活的重要组成部分。然而，在激烈的市场竞争中，如何提升销售效率和用户体验成为了电商平台面临的主要挑战。近年来，人工智能（AI）技术的迅猛发展为这一挑战提供了新的解决方案。从个性化推荐到会员分类，从商品定价到供应链管理，AI技术的应用不仅提高了电商平台的运营效率，还极大地提升了用户的购物体验。本文将深入探讨AI技术在电商领域的多种应用场景，分析其
【揭秘】图像算法工程师岗位如何进入？认识祂人工智能算法图像算法工程师
“图像算法工程师，主要专注于开发图像处理和计算机视觉算法，广泛应用于各行业。本文，我们来揭秘一下他们的日常工作，以及如何成为这一领域的专业人才。”01图像算法工程师的日常工作算法设计与开发图像算法工程师的核心任务是设计和开发算法，以解决特定的图像处理或计算机视觉问题。常见的任务包括：图像分类：使用卷积神经网络（CNN）对图像进行分类，常见算法如ResNet、VGG。目标检测：在图像中定位并标注物体
高斯混合模型（GMM）：用“高斯家族”描绘数据的“模样” ningaiiii 机器学习与深度学习机器学习人工智能
高斯混合模型（GMM）：用“高斯家族”描绘数据的“模样”1.引言高斯混合模型（GaussianMixtureModel,GMM）是一种基于概率密度的生成式模型。它的核心思想是用多个“高斯分布”（即正态分布）的加权组合来描述数据的分布。GMM就像是一个“画家”，用不同的“高斯画笔”描绘出数据的“模样”，特别适合处理复杂的分类任务。2.算法原理2.1模型结构GMM的核心组成包括：混合权重：每个高斯分量
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地