Jack_丁明

R语言利用caret包对变量重要程度排序与选择特性

说明

得到监督模型后，我们可以改变输入值，比较给定模型输出效果的变化敏感程度来评估不同特征对模型的的重要性。

操作

利用caret完成对重要变量有排序

library(lattice)
library(ggplot2)
library(caret)
data(churn)

str(churnTrain)

churnTrain = churnTrain[,!names(churnTrain) %in% c("state","area_code","account_length")]

#生成随机编号为2的随机数
set.seed(2)
#将churnTrain的数据集分为两类，按0.7与0.3的比例无放回抽样
ind = sample(2,nrow(churnTrain),replace = TRUE,prob = c(0.7,0.3))

trainset = churnTrain[ind == 1,]
testset = churnTrain[ind == 2,]


control = trainControl(method = "repeatedcv",number = 10,repeats = 3)
library(rpart)
library(C50)
data(churn)
model = train(churn~.,data = trainset,method = "rpart",preProcess = "scale" ,trControl = control)

importance = varImp(model,scale = FALSE)
importance
rpart variable importance

                              Overall
number_customer_service_calls 116.015
total_day_minutes             106.988
total_day_charge              100.648
international_planyes          86.789
voice_mail_planyes             25.974
total_eve_minutes              23.097
total_eve_charge               23.097
number_vmail_messages          19.885
total_intl_minutes              6.347
total_intl_calls                0.000
total_night_minutes             0.000
total_day_calls                 0.000
total_night_calls               0.000
total_night_charge              0.000
total_eve_calls                 0.000
total_intl_charge               0.000

利用plot图绘制变量图重要性

plot(importance)

利用rpart等一些分类算法包从训练模型中产生的对象包括了变量了重要性，我们可以借助输出查看变量的重要性。

 model.rp = rpart(churn ~ .,data = trainset)
 model.rp$variable.importance
            total_day_minutes              total_day_charge number_customer_service_calls            total_intl_minutes 
                   111.645286                    110.881583                     58.486651                     48.283228 
            total_intl_charge              total_eve_charge             total_eve_minutes            international_plan 
                    47.698379                     47.166646                     47.166646                     42.194508 
             total_intl_calls         number_vmail_messages               voice_mail_plan             total_night_calls 
                    36.730344                     19.884863                     19.884863                      7.195828 
              total_eve_calls            total_night_charge           total_night_minutes               total_day_calls 
                     3.553423                      1.754547                      1.754547                      1.494986

利用caret包找到高度关联的特征

重新生成trainset

 new_train = trainset[,!names(churnTrain) %in% c("churn","international_plan","voice_mail_plan")]

计算每个属性之间的关联度

cor_mat = cor(new_train)
cor_mat
                              number_vmail_messages total_day_minutes total_day_calls total_day_charge total_eve_minutes
number_vmail_messages                  1.000000e+00     -3.788346e-05    -0.015315725    -4.344686e-05       0.016058678
total_day_minutes                     -3.788346e-05      1.000000e+00     0.003940177     1.000000e+00       0.018136088
total_day_calls                       -1.531573e-02      3.940177e-03     1.000000000     3.942808e-03      -0.016774585
total_day_charge                      -4.344686e-05      1.000000e+00     0.003942808     1.000000e+00       0.018138428
total_eve_minutes                      1.605868e-02      1.813609e-02    -0.016774585     1.813843e-02       1.000000000
total_eve_calls                       -1.715851e-02      2.421777e-02     0.001938560     2.422109e-02      -0.024822635
total_eve_charge                       1.608561e-02      1.813039e-02    -0.016756722     1.813273e-02       0.999999775
total_night_minutes                    1.536272e-02      7.287277e-03     0.019582169     7.286773e-03      -0.009225611
total_night_calls                      7.575418e-03      2.334305e-02    -0.010994425     2.334289e-02      -0.001625934
total_night_charge                     1.534769e-02      7.246376e-03     0.019590677     7.245871e-03      -0.009243068
total_intl_minutes                     7.256768e-03     -1.623444e-02     0.019197349    -1.623804e-02      -0.012775313
total_intl_calls                       1.513658e-02      1.428235e-02     0.003062639     1.428083e-02      -0.001403721
total_intl_charge                      7.286473e-03     -1.620263e-02     0.019255703    -1.620623e-02      -0.012697993
number_customer_service_calls         -2.210761e-02     -7.981699e-03    -0.017568292    -7.982226e-03      -0.012419994
                              total_eve_calls total_eve_charge total_night_minutes total_night_calls total_night_charge
number_vmail_messages           -0.0171585053      0.016085609         0.015362721       0.007575418        0.015347687
total_day_minutes                0.0242177707      0.018130387         0.007287277       0.023343046        0.007246376
total_day_calls                  0.0019385605     -0.016756722         0.019582169      -0.010994425        0.019590677
total_day_charge                 0.0242210899      0.018132728         0.007286773       0.023342891        0.007245871
total_eve_minutes               -0.0248226349      0.999999775        -0.009225611      -0.001625934       -0.009243068
total_eve_calls                  1.0000000000     -0.024817028        -0.008842555       0.007155111       -0.008786733
total_eve_charge                -0.0248170279      1.000000000        -0.009223415      -0.001612116       -0.009240862
total_night_minutes             -0.0088425553     -0.009223415         1.000000000       0.026300284        0.999999233
total_night_calls                0.0071551108     -0.001612116         0.026300284       1.000000000        0.026261765
total_night_charge              -0.0087867331     -0.009240862         0.999999233       0.026261765        1.000000000
total_intl_minutes               0.0008668991     -0.012791651        -0.005866862       0.002762074       -0.005879993
total_intl_calls                 0.0079279293     -0.001397968        -0.012199350       0.015687833       -0.012174331
total_intl_charge                0.0008246073     -0.012714417        -0.005862733       0.002657183       -0.005875863
number_customer_service_calls    0.0063984603     -0.012415843        -0.001085209      -0.020231294       -0.001067571
                              total_intl_minutes total_intl_calls total_intl_charge number_customer_service_calls
number_vmail_messages               0.0072567683      0.015136582      0.0072864731                  -0.022107609
total_day_minutes                  -0.0162344421      0.014282352     -0.0162026313                  -0.007981699
total_day_calls                     0.0191973487      0.003062639      0.0192557029                  -0.017568292
total_day_charge                   -0.0162380367      0.014280828     -0.0162062318                  -0.007982226
total_eve_minutes                  -0.0127753135     -0.001403721     -0.0126979931                  -0.012419994
total_eve_calls                     0.0008668991      0.007927929      0.0008246073                   0.006398460
total_eve_charge                   -0.0127916505     -0.001397968     -0.0127144174                  -0.012415843
total_night_minutes                -0.0058668622     -0.012199350     -0.0058627326                  -0.001085209
total_night_calls                   0.0027620735      0.015687833      0.0026571833                  -0.020231294
total_night_charge                 -0.0058799926     -0.012174331     -0.0058758631                  -0.001067571
total_intl_minutes                  1.0000000000      0.044054461      0.9999928823                  -0.015930448
total_intl_calls                    0.0440544614      1.000000000      0.0441335428                  -0.018235001
total_intl_charge                   0.9999928823      0.044133543      1.0000000000                  -0.015940717
number_customer_service_calls      -0.0159304482     -0.018235001     -0.0159407173                   1.000000000

调用findCorrelation函数找到关联度超过0.75的属性

highly_correlations = findCorrelation(cor_mat,cutoff = 0.75)
highly_correlations
[1] 11  4  5  8

输出这些高度关联的属性的名称：

names(new_train)[highly_correlations]
[1] "total_intl_minutes"  "total_day_charge"    "total_eve_minutes"   "total_night_minutes"

为了得到每个属性的相关值，需要先去掉非数值类型的属性，然后通过相关性计算得到一个关联度矩阵，然后将关联度阈值设定为0.75，包括total_intl_minutes,total_day_charge,total_eve_minutes,total_night_minutes。

利用Caret包选择属性

将训练数据集trainset中名为international_plan的特征转化为intl_yes,intl_no:

intl_plan = model.matrix(~ trainset$international_plan -1,data = data.frame(trainset$international_plan))
colnames(intl_plan) = c( "trainset$international_planno" = "intl_no"  ,"trainset$international_planyes" = "intl_yes")

将训练集中的trainset中名为了voice_mail_plan特征转化成voice_yes与voice_no:

voice_plan = model.matrix(~ trainset$voice_mail_plan -1,data = data.frame(trainset$voice_mail_plan))
colnames(voice_plan) = c( "trainset$voice_mail_planno" = "voice_no"  ,"trainset$voice_mail_planyes" = "voice_yes")

去掉international_plan 和voice_mail_planno这两个属性，将训练集的trainset和intl_plan 、voice_plan 两个数据框合并。

trainset$international_plan = NULL
trainset$voice_mail_plan = NULL
trainset = cbind(intl_plan,voice_plan,trainset)

同理对测试数据集做同样的处理：

intl_plan = model.matrix(~testset$international_plan -1,data = data.frame(testset$international_plan))
colnames(intl_plan) = c( "testset$international_planno" = "intl_no"  ,"testset$international_planyes" = "intl_yes")

voice_plan = model.matrix(~ testset$voice_mail_plan -1,data = data.frame(testset$voice_mail_plan))
colnames(voice_plan) = c( "testset$voice_mail_planno" = "voice_no"  ,"testset$voice_mail_planyes" = "voice_yes")

testset$international_plan = NULL
testset$voice_mail_plan = NULL
testset = cbind(intl_plan,voice_plan,testset)

使用线性判别分析方法创建一个特征筛选算法：

ldacontrol = rfeControl(functions = ldaFuncs,method = "cv")

使用从编号1到18的数据子集对训练数据集trainset进行反向特征筛选：

ldaprofile = rfe(trainset[,!names(trainset) %in% c("churn")],trainset[,c("churn")],sizes = c(1:18),rfeControl = ldacontrol)
ldaprofile
Recursive feature selection

Outer resampling method: Cross-Validated (10 fold) 

Resampling performance over subset size:

 Variables Accuracy  Kappa AccuracySD KappaSD Selected
         1   0.8523 0.0000   0.001675 0.00000         
         2   0.8523 0.0000   0.001675 0.00000         
         3   0.8436 0.1400   0.011711 0.09055         
         4   0.8432 0.2076   0.010202 0.03927         
         5   0.8471 0.2321   0.016556 0.05733         
         6   0.8454 0.2308   0.015287 0.04411         
         7   0.8462 0.2369   0.014101 0.04268         
         8   0.8441 0.2220   0.016293 0.07222         
         9   0.8458 0.2284   0.016027 0.06877         
        10   0.8479 0.2377   0.017831 0.08265         
        11   0.8492 0.2481   0.018360 0.08050         
        12   0.8510 0.2542   0.016630 0.07754         
        13   0.8514 0.2577   0.017362 0.07950         
        14   0.8536 0.2695   0.016204 0.07610        *
        15   0.8523 0.2693   0.016640 0.06845         
        16   0.8531 0.2713   0.016522 0.06908         
        17   0.8514 0.2624   0.016150 0.07040         
        18   0.8510 0.2612   0.015494 0.06877         

The top 5 variables (out of 14):
   total_day_charge, total_day_minutes, intl_no, intl_yes, numb`
r_customer_service_calls

绘制选择结果示意图：

plot(ldaprofile,type = c("o","g"))

绘制特征选择结果
检测最佳的变量因子：

 ldaprofile$optVariables
 [1] "total_day_charge"              "total_day_minutes"             "intl_no"                       "intl_yes"                     
 [5] "number_customer_service_calls" "total_eve_minutes"             "total_eve_charge"              "voice_yes"                    
 [9] "total_intl_calls"              "voice_no"                      "number_vmail_messages"         "total_intl_charge"            
[13] "total_intl_minutes"            "total_night_minutes"

检测合适的模型：

ldaprofile$fit
Call:
lda(x, y)

Prior probabilities of groups:
      yes        no 
0.1477322 0.8522678 

Group means:
    total_day_charge total_day_minutes   intl_no   intl_yes number_customer_service_calls total_eve_minutes total_eve_charge voice_yes
yes         35.00143          205.8877 0.7046784 0.29532164                      2.204678          213.7269         18.16702 0.1666667
no          29.62402          174.2555 0.9351242 0.06487582                      1.441460          199.6197         16.96789 0.2954891
    total_intl_calls  voice_no number_vmail_messages total_intl_charge total_intl_minutes total_night_minutes
yes         4.134503 0.8333333              5.099415          2.899386           10.73684            205.4640
no          4.514445 0.7045109              8.674607          2.741343           10.15119            201.4184

Coefficients of linear discriminants:
                                       LD1
total_day_charge               0.715025524
total_day_minutes             -0.130486469
intl_no                        1.129944662
intl_yes                      -1.129944662
number_customer_service_calls -0.421997335
total_eve_minutes              0.198406977
total_eve_charge              -2.390372792
voice_yes                      0.330463968
total_intl_calls               0.066240268
voice_no                      -0.330463968
number_vmail_messages         -0.003529233
total_intl_charge              2.315069869
total_intl_minutes            -0.693504606
total_night_minutes           -0.002127471

最后，通过重新采样来评估性能

postResample(predict(ldaprofile,testset[,!names(testset) %in% c("churn")]),testset[,c("churn")])
 Accuracy     Kappa 
0.8605108 0.2672027

使用caret包完成特征的筛选，由于数据集包括了因子编码属性，首先调用model.matrix将这些因子转化成多个二元属性。
我们将训练方法设置为多个交叉验证方法.cv，同时调用了函数ladFuncs来完成线性判别分析，调用递归特征函数ladFuncs来执行特征选择，还可以通过函数ref在重采样的数据子集和筛选后的特征集基础上再次评估模型性能，并输出特征选择结果。
我们能够根据所得的模型基本信息来绘制变量个数与预测准确率之间的关系示意图，从图中可以知道（模型中最合适的变量因子为12），最后我们计算得到了重采样后数据集的预测准确度为0.86，kappa的检测结果为0.27.

Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
R语言标准普尔500指数Garch(1,1)模型 ronghuilin
一、例3.3标准普尔500指数的月超额收益率，从1926年开始，共792个观察值，如图所示。记rt为超额收益率，rt的样本ACF和rt2的样本PACF。在间隔为1，3时有少许序列相关性，但主要特征是平方序列显示的强烈线性相关性。例题建立garch(1,1)模型的过程：（1）应用arma(p,q)模型消除数据的线性依赖（2）在arma(p,q)模型基础上，建立garch(1,1)模型（3）改进g
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
VLSI 电路单元的自动布局-2024华数杯B题 2401_84314384 算法 python 数学建模
摘要超大规模集成电路设计通常采用电子设计自动化(EDA)的方式进行，布局是EDA工具的核心的核心。本文通过构建的线长评估模型及网格密度评估模型，并在此基础上对模型进行优化，最后利用模型实现VLSI电路单元的自动布局。问题一：基于结合直线型斯坦纳最小树思想的优化HPWL模型评估与电路单元连线接口坐标相关的线长。本题需要建立与电路单元连线接口坐标相关的线长评估模型，最小化每组估计线长与对应RSMT的差
学习小组Day4笔记--王英芳一万万万万
R语言基础准备工作电脑用户名需要是英文R基础，Rstudio人性化界面资源Rfordatasciencechapter1下载RandRstudio给自己一个全新的R语言环境R是什么一种变成语言，统计计算和绘图的环境，汇集了许多函数，强大分析功能。图形界面Rstudio开源集成开发环境IDE4个板块，脚本编辑器，控制台（脚本运行，结果显示），environment（对象/变量列表）history，文
R语言基础笔记 waterHBO r语言笔记开发语言
起因:今天不知道要写什么。把之前的笔记复制一下。代码开头，导入:#清除系统变量rm(list=ls())#隐藏警告信息:options(warn=-1)#把当前目录，设置为工作目录。library(rstudioapi)current_folder_path0.0&ideology<10.0)分组聚合，类似groupby()df2<-aggregate(df1KaTeXparseerror:Exp
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
时序预测|基于粒子群优化支持向量机的时间序列预测Matlab程序PSO-SVM 单变量和多变量含基础模型机器不会学习CL 智能优化算法时间序列预测支持向量机 matlab 算法
时序预测|基于粒子群优化支持向量机的时间序列预测Matlab程序PSO-SVM单变量和多变量含基础模型文章目录一、基本原理1.问题定义2.数据准备3.SVM模型构建4.粒子群优化（PSO）5.优化与模型训练6.模型评估与预测7.流程总结8.MATLAB实现概述二、实验结果三、核心代码四、代码获取五、总结时序预测|基于粒子群优化支持向量机的时间序列预测Matlab程序PSO-SVM单变量和多变量含基
生态位宽度计算&可视化展示（R语言）光疏介质 r语言
生态位宽度是指物种（或其它生物单位）在群落中所利用的各种不同资源的总和。物种的生态位越宽，该物种的特化程度就越小，倾向于泛化种（generalistspecies）；物种的生态位越窄，倾向于是一个特化种（specialistsspecies）。本篇所使用为生态位宽度指数即**Levins的生态位宽度指数。**（除此之外也有用shannon指数）#安装并加载必要的包if(!requireNamesp
R语言多项逻辑回归-因变量是无序多分类医学和生信笔记医学统计学 r语言医学统计学
因变量是无序多分类资料（＞2）时，可使用多分类逻辑回归（multinomiallogisticregression）。使用课本例16-5的数据，课本电子版及数据已上传到QQ群，自行下载即可。某研究人员欲了解不同社区和性别之间居民获取健康知识的途径是否相同，对2个社区的314名成人进行了调查，其中X1是社区，社区1用0表示，社区2用1表示；X2是性别，0是男，1是女，Y是获取健康知识途径，1是传统大
Protocol Buffer编译器安装雪域迷影
本文翻译自ProtocolBufferCompilerInstallationProtocolBufferCompilerInstallation如何安装protocolbuffer编译器尽管不是强制性的，但gRPC应用程序通常利用ProtocolBuufer来进行服务定义和数据序列化。该站点上的大多数示例代码都使用protocolbuffer语言（proto3）的版本3。protocolbuff
R语言自学笔记-2内置数据集实验室长工
#b站视频——R语言入门与数据分析#内置数据集#固定格式的数据（矩阵、数据框或一个时间序列等）#统计建模、回归分析等试验需要找合适的数据集#R内置数据集，存储在，通过help(package="datasets")#通过data函数访问这些数据集data()#得到新窗口前面：数据集名字后面：内容#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等#直接输入数据集的名字就可
【AIGC半月报】AIGC大模型启元：2024.06（下） LeeZhao@ AIGC 人工智能 AI Agent
AIGC大模型启元：2024.06（下）(1)Gen-3(2)Open-Sora1.2（Open-Sora再升级）(3)Claude3.5Sonnet（Claude升级）(4)ChatTTSv3（ChatTTS升级）(5)盘古大模型5.0(6)Falcon2(7)Glyph-ByT5-v2（清华、北大+微软）(8)LLMLeaderboardv2（大语言模型评估框架）(9)豆包MarsCode（字
在TCGA上下载数据并且进行处理 Red Red 生信小技巧 r语言数据库
浏览器搜索TCGAGDC进入网站在TCGA数据库主页选择“Repository”模式根据所需要的选项在侧边栏选择数据清空购物车！！第一次登陆可忽略将刚刚选择好的数据加入购物车，并且在购物车里下载Metadata和Cart数据，下载到同一个文件夹下。使用R语言脚本对数据进行处理，将其提取为genesymbol和样本的数据，推荐看一下该博主处理数据！！真的非常详细！他R语言脚本在这个链接里
R语言-非结构化数据-文本数据读入 pdc31czy R r语言数据分析
#2.2.2非结构化数据-文本数据读入rm(list=ls())#清空工作空间##1.读入简单文本数据###假如数据包含大量经过结构化的文本数据#只需按照读入csv等标准式数据的方法读入#例：novel=read.csv("novel.csv",fileEncoding="UTF-8")head(novel)##2.用readtable读入文本###文本数据普通读法test=read.table(
使用 MongoDB 构建 AI：Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心 MongoDB 数据平台 AI应用客户案例人工智能 mongodb
大语言模型可能不可靠，这几乎算不上头条新闻。对于某些用例，这可能会带来不便。而对于其他行业，尤其是受监管行业，后果则要严重得多。于是，业内首个大语言模型自动评估平台PatronusAI应运而生。PatronusAI由MetaAI和MetaRealityLabs的机器学习专家创立，旨在增强企业对生成式AI应用程序的信心，在塑造值得信赖的AI生态方面处于领先地位。Patronus联合创始人兼首席技术官
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
r语言做绘制精美pcoa图_R语言高级绘图 — ggplot2 weixin_39560002 r语言做绘制精美pcoa图
2)PCA的作图PCA主成分分析，可以将高维数据进行降维处理。我们的OTU表格就是典型的高维数据，可以对其进行降维处理得到主成分PC1和PC2，然后将所有样品都分解到这两个成分方向，进行散点绘图，可以直观的看出样品间的差异。首先需要一系列的统计处理，然后用ggplot2进行绘图，过程如下：#加载需要的三个包(需要先下载，再加载)>library(ade4)>library(ggplot2)>lib
科研绘图系列：R语言扩展物种堆积图（Extended Stacked Barplot）生信学习者1 SCI科研绘图系列 r语言数据可视化数据分析
介绍R语言的扩展物种堆积图是一种数据可视化工具，它不仅展示了物种的堆积结果，还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异，为研究者提供了一种有效的数据解读方式。加载R包knitr::opts_chunk$set(warning=F,message=F)library(tidyverse)library(phyloseq)library(g
科研绘图系列：R语言柱状图分布（histogram plot）生信学习者1 SCI科研绘图系列 r语言数据可视化
文章目录介绍加载R包读取数据画图介绍柱状图（BarChart）是一种常用的数据可视化图表，用于展示和比较不同类别或组的数据。它通过在二维平面上绘制一系列垂直或水平的柱子来表示数据的大小，每个柱子的长度或高度代表一个数据点的数值。柱状图非常适合于展示分类数据的分布和比较。柱状图的特点：直观比较：柱状图可以直观地展示不同类别之间的数值比较，易于理解。分类展示：数据按照类别或组别进行分组展示，每个类别用
科研绘图系列：R语言富集散点图（enrichment scatter plot）生信学习者1 SCI科研绘图系列 r语言数据可视化
介绍富集通路散点图（EnrichmentPathwayScatterPlot）是一种数据可视化工具，用于展示基因集富集分析（GeneSetEnrichmentAnalysis,GSEA）的结果。横坐标是对应基因名称，纵坐标是通路名称，图中的点表示该基因在某个通路下的qvalue，可以简单理解为不同环境下的贡献大小。加载R包导入所需要的R包，在导入前需要用户自己安装。library(readxl)l
Python-Matplotlib安装及简单使用 riyuexingchen0909 python python 图形
在使用NumPy进行学习统计计算时是枯燥的，大量的数据令我们很头疼，所以我们需要把它图形化显示。Matplotlib是一个Python的图形框架，类似于MATLAB和R语言。Matplotlib的官网地址是http://matplotlib.org/，下载地址为http://matplotlib.org/downloads.html，选择对应的版本即可安装，我选择的版本为matplotlib-1.
sublime安装python库_Mac OS 轻松用 Sublime Text 3 配置Python编译环境 weixin_39603397
最近在学习数据分析相关的知识，对比Python和R语言在数据分析领域的优劣，Python更胜一筹。要学习Python，首先需要搭建编译环境。一.编译工具的选择Python的编译工具有两种，1.文本编辑器，SublimeText3,(还有vim,VistualStudioCode),此处重点介绍SublimeText32.集成开发环境(IDE),主要有pycharmpython，iclipsepyt
在linux（ubuntu）中使用网页版的rstudio Chao_Powell_Hou
RStudio是R语言集成开发环境的应用软件，RStudioServer是一个基于web访问的RStudio云端开发环境，需要安装在服务器上，支持多用户远程访问使用。可以在网页端打开，而且界面与windows版本的相同。安装就先不说了，挺简单的。安装完成后输入rstudio-server可以看到相应的指令。image.png为了激活，我们输入rstudio-serverstart，就已经激活了。但
推荐一份生物信息学入门很好的参考材料小明的数据分析笔记本
链接是https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/这个是康涅狄格大学（UniversityofConnecticut）提供的一份教程，主要的内容包括1、生物信息学中经常用到的文件格式image.png2、linux操作系统和R语言的基础知识image.png3、转录组数据的处理流程image.png这里包括有参
R语言基础学习 weixin_55475210 r语言学习开发语言
R与RStudioR语言是数据科学和统计分析的语言，适合数据分析和数据可视化。R是开源的，拥有丰富的包（packages），可以与优化软件进行交互。RStudio提供了R语言的集成开发环境，支持代码编辑、运行、调试等功能。下载R：CRAN下载RStudio：RStudioDownloadRStudio界面基本操作保存/打开代码文件使用.R扩展名。保存/打开环境文件使用.Rdata扩展名。快捷键操作
一种评估大模型的方式，让幻觉、上下文长度现出原形知世不是芝士 transformer 深度学习人工智能 langchain 多模态大模型大模型幻觉 LLM
今天刚好看到李沐最近在交大演讲中提到的观点：大模型评估特别难，评估是你最重要的事情，先把评估做好，再去做别的事情。下面是李沐的原话：还有就是做评估特别难，模型在实际场景中的应用是一件非常复杂的事情，假如你用一个比较简单的评估，是无法评估模型的好坏。所以过去一年多，大家都在不停的刷新榜单，但实际用起来，就觉得模型不太行，因为评估没有到位，没有真的去把实际场景那么复杂的应用给评估进去。所以很多时候，评
学习小组Day5笔记--森蝶松风
数据结构Day5+数据结构.png新手注意事项1.R的赋值符号不是等号，而是<-2.在Console控制台输入命令，相当于Linux的命令行3.R的代码都是带括号的，括号必须是英文的。4.显示工作路径getwd()5.向量是由元素组成的，元素可以是数字或者字符串。6.表格在R语言中改名叫数据框7.函数或者命令不会用时，除了百度/谷歌搜索以外，用这个命令查看帮助：?read.table，调出对应的帮
第T4周：使用TensorFlow实现猴痘病识别 oufoc tensorflow 人工智能 python
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊文章目录一、前期工作1.设置GPU（如果使用的是CPU可以忽略这步）2.导入数据3.查看数据二、数据预处理1、加载数据2、数据可视化3、再次检查数据4、配置数据集三、构建CNN网络四、编译五、训练模型六、模型评估1.Loss与Accuracy图2.指定图片进行预测七、优化1、使用`model.evaluate`使用测试集评估模型2、网络结
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

R语言利用caret包对变量重要程度排序与选择特性

说明

操作

利用caret完成对重要变量有排序

利用caret包找到高度关联的特征

利用Caret包选择属性

你可能感兴趣的:(R语言模型评估)