拓端研究室TRL

数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC...

全文链接:http://tecdat.cn/?p=27384

在本文中，数据包含有关葡萄牙“Vinho Verde”葡萄酒的信息（点击文末“阅读原文”获取完整代码数据）。

介绍

该数据集（查看文末了解数据获取方式）有1599个观测值和12个变量，分别是固定酸度、挥发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、酒精和质量。固定酸度、挥发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH、硫酸盐和酒精是自变量并且是连续的。质量是因变量，根据 0 到 10 的分数来衡量。

探索性分析

总共有 855 款葡萄酒被归类为“好”品质，744 款葡萄酒被归类为“差”品质。固定酸度、挥发性酸度、柠檬酸、氯化物、游离二氧化硫、总二氧化硫、密度、硫酸盐和酒精度与葡萄酒质量显着相关（ t 检验的 P 值 < 0.05），这表明了重要的预测因子。我们还构建了密度图来探索 11 个连续变量在“差”和“好”葡萄酒质量上的分布。从图中可以看出，品质优良的葡萄酒在PH方面没有差异，而不同类型的葡萄酒在其他变量上存在差异，这与t检验结果一致。

na.oit() %>

muate(qal= ase_hen(ality>5 ~good", quaity <=5 ~ "poor")) %>%

muate(qua= s.fatrqual)) %>%

dpeme1 <- rsparentTme(trans = .4)



plot = "density", pch = "|",

auto.key = list(columns = 2))

图 1. 葡萄酒品质和预测特征之间的描述图。
表 1. 优质和劣质葡萄酒的基本特征。

# 在表1中创建一个我们想要的变量b1 <- CeatTableOe(vars  litars, straa = ’qual’ da winetab

点击标题查阅往期内容

R语言主成分分析（PCA）葡萄酒可视化：主成分得分散点图和载荷图

左右滑动查看更多

模型

我们随机选择 70% 的观测值作为训练数据，其余的作为测试数据。所有 11 个预测变量都被纳入分析。我们使用线性方法、非线性方法、树方法和支持向量机来预测葡萄酒质量的分类。对于线性方法，我们训练（惩罚）逻辑回归模型和线性判别分析（LDA）。逻辑回归的假设包括相互独立的观察结果以及自变量和对数几率的线性关系。LDA 和 QDA 假设具有正态分布的特征，即预测变量对于“好”和“差”的葡萄酒质量都是正态分布的。对于非线性模型，我们进行了广义加性模型（GAM）、多元自适应回归样条（MARS）、KNN模型和二次判别分析（QDA）。对于树模型，我们进行了分类树和随机森林模型。还执行了具有线性和径向内核的 SVM。我们计算了模型选择的 ROC 和准确度，并调查了变量的重要性。10 折交叉验证 (CV) 用于所有模型。

inTrai <- cateatPariti(y  winequal, p = 0.7, lit =FASE)traiData <- wine\[inexTr, teDt

 
   线性模型 多元逻辑回归显示，在 11 个预测因子中，挥发性酸度、柠檬酸、游离二氧化硫、总二氧化硫、硫酸盐和酒精与葡萄酒质量显着相关（P 值 < 0.05），解释了总方差的 25.1%。酒质。将该模型应用于测试数据时，准确度为 0.75（95%CI：0.71-0.79），ROC 为 0.818，表明数据拟合较好。在进行惩罚性逻辑回归时，我们发现最大化ROC时，最佳调优参数为alpha=1和lambda=0.00086，准确度为0.75（95%CI：0.71-0.79），ROC也为0.818。由于 lambda 接近于零且 ROC 与逻辑回归模型相同，因此惩罚相对较小， 
   但是，由于逻辑回归要求自变量之间存在很少或没有多重共线性，因此模型可能会受到 11 个预测变量之间的共线性（如果有的话）的干扰。至于LDA，将模型应用于测试数据时，ROC为0.819，准确率为0.762（95%CI：0.72-0.80）。预测葡萄酒品质的最重要变量是酒精度、挥发性酸度和硫酸盐。与逻辑回归模型相比，LDA 在满足正常假设的情况下，在样本量较小或类别分离良好的情况下更有帮助。 
   ### 逻辑回归cl - tranControlmehod =cv" number  10,

summayFunio = TRUE)

set.seed(1)

moel.gl<- train(x = tainDaa %>% dpyr::selct(-ual),

y = trainDaa$qualmetod "glm",

metic = OC",

tContrl = crl# 检查预测因素的重要性summary(odel.m) 
    
   # 建立混淆矩阵

tetred.prb <- rdct(mod.gl, newdat = tstDat

tye = "robtest.ped <- rep("good", length(pred.prconfusionMatrix(data = as.factor(test.pred), 
    
    
   # 绘制测试ROC图oc.l <- roc(testa$al, es.pr.rob$god) 
    
   ## 测试误差和训练误差er.st. <- mean(tett$qul!= tt.pred)tranped.obgl <-pric(moel.lmnewda= taiDaa,type = "robmoe.ln <-tai(xtraDa %>% dlyr:seec-qal),y = traDmethd = "met",tueGid = lGrid,mtc = "RO",trontrol  ctl)plotodel.gl, xTras =uction() lg(x) 
    
   #选择最佳参数mol.mn$bestune 
    
   # 混淆矩阵tes.red2 <- rp"good" ngth(test.ed.prob2$good))

tst.red2\[tespre.prob2$good < 0.5\] <- "poor

conuionMatridata = as.fcto(test.prd2), 
    
    
    
    
    
   非线性模型 在 GAM 模型中，只有挥发性酸度的自由度等于 1，表明线性关联，而对所有其他 10 个变量应用平滑样条。 
   结果表明，酒精、柠檬酸、残糖、硫酸盐、固定酸度、挥发性酸度、氯化物和总二氧化硫是显着的预测因子（P值<0.05）。 
   总的来说，这些变量解释了葡萄酒质量总变化的 39.1%。使用测试数据的混淆矩阵显示，GAM 的准确度为 0.76（95%CI：0.72-0.80），ROC 为 0.829。 
   MARS 模型表明，在最大化 ROC 时，我们在 11 个预测变量中包含了 5 个项，其中 nprune 等于 5，度数为 2。这些预测变量和铰链函数总共解释了总方差的 32.2%。根据 MARS 输出，三个最重要的预测因子是总二氧化硫、酒精和硫酸盐。 
   将 MARS 模型应用于测试数据时，准确度为 0.75（95%CI：0.72，0.80），ROC 为 0.823。我们还执行了 KNN 模型进行分类。当 k 等于 22 时，ROC 最大化。KNNmodel 的准确度为 0.63（95%CI：0.59-0.68），ROC 为 0.672。 
   QDA模型显示ROC为0.784，准确率为0.71（95%CI：0.66-0.75）。预测葡萄酒质量的最重要变量是酒精、挥发性酸度和硫酸盐。59-0.68)，ROC 为 0.672。QDA模型显示ROC为0.784，准确率为0.71（95%CI：0.66-0.75）。 
   预测葡萄酒质量的最重要变量是酒精、挥发性酸度和硫酸盐。59-0.68)，ROC 为 0.672。QDA模型显示ROC为0.784，准确率为0.71（95%CI：0.66-0.75）。预测葡萄酒质量的最重要变量是酒精、挥发性酸度和硫酸盐。 
   GAM 和 MARS 的优点是这两个模型都是非参数模型，并且能够处理高度复杂的非线性关系。具体来说，MARS 模型可以在模型中包含潜在的交互作用。然而，由于模型的复杂性、耗时的计算和高度的过拟合倾向是这两种模型的局限性。对于 KNN 模型，当 k 很大时，预测可能不准确。 
   ### GAMse.see(1)

md.gam<- ran(x =trainDta %%dplr::slect(-qal),y = traiat$ual,thod = "am",metri = "RO",trCotrol = ctrl)

moel.gm$finlMdel 
    
   summary(mel.gam) 
    
   # 建立混淆矩阵test.pr.pob3 - prdict(mod.ga nwdata =tstData,

tye = "prb")

testped3 - rep"good" legt(test.predpob3$goo))

testprd3\[test.predprob3good < 0.5\] <- "poo

referetv = "good") 
    
    
    
    
   model.mars$finalModel 
    
   vpmodl.rs$inlodel) 
    
    
    
   # 绘制测试ROC图

ocmas <- roctestataqua, tes.pred.rob4god)

## Stting level: conrol = god, case= poor

## Settig diectio: cntrols> caseplot(ro.mars legac.axes = TRE, prin.auc= RUE)

plot(soothroc.mars), co = 4, ad =TRUE) 
    
   errr.tria.mas <-man(tainat$qul ! trai.red.ars)### KNNGrid < epa.gri(k seq(from = 1, to = 40, by = 1))

seted(1fknnrainqual ~.,

dta = trnData,

mthd ="knn"metrrid = kid)

ggplot(fitkn 
    
    
   # 建立混淆矩阵ts.re.po7 < prdi(ft.kn, ewdt = estDaatype = "prb" 
    
    
   ### QDAseteed1)%>% pyr:c-ual),y= trataq

ethod "d"mric = "OC",tContol =ctl)# 建立混淆矩阵tet.pprob <-pedct(mol.da,nedaa = teDta,te = "pb")

testred6<- rep(o", leng(est.ped.pob6$goo)) 
    
    
    
   树方法 
   基于分类树，最大化AUC时最终的树大小为41。测试错误率为 0.24，ROC 为 0.809。此分类树的准确度为 0.76（95%CI：0.72-0.80）。我们还进行了随机森林方法来研究变量的重要性。因此，酒精是最重要的变量，其次是硫酸盐、挥发性酸度、总二氧化硫、密度、氯化物、固定酸度、柠檬酸、游离二氧化硫和残糖。pH 是最不重要的变量。对于随机森林模型，测试错误率为 0.163，准确率为 0.84（95%CI：0.80-0.87），ROC 为 0.900。树方法的一个潜在限制是它们对数据的变化很敏感，即数据的微小变化可能引起分类树的较大变化。 
   # 分类ctr <- tintol(meod ="cv", number = 10,smmryFuton= twoClassSma

et.se(1rart_grid = a.fra(cp = exp(eq(10,-, len =0)))clsste = traqua~., rainDta,metho ="rprt

tueGrid = patid,

trCtrl  cr)

ggt(class.tee,highight =TRE) 
    
    
   ## 计算测试误差rpartpred = icla.te edta =testata, ye = "aw)

te.ero.sree = mean(testa$a !=rartpre)

rprred_trin  reic(ss.tre,newdta = raiata, tye  "raw")



# 建立混淆矩阵

teste.pob8 <-rdic(cste, edata =tstData,pe = "po"

tet.pd8 - rpgod" legthtetred.rb8d)) 
    
    
   # 绘制测试ROC图

ro.r <-oc(testaual, tstedrob$od)pot(rc.ctreegy.axes  TU pit.a = TRE)plo(ooth(c.tre, col= 4, ad = TRE 
    
   # 随机森林和变量重要性

ctl 
 
    
   scle.ermutatin.iportace  TRU)barplt(sort(rangr::imoranc(random 
    
    
    
    
   支持向量机 
   我们使用带有线性核的 SVM，并调整了成本函数。我们发现具有最大化 ROChad 成本的模型 = 0.59078。该模型的 ROC 为 0.816，准确度为 0.75（测试误差为 0.25）（95%CI：0.71-0.79）。质量预测最重要的变量是酒精；挥发性酸度和总二氧化硫也是比较重要的变量。如果真实边界是非线性的，则具有径向核的 SVM 性能更好。 
   st.seed(svl.fi <- tain(qual~ . ,data = trainDatamehod= "mLar2",tueGri = data.frae(cos = ep(seq(-25,ln = 0)) 
    
    
    
    
    
   ## 带径向核的SVMsvmr.grid  epand.gid(C = epseq(1,4,le=10)),

iga = expsq(8,len=10)))

svmr.it<- tan(qual ~ .,

da = taiDataRialSigma",

preProcess= c("cer" "scale"),

tunnrol = c) 
    
    
    
    
   模型比较 
   模型建立后，我们根据所有模型的训练和测试性能进行模型比较。下表显示了所有模型的交叉验证分类错误率和 ROC。结果中，随机森林模型的 AUC 值最大，而 KNN 最小。因此，我们选择随机森林模型作为我们数据的最佳预测分类模型。基于随机森林模型，酒精、硫酸盐、挥发性酸度、总二氧化硫和密度是帮助我们预测葡萄酒质量分类的前 5 个重要预测因子。由于酒精、硫酸盐和挥发性酸度等因素可能决定葡萄酒的风味和口感，所以这样的发现符合我们的预期。在查看每个模型的总结时，我们意识到KNN模型的AUC值最低，测试分类错误率最大，为0.367。其他九个模型的 AUC 值接近，约为 82%。 
   rsam = rsmes(list(summary(resamp) 
    
    
    
   comrin = sumaryes)$satitics$ROr_quare  smary(rsamp)saisis$sqrekntr::ableomris\[,1:6\]) 
    
   bpot(remp meic = "ROC") 
    
   f<- datafram(dl\_Name, TainError,Test\_Eror, Tes_RC)

knir::abe(df) 
    
   结论 
   模型构建过程表明，在训练数据集中，酒精、硫酸盐、挥发性酸度、总二氧化硫和密度是葡萄酒质量分类的前 5 个重要预测因子。我们选择了随机森林模型，因为它的 AUC 值最大，分类错误率最低。该模型在测试数据集中也表现良好。因此，这种随机森林模型是葡萄酒品质分类的有效方法。 
   数据获取 
   在下面公众号后台回复“葡萄酒数据”，可获取完整数据。 
    
    
   点击文末“阅读原文” 
   获取全文完整资料。 
   本文选自《R语言惩罚逻辑回归、线性判别分析LDA、广义加性模型GAM、多元自适应回归样条MARS、KNN、二次判别分析QDA、决策树、随机森林、支持向量机SVM分类优质劣质葡萄酒十折交叉验证和ROC可视化》。 
    
   本文中的葡萄酒数据分享到会员群，扫描下面二维码即可加群！ 
    
    
    
   点击标题查阅往期内容 
   R语言贝叶斯广义线性混合（多层次/水平/嵌套）模型GLMM、逻辑回归分析教育留级影响因素数据
 
   逻辑回归Logistic模型原理R语言分类预测冠心病风险实例
 
   数据分享|用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
 
   R语言高维数据惩罚回归方法：主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据（含练习题）
 
   Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
 
   R语言Bootstrap的岭回归和自适应LASSO回归可视化
 
   R语言Lasso回归模型变量选择和糖尿病发展预测模型 
   R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析
 
   基于R语言实现LASSO回归分析
 
   R语言用LASSO，adaptive LASSO预测通货膨胀时间序列
 
   R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析
 
   R语言惩罚logistic逻辑回归（LASSO,岭回归）高维变量选择的分类模型案例
 
   Python中的Lasso回归之最小角算法LARS
 
   r语言中对LASSO回归，Ridge岭回归和弹性网络Elastic Net模型实现
 
   r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现
 
   R语言实现LASSO回归——自己编写LASSO回归算法
 
   R使用LASSO回归预测股票收益
 
   python使用LASSO回归预测股票收益

【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
C#企业级API版本控制实战：构建可扩展的微服务架构墨夶 C#学习资料架构 c#微服务
第一章：企业级API版本控制的生死时速1.1版本控制的三重门//版本控制决策树publicenumVersionControlStrategy{[Description("URI路径版本控制")]UriPath=1,[Description("自定义HTTP头版本控制")]CustomHeader=2,[Description("Accept媒体类型版本控制")]MediaType=3}publi
【一起来学AI大模型】支持向量机（SVM）：核心算法深度解析运器123 AI大模型支持向量机机器学习人工智能 ai 大数据 AI编程算法
一、算法核心思想支持向量机（SVM）是一种强大的监督学习算法，核心思想是通过寻找最优超平面实现分类或回归：分类目标：找到能最大化两类数据间隔的超平面回归目标：找到包含最多数据点的ε带关键概念图解超平面：w·x+b=0/\/\+1|支持向量|-1|●●||●●||●●||_________________|最大间隔(margin)二、数学原理与优化问题1.线性可分情况目标函数：\min_{w,b}\
如何自定义R语言函数？参数中的省略号`...`有什么用？「已注销」 python 编程语言 java 人工智能 c++
学习R未必要学习很多工具包，有时候根据自己的理解去自定义函数也是一个不错的选择。本篇推文主要介绍两方面的内容：在R语言中自定义函数的一般方法；函数参数中...的作用。在看函数的帮助文档时会发现许多函数的参数中都有...符号，它是表示被省略的参数吗？如果是，作者为什么会省略它？如果不是，那又表示什么含义呢？不久前，学堂君分享了自己编写的计算空间可达性的函数，详见推文：两步移动搜索法（2SFCA）计算
深度解析：venv和conda如何解决依赖冲突难题咕咕日志 conda python
文章目录前言一、虚拟环境的核心价值1.1依赖冲突的典型场景1.2隔离机制实现原理二、venv与conda的架构对比2.1工具定位差异2.2性能基准测试（以创建环境+安装numpy为例）三、venv的配置与最佳实践3.1基础工作流3.2多版本Python管理四、conda的进阶应用4.1环境创建与通道配置4.2混合使用conda与pip的风险控制4.3跨平台环境导出五、工具选型决策树5.1场景化推荐
Logistic回归预测模型2：R语言实现模型的内部和外部验证
前面我们讲了logistic回归预测模型的建立，今天介绍的是模型的验证，可以在训练集和验证集中通过ROC曲线、校准曲线和决策曲线分别进行验证。1、原始数据原始数据分为训练集和验证集，其中训练集用于模型的构建和内部验证，验证集用于外部验证。两个数据集都包含5列，且列名相同。组别Group为因变量，1代表阳性结局，0代表阴性结局。自变量1和4为连续性变量，自变量2和3为二分类变量。2、安装所需要的R包
R 列表：深入解析与高效应用沐知全栈开发开发语言
R列表：深入解析与高效应用引言在R语言中，列表（List）是一种非常重要的数据结构，它允许我们将不同类型的数据组合在一起。列表在数据分析和统计建模中扮演着至关重要的角色。本文将深入探讨R列表的概念、创建方法、操作技巧以及在实际应用中的高效使用。R列表概述定义R列表是一种可以包含多种数据类型的数据结构，如数值、字符、逻辑值、其他列表等。列表可以看作是一个容器，可以存储任意数量的元素。类型R列表分为两
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
Python 数据分析与可视化 Day 14 - 建模复盘 + 多模型评估对比（逻辑回归 vs 决策树）蓝婷儿 python python 数据分析逻辑回归
✅今日目标回顾整个本周数据分析&建模流程学会训练第二种模型：决策树（DecisionTree）掌握多模型对比评估的方法与实践输出综合对比报告：准确率、精确率、召回率、F1等指标为后续模型调优与扩展打下基础一、本周流程快速回顾步骤内容第1天高级数据操作（索引、透视、变形）第2天缺失值和异常值处理第3天多表合并与连接第4天特征工程（编码、归一化、时间）第5天数据集拆分（训练集/测试集）第6天逻辑回归模
《支持向量机（SVM）在医疗领域的变革性应用》 CodeJourney. 支持向量机算法机器学习
在医疗科技日新月异的今天，先进的数据分析与机器学习技术正逐渐成为提升诊疗水平、助力医学研究的关键力量。支持向量机（SVM），凭借其独特的优势，在医疗这片复杂且对精准度要求极高的领域崭露头角，带来诸多令人瞩目的应用成果。一、疾病诊断：癌症早期筛查的“火眼金睛”癌症，作为全球健康的“头号杀手”，早期诊断对提升患者生存率意义非凡。在乳腺癌筛查领域，SVM发挥着重要作用。医疗科研人员收集大量乳腺组织的影像
支持向量机（SVM）在肝脏CT/MRI图像分类（肝癌检测）中的应用及实现猿享天开医学影像支持向量机机器学习人工智能算法
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
机器学习20-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习20-线性网络思考针对线性网络的基础问题，使用基础示例进行解释1-核心知识点1-线性模型家族的线性回归和逻辑回归分别是什么，线性模型家族还有没有其他的模型线性模型家族是一系列基于线性假设的统计模型，它们假设因变量和自变量之间存在线性关系。线性模型家族中的两个最常见模型是线性回归和逻辑回归。线性回归（LinearRegression）:线性回归是一种用于预测连续因变量的模型。它假设因变量yy
【数据分析】Python实现线性回归和多元线性回归（全代码）干了这一碗BUG 线性回归回归算法
老规矩，涉及到的数学原理，想深入了解的可以自行查阅相关资料，这里直接上干货用Python实现。目录逻辑回归中涉及的术语线性回归Python实现多元线性回归Python实现逻辑回归中涉及的术语以下是逻辑回归中一些常见的术语：自变量：应用于因变量预测的输入特征或预测因子。因变量：逻辑回归模型中的目标变量，即我们试图预测的变量。逻辑函数：用于表示自变量和因变量之间关系的公式。逻辑函数将输入变量转换为0到
R 语言安装使用教程小奇JAVA面试安装使用教程 r语言开发语言
一、R语言简介R是一种用于统计分析、数据挖掘和可视化的编程语言和环境。它在学术界和数据分析领域中广泛使用，拥有丰富的统计函数库和绘图功能。二、安装R语言2.1下载R安装包前往CRAN官网下载适合你操作系统的安装程序：官网地址：https://cran.r-project.org/2.2Windows安装下载.exe安装包；双击安装程序，按默认选项一路安装即可；安装完成后，可通过RGUI或命令行启动
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
R语言学习笔记—删除对象 w1149033842 R语言
1.删除环境中的对象Arm(A)2.删除环境中的所有对象rm(list=is())3.删除除了A和B以外的所有对象allobj<-is()rm(list=allobj[which(allobj!="A"&allobj!="B")])
R语言的游戏开发柳婉晴包罗万象 golang 开发语言后端
R语言在游戏开发中的应用随着科技的发展，游戏行业已经成为一个巨大的市场。虽然通常我们会认为游戏开发主要是使用C++、C#、JavaScript等语言，但实际上，R语言在游戏开发中也有其独特的应用，尤其是在数据分析和可视化方面。本文将探讨R语言在游戏开发中的应用，涵盖它的基础、游戏设计的复杂性、实际案例分析、以及未来的发展方向。一、R语言基础R语言是一种用于统计计算和数据分析的编程语言。它具有强大的
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
R语言初学者爬虫简单模板 q56731523 r语言爬虫开发语言 iphone
习惯使用python做爬虫的，反过来使用R语言可能有点不太习惯，正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。对于入门学者来说，R语言使用rvest+httr组合，几行代码就能完成简单爬取（比Python的Scrapy简单得多），R语言数据处理优势明显，爬取后可直接用dplyr/tidyr清洗，小打小闹用R语言完全没问题，如果是企业级大型项目还是有限考虑python，综合成本还是p
R语言开发记录，一 [email protected] R语言 r语言开发语言
1.清理环境rm(list=ls())gc()rm(list=ls())作用：删除当前R工作环境中所有的对象（变量、函数、数据框等）。解释：ls()：列出当前环境中所有对象的名字。list=ls()：将这些名字作为一个列表传给rm()函数。rm()：移除这些对象。效果：相当于“清空内存”，让工作空间恢复到干净状态。gc()作用：手动触发垃圾回收（garbagecollection）。效果：释放R不
从零到精通：Linux上的Conda环境详细教程
第一章：Conda简介Conda的定义Conda是一个开源的包管理系统和环境管理系统，可以在多个平台上安装、运行和更新软件包和依赖项。Conda最初是为Python和R语言的数据科学包创建的，但现在支持多种编程语言和工具。Conda的主要功能和优势包管理：Conda能够自动处理包的依赖关系，确保每个包所需的库和工具都被正确安装。它支持从各种渠道安装包，如CondaForge和Anaconda官方仓
Python中使用Graphviz绘制决策树图解黃昱儒
本文还有配套的精品资源，点击获取简介：Graphviz是一款用于数据可视化和算法流程展示的图形绘制软件，特别适用于Python中绘制决策树和其他图形类型。本安装包包含Graphviz安装程序和配置指南，以及如何在Python中利用pydot库等第三方库进行图形绘制的详细步骤。通过配置环境变量和利用DOT语言，用户可以将决策树模型转换为可视化图形，加深对机器学习模型的理解和调试。1.Graphviz
【数据挖掘】支持向量机（SVM）大雨淅淅大数据数据挖掘支持向量机算法大数据回归
目录一、支持向量机（SVM）算法概述二、支持向量机（SVM）算法优缺点和改进2.1支持向量机（SVM）算法优点2.2支持向量机（SVM）算法缺点2.3支持向量机（SVM）算法改进三、支持向量机（SVM）算法实现3.1支持向量机（SVM）算法C语言实现3.2支持向量机（SVM）算法JAVA实现3.3支持向量机（SVM）算法python实现四、支持向量机（SVM）算法应用五、支持向量机（SVM）算法发
Java基础字符串类 String StringBuffer 和StringBuilder 骑牛小道士 java 基础 java 开发语言
字符串核心对比表String：不可变字符串StringBuffer：线程安全的可变字符串扩容机制：StringBuilder：线程不安全的高效可变字符串使用场景决策树1.String：不可变字符串，任何修改都会创建新的字符串对象。2.StringBuffer：可变字符串，线程安全（方法使用synchronized修饰），适合多线程环境3.StringBuilder：可变字符串，非线程安全（没有同步
【字节跳动】数据挖掘面试题0006：SVM（支持向量机）详细原理言析数智数据挖掘常见面试题支持向量机数据挖掘算法 SVM
文章大纲SVM（支持向量机）原理：用最通俗的话讲清楚1.核心思想：找一条“最安全”的分界线2.数学背后的“人话”逻辑3.处理“分不开”的情况：核函数的魔法4.为什么SVM有时比神经网络“聪明”？`5.SVM的优缺点：适合什么场景？`6.一句话总结SVM7.SVM常见的面试知识点除了原理相关内容外**1.硬间隔SVM的数学表达****2.软间隔SVM的数学表达****3.拉格朗日对偶问题推导****
Orange3机器学习建模和可视化分析数据预处理、特征工程、算法训练维度软件库测试工具开源软件电脑
各位数据挖掘爱好者们！今天给你们介绍一款超厉害的开源软件——Orange3。它就像一个神奇的工具箱，你只要通过拖放组件就能完成机器学习建模和可视化分析，软件下载地址安装包它支持数据预处理、特征工程、算法训练和评估整个流程，就像一个贴心的管家，把数据挖掘的事儿全给你安排得明明白白！它还内置了箱线图、决策树这些可视化工具，能直观地把数据分布和模型结构展示出来，就像给你开了个透视眼，让数据一目了然！这软
LL面试题11 三月七꧁ ꧂ 破题·大模型面试语言模型 gpt 人工智能自然语言处理 prompt llama
物流算法实习面试题7道GLM是什么？ GLM(GeneralizedLinearModel)是一种六义线性模型，用于建立变量之间的关系。它将线性回归模型推广到更广泛的数据分布，可以处理非正态分布的响应变量，如二项分布（逻辑回归）、泊松分布和伽玛分布等。GLM结合线性模型和非线性函数，通过最大似然估计或广义最小二乘估计来拟合模型参数。SVM的原理？怎么找到最优的线性分类器？支持向量是什么？
机器学习算法_支持向量机
一、支持向量机支持向量机只能做二分类任务SVM全称支持向量机，即寻找到一个超平面使样本分成两类，且间隔最大硬间隔：如果样本线性可分，在所有样本分类都正确的情况下，寻找最大间隔；如果出现异常值或样本线性不可分，此时硬间隔无法实现软间隔：允许部分样本，在最大间隔之内，甚至在错误的一边，寻找最大间隔；目标是尽可能保持间隔宽阔和限制间隔违例之间寻找良好的平衡惩罚系数：通过惩罚系数来控制这个平衡，C值越小，
R语言绘制上下双向分布柱状图
话不多说,直接上干货library(ggplot2)library(tidyr)set.seed(123)#设置随机种子保证可重现df<-data.frame(Type=rep(letters[1:5],each=5),Sample=paste("sample",rep(1:5,times=5),sep=""),Up=round(runif(25,min=0,max=100),1),Down=ro
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC...

介绍

探索性分析

模型

树方法

支持向量机

结论

本文中的葡萄酒数据分享到会员群，扫描下面二维码即可加群！

你可能感兴趣的:(r语言,逻辑回归,决策树,随机森林,支持向量机)