拓端研究室

R语言用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化

最近我们被客户要求撰写关于鲍鱼年龄的研究报告，包括一些图形和统计输出。

视频：从决策树到随机森林：R语言信用卡违约分析信贷数据实例

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

，时长10:11

介绍

鲍鱼是一种贝类，在世界许多地方都被视为美味佳肴。铁和泛酸的极好来源，是澳大利亚、美国和东亚的营养食品资源和农业。100 克鲍鱼可提供超过 20% 的每日推荐摄入量。鲍鱼的经济价值与其年龄呈正相关。因此，准确检测鲍鱼的年龄对于养殖者和消费者确定其价格非常重要。
然而，目前决定年龄的技术是相当昂贵且低效的。
养殖者通常会切开贝壳并通过显微镜计算环数来估计鲍鱼的年龄。因此，判断鲍鱼的年龄很困难，主要是因为它们的大小不仅取决于它们的年龄，还取决于食物的供应情况。而且，鲍鱼有时会形成所谓的“发育不良”种群，其生长特征与其他鲍鱼种群非常不同。这种复杂的方法增加了成本并限制了其普及。我们在这份报告中的目标是找出最好的指标来预测鲍鱼的环，然后是鲍鱼的年龄。

数据集

背景介绍

这个数据集来自一项原始（非机器学习）研究。
数据集可在UCI机器学习资源库网站上找到。
有30多篇论文引用了这个数据集。

从原始数据中删除了有缺失值的例子（大多数预测值缺失），连续值的范围被缩放用于NA（通过除以200）。在本分析中，我们将通过乘以200的方式将这些变量恢复到其原始形式。

数据集中的观测值总数：4176

数据集中的变量总数：8个

给出的是属性名称、属性类型、测量单位和简要描述。环数是要预测的值，是一个连续值。

变量列表

变量	数据类型	测量	描述
性别	分类（因子）		M、F 和 I（婴儿）
长度	连续	毫米	最长壳测量
直径	连续	毫米	垂直长度
高度	连续	毫米	带壳肉
整体重量	连续	克	整只鲍鱼
去壳重量	连续	克	肉的重量
内脏重量	连续	克	肠道重量
外壳重量	连续	克	晒干后
鲍鱼的环	连续		+1.5 给出以年为单位的年龄

下面是分析

“使用回归预测鲍鱼的年龄”

方法


#加载所有必要的软件包 
library(readr)
library(dplyr)
library(car)
library(lmtest)
library(ggplot2)

数据汇总与统计

readcsv("abalone.csv")

balne$Sx <- s.acor(aalne$Sex)

kale(abaoe[1:10,],fomt 'madw')

分类变量

数值变量

看一下数据集的摘要，我们可以看到，数据在雄性、雌性和婴儿这三个因素水平之间的分布是相当均匀的。

此外，我们还看到有四种不同的重量测量方法，即：全重、去壳重、内脏重和壳重。全重是其他重量预测指标与剥壳过程中损失的未知水/血质量的线性函数。我们还观察到，预测器高度的最小值是0。

因变量

因果变量Rings包含在数据集中。它被测量为切割和检查鲍鱼后观察到的环的数量。虽然它不能直接表示一个给定的鲍鱼的年龄，但它可以或多或少完美地确定它。一个鲍鱼的年龄等于环数+1.5。由于这种关系是可靠的，环数将被视为因变量。数据中测量的环数从1到29不等，大多数鲍鱼的环数在5到15之间。分布也有轻微的正偏斜，但没有问题。(见下面的图)

配对图

pairs(aalone, es(colour =Sex, aph = 0.)

从配对图中观察到的情况。

首先要注意的是数据的高度相关性。例如，直径和长度之间的相关性非常高（约98.7）。

同样，Whole_weight似乎与其他重量预测因子高度相关，是Shucked_weight、Viscera_weight和Shell_weight之和。

其次，预测因子Sex的分布与所有其他预测因子的因子水平值雌性和雄性非常相似。

对于雌性和雄性的因子水平，分布的形状也是非常相似的。

我们可以考虑重新定义这一特征，将性别定义为婴儿与非婴儿（其中非婴儿=雌性和雄性都是）。

大多数的abalones环都在5到15之间。

数据质量

增加变量。我们将更新鲍鱼数据集，创建名为 "婴儿 "的新变量，它的值将基于性别变量的原始值。当性别变量为I时，它的值为I，否则为NI。
我们还观察到，预测高度的最小值是0，实际上这是不可能的，我们将调查这些观察结果，仔细研究。

##高度为0的数据质量检查
kable(abloe[aban$Height == 0,])

我们看到，有两个观测值的高度可能没有被正确记录，因为其他预测因子似乎都有有效的值。另外，如果我们看一下预测因子Whole_weight，我们会发现这些值与其他观察值相比真的很小，而且低于第一个四分法。这告诉我们，这可能不是一个数据错误，因此我们不能将这些数据从我们的数据集中排除。

我们还将添加一个名为weight.diff的新变量。我们可以在摘要中看到有四种不同的重量测量方法，即Whole_weight、Shucked_weight、Viscera_weight和Shell.weight。Whole_weight是其他重量预测因子的线性函数，在剥壳过程中损失的水/血的质量未知。


str(aane, give.attr= FASE)

我们看到变量Whole_weight应该是Shucked_weight、Viscersa_weight和Shell_weight的线性函数，我们可以写成Whole_weight = Shucked_weight + Viscera_weight + Shell_weight + 剥壳过程中损失的未知水/血质量。

然而，当我们计算Whole_weight和其他重量变量之间的差异时，我们发现有153个观测值违反了这一规定，也就是说，这似乎不符合逻辑，可能是记录数据时的错误。

如果我们绘制新添加的weight.diff变量的直方图，我们可以看到，当weight.diff为负数时，有一些观察结果。


#确定没有正确记录的观察结果
#不符合逻辑的观察结果的柱状图
ggplt(aalone, as(x=weight.diff)) +,ill=rb(1,.4,0,.7), bins = 30)

我们来看看其中的一些记录。

nrow(ablon[abaoneweihtdff < 0,])

请注意，总共有153个观测值的综合权重超过了Whole_weight。当我们看了10个这样的观测值时，似乎其他的值都是正确的，没有任何相似之处，所以我们确信这可能是一个数据输入错误。因此，我们将保留这些观察结果，以便进一步分析。

我们将首先在训练和测试中潜入我们的数据集。数据集将以70/30的比例在训练和测试之间进行分割，并随机选择观测值。

训练和测试拆分

set.ee(4)
#使用70/30方法在训练和测试中分割数据
ndxes <-spl(1:owabaone, size= 0.3  nrw(bone))
aboetrai <- ablon[-indxs,]
abetest <- abloneindxe,]

我们已经开始用所有的变量拟合一个加法模型，并将研究参数的重要性。在此基础上，我们将修改我们的模型。现在我们将使用变量Sex的原始值，它的因子水平为F、I和M。

加性多元线性回归模型


summary(abneadd)

在第一个加性模型中，注意因子水平雌性是性别变量的参考水平。

在用所有预测因子拟合加性模型后，我们可以看到，除了长度之外，测试统计显示所有变量都是显著的。正如我们之前从配对图中看到的那样，长度和直径的预测因子是高度相关的。我们还看到，不同重量的预测因子也是显著的，尽管它们应该是彼此的线性函数。

RMSE 分数

kable(rmse(aaloe_ad,"Aditve odel"))

我们将计算方差膨胀因子，以发现数据集存在的多重共线性问题。

多重共线性

vif

我们看了所有变量的变量膨胀系数，似乎所有的预测因子都有多重共线性问题，除了我们之前在配对图中看到的性别和身高。预测因子Whole_weight的VIF值最高，因为它是其他体重的线性函数。
Whole_weight & Rings 之间的偏相关系数：我们将首先计算Whole_weight 变量和因变量（Rings）的偏相关系数。


#检查高共线性关系变量的变异性
wole_wigt_it <- lm(holweight ~Sx LnhDametr + eit +Sucked_ght + Visrwght Shl_wegh data=alotrin)

变量添加图

同样地，变量添加图将这些残差相互之间的关系可视化。将因变量的残差与预测的残差进行回归，并将回归线添加到图中，也是有帮助的。

cor(resid(whole_weight),resid(addwtouwolwigh))

cre_plot(baead_itht_whe_eght,wleeghtfit)

没有Whole_weight的加法模型的方差膨胀因子

但直径和长度的VIF还是很高。

vif(abaln_ddithu_whoeeiht)

直径和环之间的偏相关系数

我们现在将在模型中Diameter 没有Whole_weight变量的情况下计算变量和因变量（环）的偏相关系数。

mete_i <- lm(Diameter ~ Sex + Length + Height + Shucked_weight + Viscera_weight + Shell_weight)
 
abaoned_sal <- lm(Rings ~ Sex + Length + Height + Shucked_weight + Viscera_weight + Shell_weight)

这两个残差的相关性接近于零，这意味着未被性别、长度、高度、去壳重量、内脏重量和贝壳重量解释的环的变化与未被性别、长度、高度、去壳重量、内脏重量和贝壳重量解释的直径的变化的相关性很小。因此，在模型中加入直径可能没有什么好处。

cor(resid(damer_it),resid(abonead_mll))

creaevarlt(ablone_d_smaldiaete_fi)

没有 Whole_weight & Diameter 的加法模型的方差膨胀因子

vif(ablonadd_mll)

现在的VIF要低得多。我们将同时使用abalone_add和abalone_add_small进行分析。

abalone_add_small 的 RMSE 分数

kable(rmse(abalone_add_small

方差分析 F 检验

anova(small,ablone_add)

根据Anova检验，我们可以拒绝无效假设。

现在让我们尝试对加性模型进行AIC和BIC的参数选择。


#在加性模型上运行AIC和BIC
step(abae_add, dtonbackward" trace0)

step(abalon_ad, direction="backward"

我们使用之前Anova F测试中的最佳模型（abalone_add）运行了AIC和BIC方法，AIC和BIC都选择了没有Length预测器的相同模型。

我们选择了BIC的模型（因为两个模型都是一样的），并将绘制拟合与残差和QQ正态图。

加性模型假设

assumptions(aln_odad_bic,"baln_meddbic")

这里我们看到，拟合图与残差图表明，模型违反了恒定变异，似乎有一种模式，即残差随着拟合值的增加而增加。

正态QQ图也有肥尾，表明误差可能不是正态分布。

表明我们可能需要寻找改进这个模型。尽管多重共线性对预测没有影响，但这看起来是一个极端的案例，有一个明显的模式违反了模型的假设。这可以通过几种技术来实现，例如变量选择和转换。让我们来看看变量选择方法，看看哪些变量可以用来创建另一个不违反恒定变异和正态性假设的模型。

穷举搜索

#穷举搜索 
allabaone_add<- sumr(ruetsings  Sex + Legth  Diamter + Hight + Whole_eght + Shllweigh + Shucke_weght + Viscea_weigh , data=ablontra))


for(i in c(1:8)){
  vr_nm[i]=sum(all_abwh[i,])-1
}


plot(var_num,all_a)

(besr <- which.max(adjr2))

alabaoe_ad$hch[bsj2,]


#画出模型参数与AIC的关系图

n * log(a_aln_dd$rs / n) + 2 * (2:p)

plot(aloe_mo_ac ~ I(2:), ylab = "AIC"
   ")

现在我们看到了一些有趣的结果。之前我们看到t检验显示一些预测因子是不显著的，但是当我们进行穷举搜索时，它表明我们确实需要所有的预测因子来创建AIC值最低的模型。从图中可以看出，AIC值随着8个参数的模型大小而下降，并且是最小的。我们将再次使用数据集中的所有预测因子来创建模型，并寻找变量转换技术。

接下来，为了稳定恒定的变化，我们将进行一些因变量和预测变量的转换。

因变量转换

Box-Cox 变换

稳定方差的方法之一是使用对数转换因变量。为了得到正确的顺序，我们使用了boxcox方法，该方法建议使用$0的值。因为在0的值上，对数可能性最大，而且区间非常接近。因此，我们将使用log(Rings)形式的转换，用于我们的加性模型。

boxcox(abloe_ad lambda = seq(-0.1, 0.1, by = 0.1))

Additive 模型与对数因变量转换

summary(abaone_dd_log)

将因变量进行对数转换后，我们看到t检验是显著的，它也增加了先前加法模型的调整r平方值。我们还看到，在这个模型中，几乎所有的预测因子都是显著的。让我们检查一下假设。

模型假设

下面的拟合与残差图和Q-Q图显示，对因变量进行对数转换后，结果有了很大的改善。

assumptionsba

均方根分数

kable(log_rmse(abalo)

然而，我们没有看到RMSE分数有任何改善。恒定方差问题似乎得到了改善，QQ图也看起来不错。

下一步，我们将对预测器进行一些转换，并评估模型，看看这是否有助于进一步提高预测的准确性。

Predictor 转换

回归分析

为了使我们能够进行任何预测器的转换，首先让我们看看每个预测变量和因变量的关系。转换将取决于数据的形状以及预测因子和因变量之间的关系。

scatter(abale_tra$Lngt,abaone_train$Rngs,"Lenth""Rngs"),

我们可以看到环和预测指标长度、直径、高度的关系几乎是线性的。我们还可以看到，重量预测指标之间的关系并不是真正的线性关系，而是可以从多项式转换中受益。因此，让我们使用高阶多项式创建一个模型，即所有重量预测指标Whole_weight、Viscera_weight、Shucked_weight和Shell_weight。

多项式

在模型中使用二阶项后，模型假设相同。


asumptons(abloe_dd_oly2,"Poly2 Log Model")

均方根分数

kable(log_rmse(abaoly2,"Poly2 Log Moel)

均方根分数

在这里，我们进行了一些变量转换。首先，我们按照Boxcox方法的建议对因变量进行了对数转换，并按照对数图的建议对权重预测因子进行了多项式转换。在拟合模型后，我们看到rmse比以前的模型要低，与以前拟合的加性模型相比，它也有更好的恒定变异和Q-Q图。由于我们已经进行了程度为2的多项式转换，让我们尝试拟合程度为3的另一个模型并检查其意义。

方差分析 F 检验

anova(abaloe_addpoy2,aalon_add_oy3)

均方根分数

kable(log_rmse(abaloe_dd_pol4

方差分析 F 检验

anova

均方根分数

kable(log_rmse(abloneaddpoly5

方差分析 F 检验

anova

我们再次看到测试对于较低的 rmse 是显着的。让我们尝试拟合度数为 6 的模型。

均方根分数

kable(log_rmseaban_dd_poly6

方差分析 F 检验

anova

现在在用多项式次数为 6 进行拟合后，我们看到即使 F 检验表明它很重要，但检验的 RMSE 上升了。这表明我们现在可能已经开始过度拟合数据，即我们的模型非常接近地拟合数据，这是我们不希望发生的。

在此之前，我们看到多项式次数为 5 和 4 的测试和训练 RMSE 之间存在非常细微的差异。测试 RMSE 几乎相同。因此，我们愿意牺牲相对于更简单模型的 RMSE 非常微小的改进（第三个小数点）。因此我们选择多项式次数为 4 的模型，即模型 abalone_add_poly4。



for(d in um_poly){
  abalone_add_polyestmodel(d)  
  rmse=g_log_mse(balone_ad_poly)
  train_rmse[d]rmse$tran
  test_re[d]=rse$st
}
plot(train_rmse

我们看到多项式次数为 5 和 4 的测试和训练 RMSE 之间存在非常细微的差异。测试 RMSE 几乎相同。因此，我们愿意牺牲相对于更简单模型的 RMSE 非常微小的改进。因此我们选择多项式次数为 4 的模型，即模型 abalone_add_poly4。

既然我们已经选择了模型，让运行 AIC 和 BIC 方法进一步选择合适的模型，看看我们是否可以做进一步的改进。

现在让我们计算和比较高阶项的 RMSE，并绘制训练和测试数据的均方根误差。

多加法模型上的 AIC 和 BIC：

既然我们已经选择了模型，让我们运行 AIC 和 BIC 方法来进一步选择合适的模型。

step(abane_ad_poy4, directin="backwrd", trac=FALSE)

Compare AIC 与 BIC 模型参数

_aic$call[2]

add_bic$call[2]

Anove F 检验

anova(abalone_mode

选择的模型 BIC 中没有预测器 Length 。Anova F 检验的 p 值很大，因此我们无法拒绝原假设。abalone_model_add_bic 模型很重要，因此我们将继续推进并检查模型假设。

模型假设（AIC 和 BIC）：

model_assumption

在这种情况下，恒定方差和正态性看起来都不错。

RMSE 分数 - AIC

kable(log_rmse(abaone_mde_down')

RMSE 分数 - BIC

kable(log_rmse(abalone_model_add_bic,paste("Additive Model - Degree 4 - BIC")), digits = 4,format = 'markdown')

在使用AIC 和进行变量选择后 BIC，我们从中选择了模型 BIC 并检查了 t 统计量和假设。有趣的是， BIC 模型丢弃了很少的预测变量，但也具有与我们开始使用的原始模型（多项式次数为 4 的模型）相似的测试 RMSE。这表明我们可以删除一些变量并仍然保持较低的 RMSE。这将我们带到下一个修改和引入BIC 上述模型选择的变量之间的交互项。

来自BIC 模型的模型假设也看起来更好。

接下来，我们将介绍交互项，并将尝试使用BIC 方法建议的预测变量来拟合模型。

交互模型

log(Rings) ~  Height + Diameter + poly(Whole_weight, 4) +
  poly(Viscera_weight, 4) + poly(Shucked_weight,4) + poly(Shell_weight, 4) + Sex + Diameter:poly(Shucked_weight, 4) + poly(Shucked_weight,  4):Sex

RMSE 分数

方差分析 F 检验

anova

在拟合交互模型并使用最佳可加模型执行 F 检验后，我们看到该检验表明交互模型是一个显着模型，具有改进的调整 r 平方值。RMSE 也变低了因为它更好地解释了可变性，我们现在将选择交互模型并尝试在交互模型上运行 AIC 和 BIC。

同时，我们会比较交互模型的多个度数，以计算和比较高阶项的 RMSE，并绘制训练和测试数据的均方根误差。



for(d in num_poly){
  ablone_int_poly=test_itmodel(d)
 
  rmse=et_lg_rmseaaloneint_poly)
  trainrse_int[d]=rmse$train
  test_mse_it[d]=rme$tst
}
plot(tran_rse_n

我们可以看到，随着多项式次数的增加，RMSE 越来越低。尽管对于此分析而言，RMSE 的这种改进非常微小，我们可以忽略这种对模型简单性的改进。考虑到这一点，我们可以看到多项式次数为 4 的模型性能更好，因此我们将继续使用该模型。

交互模型上的 AIC 和 BIC

step(aalone_int, diretin="backar", trac=FALSE)
step(aalone_nt, diection="bacward", =loce=ALE)

RMSE 分数 - BIC/AIC

kable(log_rmse(abalone_model_int_bic,paste("Interaction Model - Degree 4 - BIC")), digits = 4,format = 'markdown')

在我们的交互模型上运行 AIC 和 BIC 后，我们看到该模型选择了相同的模型。由于这是我们迄今为止看到的最好的模型之一，具有合理的复杂性，我们将把它视为我们比较的候选模型之一，作为本分析的最佳拟合模型。

谈到候选模型，在详尽的搜索过程中，我们已经看到，当我们使用所有预测变量时，模型附带了最低的 AIC。我们可以尝试构建一个模型，其中包含所有具有交互作用和多项式次数的预测变量，并与我们选择的第一个候选模型进行比较，看看它的表现如何。因此，让我们拟合一个包含所有预测变量的模型。

在最初的数据分析中，我们发现Sex 因子水平为 female 和的分类变量的分布 male 极其相似。因此，我们决定将这两个因子水平合并为一个，并且总因子水平为 2 infant 和 non-infant。我们创建了新变量 Infant。这里 non-infant 代表 female 和 male 两者。我们也通过这种方法进行了分析（可以在本报告的附录部分找到）。

让我们看看 Infant 模型分析，看看这个模型如何与我们上面选择的模型相抗衡。

婴儿模型分析

我们讨论过针对此分析采用不同的方法。我们引入了一个新的分类预测变量名称 Infant。我们使用现有的Sex 具有 3 个因子水平的分类预测变量，并创建了一个具有 2 个因子水平的新分类预测变量。我们这样做是因为我们从原始分类预测变量female 和中确定了 2 个因子水平上的相似分布 male。新的因素水平现在是 I （婴儿 = 雌性和雄性组合）和 NI （非婴儿）。

这个新分类的分析与上面的分析完全一样，所以我们将用最少的解释和细节快速进行这个分析。



summary(abae_d_nf)

均方根分数

rmse  <- funcin(atual predicted) {
  sqrt(mean((actual - predicted ^ 2))
}

加性模型假设

model_assumption

Box-Cox 变换

boxcox(abon_adinf,lmda  seq(-0.1, 0.1, by = 0.1))

具有对数因变量转换的附加婴儿模型

summary(abaln_ad_log)

均方根分数

kable(log_mseabalone_d_lo_f,"")

加性模型假设

model_assumptions

多项式模型

lm(log(Rings) ~  Diameter + Length + Height + poly(Whol_weiht,3) + poly(Viscra_weight,3) + polyShuckwegt,3) + poly(Selweight,3) + Infant, data=abaone_rain

均方根分数

kable(log_rmse(abalnead_poly

多项式模型假设

model_assumption

方差分析 F 检验

anova

交互模型

lm(log(Rings) ~  Height + Diaeter + poly(Whole_weight, 4) +
  poly(Viscera_weght, 4) + poly(Shucke_weght,4) + poly(Shel_weight, 4) + Infant + Diameter:poly(Shckedweight, 4) + poly(Shckd_weight,  4):Infant, data=aboe_tain)

均方根分数

kable(log_rms(abaoe_int_infan,"

交互模型假设

model_assumption

方差分析 F 检验

anova

在这里，我们选择性能最佳的交互模型作为我们的候选模型之一。该模型具有较低的复杂性以及最低的 rmse。

我们在这里看到的是，与前两个完整模型相比，该模型在未见数据（测试数据）上的 rmse 最低。除此之外，这个模型也没有前两个复杂，这些特性使得这个模型成为我们选择的候选模型之一。

现在，由于我们有一些我们喜欢的候选模型，让我们将它们相互比较并寻找最佳模型。

候选模型

从上面的分析中，我们选择了多项式次数为 4 的交互模型，因为我们已经看到它具有最低的测试 rmse 之一，并且具有良好的模型假设。我们将把它作为第一选择的候选模型之一。该模型包含一些预测变量，而不是具有高度多重共线性的预测变量。这个模型是 abalone_model_int_bic。

另一个选定的模型是所有预测变量都具有相似较低 rmse 的交互模型。虽然这个模型将有更多的参数，因此是一个比早期模型更复杂的模型，但由于我们的目标是预测，我们不关心模型的复杂性。这个型号是 abalone_int_full

另一种候选模型将是具有 2 个因子水平的分类变量的交互模型。在开始或我们的分析中，我们看到该预测变量的分布在级别之间相似 male ， female 因此我们决定引入一个新变量，该变量基本上有 2 个级别，婴儿和非婴儿，其中非婴儿 = 雄性和雌性。该模型也是多项式次数为4的交互模型。这个模型是 abalone_int_infant。注：（附录部分增加了使用婴儿预测器的加法模型和相关分析）。使用分类预测变量和具有3 值和 2 值的因子水平进行分析的整个过程是相同的。

候选模型的 RMSE 比较

候选模型1（abalone_model_int_bic）

kable(log_rmseabaone_modlint_bic

候选模型2（abalone_int__candidate_full）

kable(log_rmse(aalone_int_l,pte

kable(log_rmse(abalone_nt_nan

候选模型 3 (abalone_int_infant)

从上面我们可以看到， 候选模型 3 (abalone_int_infant) 在所有三个模型中表现最好。

候选模型的模型假设

候选模型1（abalone_model_int_bic）

候选模型的模型假设

候选模型1（abalone_model_int_bic）

model_assumptions(abalone_model_int_bic,"Candidate model 1")

候选模型 2 (abalone_int_full)

model_assumption

候选模型 3 (abalone_int_infant)

model_assumption

基于这些图，我们可以看到我们所有的候选模型都很好地满足了恒定方差和正态性假设。
接下来，我们将比较所有这些候选模型的预测和置信区间，并观察数据中的任何影响点。让我们看看它。

异常观察样本：高杠杆、离群点和影响点

我们将查看每个候选模型的训练数据集中存在的异常观察结果。首先我们将分别寻找高杠杆点、离群点和影响点，然后通过公共数据点得到具有高杠杆、离群点和影响力的数据点。

候选模型1（abalone_model_int_bic）

## [1] 16

我们看到有 16 个观察值是高杠杆、异常值和影响点。

候选模型2（abalone_int_full）


length(comon_mdel_2)

## [1] 15

在这个模型中，我们看到有 15 个观察值是高杠杆、异常值和有影响的点。

候选模型3（abalone_int_infant）


length(comon_odl_3)

## [1] 19

这个模型有 19 个这样的观察结果，它们是高杠杆、离群点和有影响力的点。

所有候选模型之间的异常观察

我们现在已经编制了候选模型中常见的观察结果列表。让我们来看看这些，看看是否有任何相似之处。

 intersect(commodl,intersect(commodel1,omomodl_2))
length(cmmondaa)

## [1] 13

我们立即注意到的第一件事是，我们最初在数据集中确定为不合逻辑或数据输入错误的观察结果很少。这些观察结果具有负权重差异，这是不可能的。这是有道理的，因为在记录此数据时可能会出现一些错误。

另一种模式是其中一些观察结果的整体权重与平均整体权重相比超过 2。此外，这些观察结果具有大量环，即这些是较老的鲍鱼。

由于存在其他符合异常观察条件的观察结果，因此总体而言，它们之间没有特定的模式。因此，我们不能从我们正在考虑进行预测的模型和分析中排除这些。

我们将使用平行坐标图来可视化结果部分中的任何明显模式。

让我们看看一旦我们删除这些数据集，我们的候选模型的表现如何。

删除异常观察后的RMSE 分数

接下来，我们将通过从训练数据集中删除异常观察并计算测试数据集的 RMSE 分数来执行快速实验。


obs_rmse <- get_log_rmse_obs(lmlog(_updated)


result <- ata.frae( "Mdel" = modelnames,
                      "RMSE Train" = c(

													 ),
          				  "RMSE Test" = c(
          									
          					  "RMSE Train all Data" = c( 
 
          					  "RMSE Test all data" = c(
          									get_lo_ms(aaloe_modl_intbic)$test,

有趣的是，所有在没有异常观察的情况下训练的模型在测试数据上产生了更好的 rmse。在上表中我们可以看到不同RMSE值的比较。
由于这些不寻常的观察没有揭示任何特定的模式或任何不寻常的行为，我们无法从我们的数据集中删除这些，并将使用候选模型继续我们的分析。

预测和置信区间

#model 1
vif(abalone_mdl_ntbic)
#model 2

#model 3

让我们从置信区间开始。我们所有候选模型的置信区间都在相似的范围内。即平均而言，在任何一点，所有模型的区间范围似乎都相同。请注意，3 个候选模型中有 2 个使用了所有预测变量，因此具有非常高的共线性。由于我们的模型很好地拟合了数据，因此平均减少了任何点的方差范围。这很好。

此外，与置信区间类似，模型之间的预测区间也在相同的范围内。模型拟合再次对这个较窄的区间范围产生影响。请注意，预测区间比我们预期的置信区间宽得多。由于所有模型的预测区间即使在高度共线性之后也处于相似的范围内，我们会说这些是好的。我们使用默认的 95% 公式来计算所有候选模型的置信区间和预测区间。

基于我们对所有这些候选模型的分析，我们认为候选模型 3 abalone_int_infant 将是预测鲍鱼年龄的最佳选择。与其他两个候选模型相比，该模型更小，复杂度更低，但 rmse 最低。此外，模型之间的预测和置信区间非常相似。由于这些原因，我们将选择模型 abalone_int_infant 作为我们分析的最佳模型。

预测鲍鱼的年龄

现在让我们使用我们选择的模型预测鲍鱼的年龄。我们将从测试数据中随机选择 5 个观察值并尝试预测年龄。请注意，该模型实际上预测了鲍鱼中的环数。我们需要在环数中加上 1.5 才能确定鲍鱼的真实年龄。所以本质上，我们将比较模型预测的环数与测试数据集中的实际环数。

#从测试数据中随机抽取5个观察值

sample <- sample_n(test_data, 5)

exp(predict( ta=sample )

我们可以从上面的例子中看到，我们从测试和模型中计算了环数和年龄，用于少数观察。我们看到我们的模型正确预测了鲍鱼的年龄，或者非常接近鲍鱼的实际年龄。这些是模型以前从未见过的测试数据中的 5 个样本观察值。我们可以多取一些并执行相同的过程，看看我们的模型对鲍鱼年龄的预测效果如何。

在这份分析报告中，我们应用了各种多元回归技术和方法，但这并不意味着这个问题不能使用其他更先进的技术来解决。我们尝试应用一些超出本报告范围的先进方法，只是为了评估这些技术是否可以进一步改进我们的预测。

使用先进技术

在本节中，我们超越了传统的常见回归技术，并尝试应用一些先进的技术，看看我们是否可以创建一个具有较低测试 RMSE 的模型。

Elastic Net 弹性网络是一种正则化回归方法，它线性组合了 lasso 和 ridge 方法的 L1 和 L2 惩罚。

我们将尝试使用弹性网络来进一步优化我们的预测。
与 lasso 和 ridge 一样，截距不会受到惩罚，并且 glment 在内部负责标准化。
我们将使用与候选模型 3 (abalone_int_infant) 中相同的预测变量。

 train(
  Rings ~ke_ight, 4) + pol(Shell_weigh, 4) + Infant + Diameter:poly(Shucked_weight, 4)  poly(Shuckedwight, 4:Infant,daa=abalone_trai
  method = "glmnet",
  trControl = cv_10,


kable(result, digit

我们看到训练和测试 rmse 结果都低于我们的候选模型。

随机森林回归

随机森林或随机决策森林是一种用于分类、回归和任务的集成学习方法，它通过在训练时构建大量决策树并输出类别（在分类的情况下）或平均预测来进行操作（在回归的情况下）单个树。随机决策森林纠正了 Doe 决策树过度拟合训练数据集的习惯。

我们在这里实现了随机森林回归模型进行预测，看看我们是否可以进一步改进。随机森林回归模型的 RMSE 结果比候选模型的 RMSE Score 更好。

 bm(Rig ~, daa  aloeran stbton = "gausian", ntre =, inrtindeth  3, shrinkage = 0.01)

以下是随机森林方法的一些优缺点

它不对数据分布做出任何假设。

自动拟合高度非线性的交互。

通过接近度很好地处理缺失值。

即使对于大型数据集也能快速拟合。

已经观察到随机森林对某些具有嘈杂分类/回归任务的数据集过度拟合。

如果树不小就不容易解释

结果

本报告系统地处理了预测鲍鱼年龄的任务。探索了第一个数据集，发现了不寻常的观察结果，并对变量进行了适当的标准化。

我们从一个加法模型开始，该模型包含所有名为abalone_add的预测变量。我们继续检查各种假设和测试，以进一步提高模型的准确性并降低 rmse。

然后，我们对因变量和预测变量进行了多次转换。当我们执行各种变量选择程序时，我们看到了 rmse 的改进。

经过我们的分析，我们找到了几个不错的候选模型，我们选择了模型 abalone_int_infant 作为我们的最佳模型。

以下是一些重要的关键点，说明了我们对这一结论的选择。

应用上述技术后，我们得出了 3 个可能的候选模型。

候选模型 1 是 abalone_model_int_bic ，这是对交互模型的各种选择过程的结果。我们看到这个模型 AIC 得分最低，rmse 排名第二。模型包含一些高共线预测变量，但当检查 rmse、预测和置信区间时，这是一个合适的选择。

候选模型 2 是 abalone_int_full。回想一下，详尽的搜索过程表明，当我们所有的预测变量，我们得到最好的模型。所以我们决定添加模型中交互项和多项式次数为 4 的所有预测变量。该模型具有最高的多重共线性，但从 rmse 和预测以及置信区间来看是非常合理的。

候选模型 3 是 abalone_int_infant。正如我们最初的数据分析表明分类变量 Sex 有 3 个因子水平。 female， male 和 infant。水平 female 和 male 我们在分布方面极其相似，因此我们将这两个水平合二为一，使预测变量的总水平为 Sex 两个。由于这种级别的降低，与前两个模型相比，该模型可能是最简单的模型。我们对此进行了彻底的分析，最终模型具有相似的 rmse、预测和置信区间。这就是我们选择该模型作为候选模型之一的原因。

在以上 3 个候选模型中，候选模型 3 abalone_int_infant 稍微好一点，同时也不太复杂，因此它是我们进行此分析的首选模型。这有很多原因。让我们讨论一下。

以下是为此分析选择的模型的公式

 lm(log(Rings) ~  Height + Diameter + poly(Whole_weight, 4) +
  poly(Viscera_weight, 4) + poly(Shucked_weight,4) + poly(Shell_weight, 4) + Infant + Diameter:poly(Shucked_weight, 4) + poly(Shucked_weight,  4):Infant

这是所有 3 个候选模型的测试/训练 RMSE 的快速比较。

下图显示了整个分析报告中所选模型的 rmse（以红色标记）、候选模型和模型的其余部分以及它们的测试 rmse 比较。我们可以清楚地看到，我们选择的模型 abalone_int_infant 也在int infant 下面的图中重命名，其测试 rmse 最低。

这里一个明确的模式是，当模型更小、更简单时，测试 rmse 很高，但随着我们改进模型并开始变得更加灵活（因此模型长度更大），测试 rmse 下降。
以下是所选模型的正态性假设。我们可以清楚地看到，当我们用对数变换和交互项拟合模型时，常数变化和正态性假设变得越来越好。

这里要注意的一个关键点是，多重共线性的存在并没有真正影响预测（这是我们分析的目标），我们能够将其影响降低到一定程度。我们通过拟合与残差图验证了这一点，可以看出我们选择的模型具有以残差为中心的残差， 0 并且大致是恒定的变化。

如果我们使用平行坐标图绘制异常观测值，我们可以看到 Height 这些观测值与鲍鱼的平均高度相比更短。Whole_weight 和 Viscera_weight which as lower也是如此。此外 weight.diff ，其中一些观察结果是否定的，这是我们在初始数据分析期间发现的。

下面的平行坐标图描绘了这些异常观察的特征，其中婴儿 = 1（橙色线）和非婴儿 [男/女] = 2（蓝线）。

现在，如果我们只是从我们的训练数据中抽取一个样本并使用平行坐标绘图，我们可以看到一般情况下 Height， Whole_weight 并且 Viscera_weight 均匀分布。

我们还看到从数据集中删除异常观察进一步降低了测试 rmse，但是我们没有从我们的数据集中删除那些，因为它们似乎是有效的假设而不是极端情况。
我们可以看到的均方根误差得分 Elastic Net 和 Random Forest 比我们的候选模型较低，但差别不是很显著。

讨论

让我们从我们正在分析的数据集开始讨论。从最初的汇总统计数据中，我们看到数据中存在非常高的共线性。几乎所有的变量都有很高的 vif 值。

我们所做的另一个重要观察是数据质量。我们发现在某些情况下没有正确记录观察结果。例如，对于 2 个观察，高度为 0，这实际上是不可能的。但是当我们查看整个观察结果和其他变量时，我们没有发现任何异常模式。我们意识到这可能是数据输入错误，因此我们决定将它们保留在我们的数据集中进行分析。以下是这 2 个观察结果。

我们还看到，有些观察结果不符合逻辑。预测器 Whole_weight 被认为是预测的线性函数 Shucked_weight， Viscera_weight， Shell_weight 并在去壳过程中损失的血液/水的加成未知质量。换句话说，所有其他权重预测变量的总和应该等于或小于 Whole_weight。但是我们发现 153 这样的观察违反了这个假设。仔细观察后，我们发现观察结果之间没有相似之处或任何模式，因此我们得出结论，这可能只是数据记录错误，因此这些观察结果并未从数据集中删除。以下是这些 153 观察结果。

我们在探索性分析中发现的下一个有趣趋势是预测Sex 因子水平的分布。因子水平female 和 male 所有其他预测因子都非常相似。此外，整体数据也大致均匀地分布在female、 male 和的水平值之间 infant。以下是水平之间的分布及其相对于其他预测变量和因变量的总体分布。

在上面的箱线图中，我们可以看到female 和的分布形状 male 对于所有预测变量都非常相似。
现在让我们来看看它的频率。

同样，它非常相似。这些结果为我们指明了另一个方向，通过将female 和组合male 成一个级别名称作为，我们在数据集中创建了一个新变量 non-infant。所以现在新的分类变量有两个级别 infant 和 non-infant。在我们的一个候选模型中，我们使用这个新的分类而不是原始的来查看其效果。最后，这是我们选择的模型。

初始数据分析期间的下一个重要发现是预测变量之间存在非常高的多重共线性。这是有道理的，因为我们之前发现 Whole_weight 预测在某种程度上依赖于其他重量预测。 Length 鲍鱼的 Diameter. 以下是来自加法模型的模型系数的变异膨胀因子值。

##           SexI           SexM         Length       Diameter         Height 
##       1.982824       1.400405      42.874862      44.907429       3.114493 
##   Whole_weight Shucked_weight Viscera_weight   Shell_weight 
##     118.819537      29.579686      18.591058      22.182789

初始模型违反了恒定变异和正态性假设。使用各种方差稳定技术和转换，我们能够提出一个很好的模型。这些选定的候选模型使用了交互项、预测变量的多项式变换和因变量的对数变换。

有趣的是，即使存在高度多重共线性，在模型选择过程中，我们最终还是选择了具有所有 8 个参数的模型。即所有的选择程序都表明当使用模型中的所有预测变量时，最低的 AIC 出现。尽管在我们使用各种因变量和预测变量转换进行模型选择之后，我们能够在保持相似的测试 rmse 的同时稍微减小模型的大小。

我们看到我们几乎没有对降低测试 rmse 有轻微影响的异常观察，但由于这些观察不代表显着变化或移动模型系数，我们没有将它们从数据集中删除。

在数据的背景下谈论这个分析，我们可以从模型中看到， Length 变量可能不会成为预测鲍鱼年龄的重要因素。我们可以看到我们没有在我们的模型中选择这个。这种情况是有意义的，因为 Length 或多或少地相关 Diameter （即长度越大直径越大），并且由于我们已经将直径带入我们的模型，所以我们不需要鲍鱼数据集中的长度。

预测时另一个非常有趣的事实是，不能单独使用整个体重来预测年龄。我们知道，鲍鱼的去壳过程会使鲍鱼的血液和水分变干，然后再称重，不同阶段（去皮、去壳、干燥）的重量组合也是决定鲍鱼年龄的重要因素。

我们从测试数据中抽取了 10 个样本观察值，并使用我们选择的模型 (abalone_int_infant) 预测了年龄，平均而言，它正确预测了 10 次中的 3 次。从所选模型 (2.2021) 的测试 rmse 值考虑出因变量环的范围（1 到 29），我们认为我们的模型非常适合预测鲍鱼的年龄。

你可能感兴趣的:(R语言,机器学习,r语言,线性回归,随机森林,弹性网络,鲍鱼年龄)

pip download 是一个很有用的命令 weixin_46375180 pip
确实，pipdownload是一个很有用的命令，通常用于下载包到本地以供离线安装或在网络不稳定时使用。以下是关于pipdownload的详细介绍：pipdownload命令下载指定的包：使用pipdownload可以下载指定的包，而不安装它。例如，下载numpy包：pipdownloadnumpy下载指定版本的包：你可以指定要下载的包的版本：pipdownloadnumpy==1.21.0下载并指
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
关于你需要知道的JVM基础 DRUN_K jvm
Java对象的内存布局对象头class对象指针markword（64个bit位）结构：哈希码：对象的哈希码，用于支持基于哈希的集合操作GC分代年龄：对象的分代年龄，用于垃圾回收器的分代收集策略锁状态的标识：用于标识对象的锁状态，如未锁定、轻量级锁定、重量级锁定等。偏向线程ID（在偏向锁的状态下）：记录持有偏向锁的线程ID锁记录指针（在轻量级锁的状态下）：指向当前线程栈中LockRecent的指针作
Docker DRUN_K docker 容器
DockerDocker架构的工作流程构建镜像：通过编写dockerfile来进行构建推送镜像到仓库：将镜像上传到DockerHub或私有注册表中拉取镜像：通过dockerpull从从仓库中拉取镜像运行容器：使用镜像创建并启动容器管理容器：使用Docker客户端命令管理正在运行的容器，如查看日志、停止容器、查看资源使用情况等网络与存储：容器之间通过Docker网络连接，数据通过Docker卷或绑定
linux网络编程(二) Zhuai-行淮 linux网络编程 linux 网络服务器
day14多路IO转接：select：poll：相比select相差不多intpoll(structpollfd*fds,nfds_tnfds,inttimeout);-----fds：监听的文件描述符【数组】------structpollfd{intfd：待监听的文件描述符shortevents：待监听的文件描述符对应的监听事件取值：POLLIN、POLLOUT、POLLERR可读事件：POL
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
ESP8266 与 ARM7 接口-LPC2148 创建 Web 服务器以控制 LED David WangYang ESP8266项目服务器运维
ESP8266与ARM7接口-LPC2148创建Web服务器以控制LEDESP8266Wi-Fi收发器提供了一种将微控制器连接到网络的方法。它被广泛用于物联网项目，因为它便宜、体积小且易于使用。在本教程中，我们将ESP8266Wi-Fi模块与ARM7-LPC2148微控制器连接，并创建一个Web服务器来控制连接到LPC2148的LED。工作流程将如下所示：从LPC2148向ESP8266发送AT命
热点研究 | OpenAI 重磅发布 Agents SDK，人人都能手搓 Manus? Ai野生菌技术面 php 开发语言 manus openai agent
3月12日，OpenAI正式发布了OpenAIAgentsSDK，这一重要发布不仅为开发者提供了强大的工具，更预示着AIAgent技术即将进入快速发展期。这些工具为开发者提供更强大功能，使代理能够独立执行复杂任务，如搜索网络、处理文件和自动化计算机操作。ResponsesAPI同步发布，为开发者提供了构建自定义AIAgent的能力，能够执行网络搜索、文件检索等任务。这套新工具和API旨在赋能开发者
本周安全速报（2025.3.11~3.17）联蔚盘云安全
合规速递01瑞士出台新规：关基设施遭遇网络攻击需在24小时内上报原文:https://www.bleepingcomputer.com/news/security/swiss-critical-sector-faces-new-24-hour-cyberattack-reporting-rule/新规要求，关键基础设施组织发现网络攻击后，首次报告需在24小时内完成，详细报告需在后续14天内完成，未
httpcanary动态注入_HttpCanary weixin_39760721 httpcanary动态注入
HttpCanary是一款功能十分强大网络抓包工具，它可以分析多个协议HTTP、https、http2等，这是一款最新的专为移动端设计的抓包工具，用户可以根据这个工具来应用，使用非常的简单，一学就会。对这款HttpCanary感兴趣的用户点击下载就可以使用啦!软件介绍HttpCanary是一款功能齐全的互联网包抓取和分析工具，相当于是移动端的Fiddler或是Charles，可是HttpCanar
httpcanary小米闪退_Android HttpCanary最强抓包工具！ ssslience httpcanary小米闪退
迎使用HttpCanary——最强Android抓包工具！HttpCanary是一款功能强大的HTTP/HTTPS/HTTP2网络包抓取和分析工具，你可以把他看成是移动端的Fiddler或者Charles，但是HttpCanary使用起来更加地简单容易，因为它是专门为移动端设计的！最重要的是：无需root权限！无需root权限！无需root权限！HttpCanary支持对HTTP协议包的抓取和注入
httpcanary动态注入_HttpCanary使用指南——正则匹配注入火锅大魔王 httpcanary动态注入
HttpCanary于v2.11.0版本上线了正则匹配注入功能。顾名思义，就是使用正则表达式或者匹配字符串，动态修改网络请求数据中的部分数据。举个例子：{"date":"30日星期天","high":"高温30℃","fengli":"","low":"低温23℃","fengxiang":"西南风","type":"多云"}复制代码我们希望将网络请求体中这段数据中的符号℃修改为中文摄氏度，即：{
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
Hyperlane：Rust 生态中的轻量级高性能 HTTP 服务器库，助力现代 Web 开发 LTPP rust http 服务器开发语言后端前端面试
Hyperlane：Rust生态中的轻量级高性能HTTP服务器库，助力现代Web开发在Rust生态系统中，Hyperlane是一个备受关注的HTTP服务器库，以其轻量级、高性能和易用性脱颖而出。无论你是想快速构建一个高效的Web服务，还是需要支持实时通信的现代应用，Hyperlane都能成为你的理想选择。它不仅简化了网络服务的开发，还提供了强大的功能支持，如HTTP请求解析、响应构建、TCP通信，
基于 KubeSphere v4 的 Kubernetes 生产环境部署架构设计及成本分析 KubeSphere 云原生 kubernetes 容器云原生
本文作者：运维有术。今天分享的主题是：如何规划设计一个高可用、可扩展的中小规模生产级K8s集群？通过本文的指导，您将掌握以下设计生产级K8s集群的必备技能：集群规划能力合理规划节点规模和资源配置设计高可用的控制平面、计算平面、存储平面架构规划网络拓扑和安全策略制定存储解决方案组件选型能力选择适合的容器运行时(ContainerRuntime)评估和选择网络插件(CNIPlugin)规划监控、日志等
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
【前端】面试八股文——输入URL到页面展示的过程帅比九日面试八股文前端面试 javascript
【前端】面试八股文——输入URL到页面展示的过程1.DNS解析当用户在浏览器中输入URL并按下回车时，首先需要将域名转换为IP地址，这个过程称为DNS（域名系统）解析。具体步骤如下：浏览器缓存：浏览器首先检查自身缓存中是否有该域名的IP地址。操作系统缓存：如果浏览器缓存中没有找到，浏览器会向操作系统请求DNS信息。路由器缓存：如果操作系统缓存也没有找到，操作系统会向本地网络中的路由器请求DNS信息
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
信息收集综合只不过是胆小鬼罢了信息收集 php web安全安全
1《应用服务器资产分析与角色定性详解》在网络安全领域，对应用服务器的资产分析与角色定性是至关重要的工作。通过对服务器的操作系统、IP资产、端口资产等方面进行详细分析，可以更好地了解服务器的特性与用途，从而为网络安全防护提供有力支持。本文将从多个维度深入探讨应用服务器的资产分析与角色定性方法。一、操作系统分析1.Web大小写敏感性在分析应用服务器的操作系统时，Web大小写敏感性是一个重要的参考因素。
2025年计算机毕业设计springboot 智慧社区管理系统 zhihao503 课程设计 spring boot 后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于智慧社区管理系统的研究，现有成果多聚焦于单一功能模块的数字化（如物业缴费或门禁系统），缺乏对多场景服务整合与用户体验优化的系统性研究。国外研究侧重物联网技术应用（如新加坡“智慧国”计划中的社区传感器网络），而国内研究更多关注管理平台的基础框架设计，但针对业主、物业、设备多方
常见的数学统计模型若木胡数学模型
以下是常见的数学统计模型分类及简要说明，适用于数据分析、预测和推断等场景：1.参数模型（ParametricModels）假设数据服从特定分布（如正态分布），通过估计参数来描述数据规律。1.1线性回归模型数学形式：(y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p+\epsilon)应用：预测连续型目标变量（如房价预测）。特点：简单、可解释性强，假
unionall的用法（当某条记录为空时，union all是否可以合并此条记录） hammring mysql
我们经常说union和unionall的区别在于：1.union合并相同的列时，会去重只取其中的一条；2.unionall合并所有的列。但是如果在按照某一条件进行查询时，如果表中数据没有符合该条件的记录。（即按此条件查询，表中查找到的的记录每列都为空）此时unionall并不能合并这种空的记录。比如新建一个表名为t_student的表。记录学生的姓名，性别，年龄和成绩等基础信息。在t_studen
Kafka 数据写入问题喝醉酒的小白 DBA kafka 分布式
目录标题分析思路1.**生产者配置问题**：Kafka生产者的配置参数生产者和消费者的处理确定并优化2.**网络问题**：3.**Kafka集群配置问题**：unclean.leader.election.enable4.**Zookeeper配置问题**：5.**JVM参数调优**：6.**副本因子和同步复制**：分析思路针对您提到的Kafka数据写入问题，以下是一些具体的原因和排查命令：1.生
微信小程序面试内容整理-图片优化不务正业的猿面试微信小程序前端微信小程序 notepad++小程序面试职场和发展
在微信小程序中，图片优化是提升加载速度、节省网络带宽和提高用户体验的重要步骤。图片通常是小程序页面中的主要资源，合理的图片优化能显著提高小程序的性能，尤其是在用户网络状况较差的情况下。1.选择合适的图片格式不同的图片格式有不同的特点，选择合适的格式能够有效减小图片的大小，同时保证图片质量。
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
eNSP-DHCP服务 2022级计算机网络一班何宏超网络服务器 linux
DHCP：动态主机配置协议DHCP（DynamicHostConfigurationProtocol，动态主机配置协议）DHCP用途：用来分配IP地址等网络参数一、基于全局地址池的DHCP服务器1、在R1上配置G0/0/1的IP地址[R1]intg0/0/1[R1-GigabitEthernet0/0/1]ipadd192.168.100.254242、创建全局地址池[R1]ippoolpool1
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
金融领域股票价格预测：线性回归原理、实现与应用 ZhShy23 python 机器学习入门实战 #机器学习 #Python学习金融线性回归机器学习
金融领域股票价格预测：线性回归原理、实现与应用一、线性回归原理线性回归是一种用于建立自变量和因变量之间线性关系的统计模型。在股票价格预测中，我们可以将一些可能影响股票价格的因素（如成交量、市场指数等）作为自变量，股票价格作为因变量，通过线性回归模型来建立它们之间的关系。线性回归的基本方程为：[y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_nx_n+\ep
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。