JoJo的数据分析历险记

统计学习导论（ISLR）（五）：重采样方法（交叉验证和bootstrap）

统计学习导论(ISLR)

小编大四统计在读，目前保研到统计学top3高校继续攻读统计研究生。
参考资料:
The Elements of Statistical Learning
An Introduction to Statistical Learning
统计学习导论（ISLR）（二）：统计学习概述
统计学习导论（ISLR）（三）：线性回归
统计学习导论（ISLR）（四）：分类
统计学习导论（ISLR）（五）：重采样方法（交叉验证和boostrap）
ISLR统计学习导论之R语言应用（二）：R语言基础
ISLR统计学习导论之R语言应用（三）：线性回归R语言代码实战
ISLR统计学习导论之R语言应用（四）：分类算法R语言代码实战
ISLR统计学习导论之R语言应用（五）：R语言实现交叉验证和bootstrap
统计学习导论（ISLR）第四章课后习题

文章目录

统计学习导论(ISLR)
5. 重采样方法
- 5.1 交叉验证
- - 5.1.1 简单的验证集方法
  - 5.1.2 留一法交叉验证（LOOCV）
  - 5.1.3 K折交叉验证
  - 5.1.4 k折交叉验证的偏差方差权衡
  - 5.1.5 分类问题上的交叉验证
- 5.2 Bootstrap

5. 重采样方法

重抽样方法是现代统计学中不可缺少的工具。通过反复从训练集中抽取样本，并在每个样本上重新拟合感兴趣的模型，以获得有关拟合模型的附加信息。例如，为了估计线性回归拟合的可变性，我们可以从训练数据中反复抽取不同的样本，对每个新样本进行线性回归拟合，然后检查结果拟合的差异范围。这种方法可以让我们获得仅使用原始训练样本拟合模型时无法获得的信息。重采样方法的计算成本可能很高，因为它们会使用不同的训练数据集多次拟合相同的统计方法。然而，由于计算能力的最新发展，重采样方法的计算要求通常并不令人望而却步。在本章中，我们将讨论两种最常用的重采样方法，交叉验证和bootstrap。这两种方法都是许多统计学习过程实际应用中的重要工具。例如，交叉验证可用于计算给定统计学习方法相关的测试误差，以评估其性能，或选择适当的灵活性水平，进行超参数调整。评估模型性能的过程称为模型评估，而模型评估为模型选择适当的灵活性水平的过程称为模型选择。bootstrap应用广泛，最常见的是用于测量参数估计或给定统计学习方法的准确性。

5.1 交叉验证

第二章我们讨论了训练误差和测试误差。测试误差是统计学习方法对新数据集预测所产生的平均误差。在给定的数据集下，如果某一特定的统计学习方法测试误差很低，那么这个模型的效果还不错。相比之下，训练误差是比较容易得到和控制的。但正如我们在第二章中所看到的，训练误差通常与测试误差有很大不同，往往训练误差要大于测试误差。在没有可用于直接估计测试误差测试集的情况下，可以使用多种数学技巧调整训练误差，来估计测试误差。之后我们再详细介绍。在这一章中，我们考虑了将数据集划分的方法。我们需要对数据集划分：训练集、验证集、测试集。有时将验证集和测试集放在一起）。

5.1.1 简单的验证集方法

假设我们要估计某一模型的测试误差，对数据集划分成训练集和测试集，如图5.1所示。
图5.1 验证集划分。对于n个随机数据集，我们把它划分成训练集和测试集，蓝色区域表示训练集，分数区域表示验证集，我们在训练集上面拟合模型，在验证集上面计算测试误差。

我们以 $A u t o$ 数据为例。记得在第三章线性回归中，我们发现mpg和horsepower之间存在非线性关系，因此使用 $h o r s e p o w e r$ 和 $horsepower^2$
预测mpg比线性模型效果更好，因此我们很自然想知道是否三次或者更高次回归模型效果是否更好。在第三章我们是从p值的角度来判断模型是否合适。这里我们使用交叉验证的方法。首先随机将392数据分成两部分，训练集包括196个数据，验证集也包含196个数据。在训练集上拟合模型之后在验证集对模型进行评估，评估指标为MSE。二次拟合的验证集MSE比线性拟合的验证集MSE大得多。然而，三次方拟合的验证集MSE实际上略大于二次拟合的验证集MSE。这意味着在回归中包含一个三次项并不会比简单地使用二次项带来更好的预测。

图5.2 验证集方法对不同维度回归测试误差的结果。左图是平均的测试误差，右图是重复十次实验得到的测试误差

回想一下，为了创建图5.2的左侧，我们将数据集分为两部分，一部分是训练集，另一部分是验证集。如果我们重复将样本集随机分成两部分的过程，我们将得到一个稍微不同的测试MSE估计值。如图5.2所示，图5.2的右侧显示了十条不同的MSE曲线，该曲线是通过将观察值分成十个不同的训练集和验证集而生成的。所有十条曲线都表明，与仅具有线性项的模型相比，具有二次项的模型具有显著的小样本验证集MSE。此外，所有十条曲线都表明，在模型中包含三次或高阶多项式项没有多大好处。但值得注意的是，十条曲线中的每一条都会导致所考虑的十个回归模型中的每一个的测试MSE估计值不同。对于哪种模型的验证集MSE最小，这些曲线得到结果并不统一。但我们可以得出线性拟合不适用于这些数据。验证集方法概念简单，易于实现。但它有两个潜在的缺点：

正如图5.2所示，测试误差具有多变性，会受到样本的影响，也就是说每一次抽样得到的结果可能没有一致性，在统计学研究中，我们是不希望出现这样的结果
在简单的验证集方法中，我们只用了一小部分的数据来拟合模型，这样导致数据集太小而造成偏差，从而导致错误率过高

接下来我们介绍比较常用的交叉验证的方法，解决了上述两个问题

5.1.2 留一法交叉验证（LOOCV）

留一法交叉验证可以看做是上述方法的一种变换。同样将数据集分为两部分，一部分作为验证集，一部分作为训练集，不同的是，我们在这里不选择相同样本量作为验证集，而仅仅选择一个样本 $x_1,y_1)$ 作为验证集。剩下的n-1个样本作为训练集: ${(x_2,y_2),...,(x_n,y_n)}$ 。拟合模型。如图5.3所示：

**图5.3.**留一法交叉验证示意图。将一组数据点重复拆分为一个训练集（蓝色显示）和一个验证集，训练集包含除一个观测值以外的所有观测值，验证集仅包含一个观测值。然后，通过平均得到的MSE来估计测试误差。第一个训练集包含除观测值1之外的所有数据集，第二个训练集包含除观测值2之外的所有数据集，依此类推。

从图5.3可以看出，我们相当于做了n次模型训练，然后将这n次拟合的平均测试误差来估计某一个具体模型的测试误差。第一次训练得到的测试误差为： $MSE_1=(y_1-\hat{y}_1)^2$ 。重复n次得到： $MSE_2,...,MSE_n$ 。最后我们取平均值得到LOOCV估计的测试MSE:
$CV_{(n)}=\frac{1}{n}\sum_{i=1}^{n}MSE_i.$
与简单的使用验证集方法比较，LOOCV主要有以下几点优势：

1.偏差更小，因为我们使用了更多的数据集进行训练
2.不会受到抽样的随机性带来的影响。
我们使用Auto数据集通过留一法交叉验证得到测试误差如下图5.4所示：

图5.4 交叉验证结果图。左图是留一法交叉验证得到的测试误差随horsepower变量多项式纬度变化图。右图是10折交叉验证得到的多次平均测试误差

留一法交叉验证是一个很general的方法，例如在logistic regression或者naive bayes中都可以运用。
留一法交叉验证有一个缺点是计算量较大，因为我们要拟合n次模型。在当今大数据时代，我们实际遇到的数据往往上万，这时拟合模型会花费太多的时间。
下面我们介绍一下一种在实际中应用更多的方法，K折交叉验证。

5.1.3 K折交叉验证

K折交叉验证的思路是将数据集随机平均的分为K组。第一组作为验证集，剩下的k-1组作为训练集。当k=n时，留一法交叉验证可以看做是K折交叉验证。和留一法交叉验证类似， $MSE_1$ 可以看做是第一次训练时，验证组的平均误差。重复k次，我们可以得到k-折交叉验证的测试误差：
$CV_{(k)}=\frac{1}{k}\sum_{i=1}^{k}MSE_i.$
图5.5给出了5折交叉验证的示意图

图5.5 5折交叉验证示意图。首先将数据随机的分成5等份，每次拿出一份作为验证集，其余的作为训练集拟合模型，计算在验证集的误差，重复5次后取平均值得到MSE的估计值

在实际中我们常常取k=5或k=10。下面通过模拟数据集，计算了k=10和留一法交叉验证的MSE以及真实的MSE结果如下图5.6
图5.6 模拟数据集下的估计MSE和真实MSE。蓝色曲线代表模拟数据集的真实测试误差。黑色虚线代表留一法交叉验证，橙色曲线代表10折交叉验证。

我们通过交叉验证可以判断一个给定模型在数据集上的效果。上述案例中，我们知道真实的测试误差，要找到使得真实测试误差最小的点。但在实际情况中，我们往往不知道模型的真实测试误差，因此以交叉验证的结果作为对测试误差的估计，我们的目的是要找到使得估计测试误差最低的点作为我们模型的参数。

5.1.4 k折交叉验证的偏差方差权衡

我们上面说K折交叉验证在运算上比留一法交叉验证要好。但除去运算量不考虑，另一个比较重要的优势是通常k折交叉验证对测试误差的估计比留一法交叉验证更准确。
我们之前讨论过，简单的验证集方法会带来较大的偏差，因为他只用了数据集的一部分作为训练集拟合模型，从这一点来看，留一法交叉验证几乎是无偏的，因为他用了n-1个数据训练。同样k=5和k=10也会导致一定的偏差。如果仅仅从偏差的角度来看，留一法似乎表现的更好。但是我们还要考虑方差的问题。对于LOOCV，我们实际上是在平均拟合模型的输出，每个模型都是在几乎相同的观测集上训练的；因此，这些输出彼此高度（正）相关。相比之下，当我们在k 总的来说，取k=5或k=10是一个还不错的水平，方差和偏差都不大。

5.1.5 分类问题上的交叉验证

在上面的分析中，我们都是在回归案例中使用，下面我们讨论一下Y是分类型变量是，此时LOOCV错误率定义为：
$CV_{(n)} = \frac{1}{n}\sum_{i=1}^{n}Err_i$
其中， $Err_i=I(y_i \neq \hat{y}_i)$ ， $I ()$ 表示示性函数，如果条件成立则取1，否则取0
同样的，我们生成一个二分类模拟数据，拟合多个不同的logistic回归模型。如下图5.7。

图5.7. logistic回归结果图。其中虚线表示贝叶斯决策边界。实线表示不同次方的logistic拟合结果。测试误差分别为：0.201,0.197,0.160,0.162。贝叶斯误差为0.133
注：贝叶斯误差被认为是最小的错误率，已经无法再提升。

可以看出四次多项式的logistic回归模型结果没有提升，而预测因子三次多项式的logistic回归模型拟合效果相较于二次多项式得到了较大的提高。

在实际中，我们并不知道贝叶斯决策边界和测试误差，因此我们通过交叉验证来判断哪个模型最好。如下图所示：

图5.8. 交叉验证结果。左图是不同logistic回归的结果，右图是不同K值的KNN结果。棕色曲线表示测试误差，蓝色曲线表示训练误差，黑色曲线表示十折交叉验证结果。
从图中可以看出，随着模型复杂度的提升，测试错误率呈现先下降后上升的趋势。

5.2 Bootstrap

bootstrap是统计学习中一个特别重要的工具，能够应用于各种统计学习方法中。其基本思想是从一个数据集中每次抽取n个数据作为一个样本，重复多次试验，得到多个数据集，利用样本经验分布来代替总体分布。根据这些抽取出来的样本集估计某一特定的统计量，并根据多次抽取的结果来估计统计量的方差。
在这一部分中，我们希望在一个简单的模型下确定最佳的投资分配。
假设我们希望将给定自己投资两个金融产品中。两个金融产品的收益率分别为 $X$ 和 $Y$ ,且 $X$ 和 $Y$ 都是随机变量。假设我们投入 $\alpha$ 给X那么 $1-\alpha$ 给Y，因此我们希望选择 $\alpha$ 使得总风险最小，即最小化 $Var(\alpha X+(1-\alpha) Y$ 。即：
$\alpha = \frac{\sigma_Y^2-\sigma_{XY}}{\sigma_X^2+\sigma_Y^2-2\sigma_{XY}}$
同意我们计算 $1-\alpha = \frac{\sigma_X^2-\sigma_{XY}}{\sigma_X^2+\sigma_Y^2-2\sigma_{XY}}$
可以发现其中的规律，取决定性因素的是各自的方差 $\sigma_X^2$ 和 $\sigma_Y^2$ 。
实际我们不知道 $\sigma_X,\sigma_Y,\sigma_{XY}$ 等值，因此我们需要用过去的值估计。再来估计： $\hat \alpha$ 。
下面我们通过模拟数据来估计 $\alpha$ ，我们每次抽取100对X和Y数据作为样本集，据此来估计 $\sigma_X^2,\sigma_Y^2,\sigma_{XY}$ 。图5.9显示了四次模拟中得到 $\hat \alpha$

**图5.9.**模拟数据集。每张图都包含100个模拟数据集，上面四次模拟得到的 $\alpha$ 分别为0.576,0.532,0.657,0.651。
我们要想知道估计参数的准确性。因此很自然的想要估计 $\alpha$ 的方差。因此，我们重复1000次抽取样本，得到1000个 $\alpha$ 的估计值。 $\hat \alpha_1,...,\hat \alpha_{1000}$ 。我们设定的模拟数据集参数为 $\sigma_X^2=1，\sigma_Y^2=1.25,\sigma_{XY}^0.5$ ，我们能计算得到真实的 $\alpha=0.6$ 。而经过1000次的估计值：
$\bar\alpha = \frac{1}{1000}\sum_{r=1}^{1000}\hat{\alpha}_r=0.5996$
结果非常接近真实值0.6，标准差如下：
$SE(\hat \alpha)=\sqrt{\frac{1}{1000-1}\sum_{r=1}^{1000}(\hat{\alpha}_r-\bar\alpha)^2=0.083}$
可以看出标准差为0.083，说明我们的估计效果还算不错。下面我们对其进行可视化如图5.10.

图5.10 棕色代表真实 $\alpha$ 的分布情况，蓝色表示boostrap得到的 $\hat \alpha$ 分布。
从图5.10可以看出bootstrap得到的分布与真实的分布很接近，这说明bootstrap方法可以有效的估计 $\alpha$ 的分布情况。

但在实际应用中，我们得不到真实的 $\alpha$ 分布。bootsrap可以从原始数据集中不断的获取新样本集，这样就可以在不要求新的样本估计 $\alpha$ 。例如原始数据集有M个，每次我们随机有放回的抽取样本，假设抽取N个作为样本集，这样我们最多可以得 $M^N$ 个样本集合。

下面我们举一个非常简单的例子，如下图5.11所示。

图5.11 bootstrap方法示意图

如图5.11，我们原始数据集一共有3个数据(M=3)，假设我们每次有放回的抽取样本个数为3的集合，得到 $Z^{*1},...Z^{*B}$ 。每次抽取的样本集都可以得到一个 $\alpha^{*1}$ 估计值。我们可以计算这些估计值的平均值并进一步估计方差
$SE_B(\hat \alpha)=\sqrt{\frac{1}{B-1}\sum_{r=1}^{B}(\hat{\alpha}^{*r}-\frac{1}{B}\sum_{r=1}^{B}\hat{\alpha}^{*r})^2}$

bootstrap总结：
bootstrap的核心思想就是利用经验分布代替总体分布。
（1）采用随机放回抽样从原始样本中抽取一定数量的样本
（2）根据抽出的样本计算待估计的统计量。
（3）重复上述步骤（一般大于1000次），得到n个估计值。
（4）据此来计算方差以及分布情况

17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
Linux 判断tcp socket连接断开的方法 timbey linux socket tcpip
LinuxC代码客户端判断tcpsocket连接断开或丢失的方法当建立TCPsocket连接后，作为客户端需要对tcp的连接做维护。如果连接断开需要重连等操作。但是在sockettcpC库代码中没有提供判断连接是否正确的接口调用函数。实际上，使用tcp连接后，调用read函数读取socket时，正常情况下是会阻塞。当接收到数据时才会读出。所以可以判断当read时未阻塞，并且返回值为0或-1时，可以
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
qwenvl 代码中的attention pool 注意力池如何理解，attention pool注意力池是什么？ OpenSani AI 大模型计算机视觉语言模型 qwenvl LLM
qwenvl中的attentionpool如何理解，其实这就是一个概念的问题看qwenvl的huggingface的代码的时候，发现代码里有一个Resampler以及attn_pool，这和之前理解的连接池线程池表示资源复用的意思不太一样，查了一下：注意这里的pool和线程池连接池里面的pool不一样:深度学习中的池化：池化在深度学习中主要指通过滑动窗口对特征图进行下采样，提取最重要的特征，减少计
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
风控系统之指标回溯，历史数据重跑后端
个人博客：无奈何杨（wnhyang）个人语雀：wnhyang共享语雀：在线知识共享Github：wnhyang-Overview回顾默认你已经看过之前那篇风控系统指标计算/特征提取分析与实现01，Redis、Zset、模版方法。其中已经介绍了如何利用redis的zset结构完成指标计算，为了方便这篇文章的介绍，还是在正式开始本篇之前回顾一下。时间窗口zset是redis中的一种数据结构，表示有序集
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
机器学习特征重要性之feature_importances_属性与permutation_importance方法一叶_障目机器学习 python 数据挖掘
一、feature_importances_属性在机器学习中，分类和回归算法的feature_importances_属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过feature_importances_属性，您可以了解哪些特征对模型的预测最为重要，从而可以进行特征选择或特征工程，以提高模型的性能和解释性。1、决策树1.1.sklearn.tree.Decision
机器学习-期末测试难以触及的高度机器学习 python 人工智能
机器学习-期末测试线性回归1.代码展示#coding=UTF-8#拆分训练集和测试集importmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_split#是线性回归类是sklearn写好的根据梯度下降法fromsklearn.linear_modelimportLinearRegressionimportpand
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题 Loving_enjoy 论文深度学习计算机视觉人工智能
###Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题####引言在金融领域中，欺诈检测是一项至关重要的任务。然而，欺诈交易数据往往呈现出正负样本极度不平衡的特点，这给机器学习模型的训练带来了挑战。传统的分类算法在面对这种不平衡数据时，往往会导致模型对多数类（正常交易）过拟合，而对少数类（欺诈交易）的识别能力较差。为了解决这个问题，生成对抗网络（GAN）提供了一种有效的手
YOLOv10改进，YOLOv10检测头融合RepConv卷积，添加小目标检测层（四头检测）+CA注意机制，全网首发挂科边缘 YOLOv10改进 YOLO 目标检测人工智能计算机视觉
摘要作者提出了一种简单而强大的卷积神经网络架构，其推理阶段采用与VGG类似的网络体结构，仅由一堆3x3卷积和ReLU组成，而训练阶段的模型具有多分支拓扑。这种训练阶段和推理阶段架构的解耦通过结构重参数化技术实现，因此我们将该模型命名为RepVGG。#理论介绍RepConv通过将多个卷积操作合并成一个卷积操作来优化计算的。首先在训练过程中使用多种操作（如多个卷积层、跳跃连接等）来提高模型的表达能力和
一文读懂：无监督学习与有监督学习的区别与应用码上飞扬学习
在机器学习的世界里，无监督学习和有监督学习是两个最为常见且重要的概念。理解这两者的区别和应用场景，不仅有助于我们选择合适的算法和模型，还能帮助我们更好地解决实际问题。那么，什么是无监督学习和有监督学习呢？本文将带你详细了解这两种学习方式的定义、区别以及典型应用。目录无监督学习是什么？有监督学习是什么？无监督学习与有监督学习的主要区别无监督学习的典型应用有监督学习的典型应用如何选择合适的学习方法？1
【Scrapy】Scrapy 中间件等级设置规则音乐学家方大刚爬虫 Scrapy Python scrapy 中间件
准我快乐地重饰演某段美丽故事主人饰演你旧年共寻梦的恋人再去做没流着情泪的伊人假装再有从前演过的戏份重饰演某段美丽故事主人饰演你旧年共寻梦的恋人你纵是未明白仍夜深一人穿起你那无言毛衣当跟你接近陈慧娴《傻女》Scrapy是一个功能强大的爬虫框架，通过使用中间件（middleware），用户可以自定义和扩展爬虫的行为。中间件提供了对请求和响应进行预处理和后处理的机制，使用户可以在不修改核心代码的情况下增
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
C#遇见TensorFlow.NET：开启机器学习的全新时代墨夶 C#学习资料1 机器学习 c#tensorflow
在当今快速发展的科技世界里，机器学习（MachineLearning,ML）已经成为推动创新的重要力量。从个性化推荐系统到自动驾驶汽车，ML的应用无处不在。对于那些习惯于使用C#进行开发的程序员来说，将机器学习集成到他们的项目中似乎是一项具有挑战性的任务。但随着TensorFlow.NET的出现，这一切变得不再困难。今天，我们将一起探索如何利用这一强大的工具，在熟悉的.NET环境中轻松构建、训练和
YOLOv11改进，YOLOv11检测头融合RepConv卷积，并添加小目标检测层（四头检测），适合目标检测、分割等任务挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉
摘要作者提出了一种简单而强大的卷积神经网络架构，其推理阶段采用与VGG类似的网络体结构，仅由一堆3x3卷积和ReLU组成，而训练阶段的模型具有多分支拓扑。这种训练阶段和推理阶段架构的解耦通过结构重参数化技术实现，因此我们将该模型命名为RepVGG。#理论介绍RepConv通过将多个卷积操作合并成一个卷积操作来优化计算的。首先在训练过程中使用多种操作（如多个卷积层、跳跃连接等）来提高模型的表达能力和
kafka 宋song一中间件 kafka big data
Kafka学习之路Kafka必知必会kafka核心原理go操作kafka消息队列之-KafkaKafka分区分配策略或(https://blog.csdn.net/u013256816/article/details/81123625)kafka怎么保证消息顺序？StickyAssignor:0.11.x版本引入,消费者尽量不离开分区.即BalanceStrategySticky:重平衡策略,适用
基于R语言的现代贝叶斯统计学方法（贝叶斯参数估计、贝叶斯回归、贝叶斯计算实践过程 xiao5kou4chang6kai4 统计生态农业 r语言回归贝叶斯统计学线性回归
专题一贝叶斯统计学的思想与概念1.1信念函数与概率1.2事件划分与贝叶斯法则1.3稀少事件的概率估计1.4可交换性1.5预测模型的构建专题二单参数模型2.1二项式模型与置信域2.2泊松模型与后验分布2.3指数族模型与共轭先验专题三蒙特卡罗逼近3.1蒙特卡罗方法3.2任意函数的后验推断3.3预测分布采样3.4后验模型检验专题四正态模型4.1均值与条件方差的推断4.2基于数学期望的先验4.3非正态分布
深入探索Python编程技术：从入门到精通的全方位学习指南小码快撩 python 开发语言
引言在当今信息技术飞速发展的时代，Python以其简洁优雅、功能强大、易于上手的特点，成为了众多开发者和初学者首选的编程语言。无论是数据科学、机器学习、Web开发、自动化脚本编写，还是桌面应用开发，Python都能发挥其独特优势，帮助开发者高效完成任务。本文旨在为Python学习者提供一个全面的学习路径与关键知识点概述，助您快速掌握这门强大的编程语言。一、基础语法1.变量定义与数据类型示例代码：#
从零开始的 AI Infra 学习之路 SSS不知-道 MLSys 人工智能深度学习 pytorch
从零开始的AIInfra学习之路文章目录从零开始的AIInfra学习之路一、概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM五、AI编译&计算架构5.1CUDA5.2CANN六、AI硬件&体系结构6.1INVIDIAGPU6.2AscendNPU一、概述AIInfra（AI
python 特征选择方法_【来点干货】机器学习中常用的特征选择方法及非常详细的Python实例... Blair Long python 特征选择方法
花费了很长时间整理编辑，转载请联系作者授权，违者必究。特征选择(Featureselection)是在构建预测模型的过程中减少输入变量的一个过程。它是机器学习中非常重要的一步并在很大程度上可以提高模型预测精度。这里我总结了一些机器学习中常见的比较有用的特征选择方法并附上相关python实现code。希望可以给大家一些启发。首先，我们为什么要进行特征选择呢？它有以下几个优点：减少过拟合：冗余数据常常
chatgpt赋能python：Python群发微信消息：解决方案 suimodina ChatGpt python chatgpt 微信计算机
Python群发微信消息：解决方案肆无忌惮的群发微信消息，是否是你目前所需的解决方案？如果是，那么你来对地方了。Python是一门十分强大的编程语言，广泛用于各种人工智能、计算机视觉、机器学习等领域。Python可以用于开发各种应用程序，它也可以用于批量处理和发送微信消息。本文将概述如何用Python发送微信消息。我们将介绍用Python实现微信消息的流程和步骤，并提供一些有关如何使用Python
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
ASPICE 4.0引领自动驾驶未来：机器学习模型的特点与实践亚远景aspice 机器学习自动驾驶人工智能
ASPICE4.0-ML机器学习模型是针对汽车行业，特别是在汽车软件开发中，针对机器学习（MachineLearning,ML）应用的特定标准和过程。ASPICE（AutomotiveSPICE）是一种基于软件控制的系统开发过程的国际标准，旨在提升软件开发过程的质量、效率和可靠性。ASPICE4.0中的ML模型部分则进一步细化了机器学习在汽车软件开发中的具体要求和流程。以下是对ASPICE4.0-
python中tensorflow_python机器学习TensorFlow框架弦歌缓缓
TensorFlow框架关注公众号“轻松学编程”了解更多。一、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor(张量)意味着N维数组，Flow(流)意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端的计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统
【机器学习实战中阶】音乐流派分类-自动化分类不同音乐风格精通代码大仙数据挖掘深度学习 python 机器学习分类自动化人工智能数据挖掘深度学习
音乐流派分类–自动化分类不同音乐风格在本教程中，我们将开发一个深度学习项目，用于自动化地从音频文件中分类不同的音乐流派。我们将使用音频文件的频率域和时间域低级特征来分类这些音频文件。对于这个项目，我们需要一个具有相似大小和相似频率范围的音频曲目数据集。GTZAN流派分类数据集是音乐流派分类项目中最推荐的数据集，并且它是为了这个任务而收集的。音乐流派分类器模型音乐流派分类关于数据集：GTZAN流派收
全面解读 Databricks：从架构、引擎到优化策略克里斯蒂亚诺罗纳尔多阿维罗架构 spark 大数据
导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。在Databricks平台上，数据工程、数据科学与数据分析团队能够协作使用Spark、DeltaLake、MLflow等工具高效处理数据与构建机器学习应用。本文将深入介绍Databricks的平台概念、架构特点、优化机制、功能特性
AI歌手会成为主流吗？网络安全我来了 IT技术人工智能
AI歌手会成为主流吗？在如今这个科技迅猛发展的时代，AI歌手渐渐走入我们的视野。或许你会想，AI真的能够唱歌，它的歌声能与真实歌手相媲美吗？让我们一起探索这个引人入胜的主题，看看AI歌手的发展现状、优缺点，以及它在音乐行业的未来前景。1.AI歌手的发展现状1.1技术背景我们处于一个机器学习和深度学习技术飞速发展的时代，AI歌手的诞生并非偶然。通过收集和分析大量的音乐数据，AI能够学习并模仿特定歌手
【机器学习：三十二、强化学习：理论与应用】 KeyPan 机器学习机器学习机器人人工智能深度学习数据挖掘
1.强化学习概述**强化学习（ReinforcementLearning,RL）**是一种机器学习方法，旨在通过试验与反馈的交互，使智能体（Agent）在动态环境中学习决策策略，以最大化累积奖励（CumulativeReward）。相比监督学习和无监督学习，强化学习更关注长期目标，而非简单地从标签中学习。核心概念智能体（Agent）：进行学习和决策的主体。环境（Environment）：智能体所在
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默