只须一笑不须愁X

【机器学习】交叉验证详细解释+10种常见的验证方法具体代码实现+可视化图

【机器学习】交叉验证详细解释+10种常见的验证方法具体代码实现+可视化图

一、使用背景

由于在训练集上，通过调整参数设置使估计器的性能达到了最佳状态；但在测试集上可能会出现过拟合的情况。此时，测试集上的信息反馈足以颠覆训练好的模型，评估的指标不再有效反映出模型的泛化性能。为了解决此类问题，还应该准备另一部分被称为验证集的数据集，模型训练完成以后在验证集上对模型进行评估。当验证集上的评估实验比较成功时，在测试集上进行最后的评估。
然而，通过将原始数据分为3个数据集合，我们就大大减少了可用于模型学习的样本数量，并且得到的结果依赖于集合对（训练，验证）的随机选择。
这个问题可以通过交叉验证来解决。交叉验证仍需要测试集做最后的模型评估，但不再需要验证集。

二、使用交叉验证的指标

1.使用交叉验证最简单的方法是在估计器和数据集上调用 cross_val_score 辅助函数。

下面的示例展示了如何通过分割数据，拟合模型和计算连续 5 次的分数（每次不同分割）来估计 linear kernel 支持向量机在 iris 数据集上的精度:

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import svm
from sklearn.model_selection import cross_val_score

iris = datasets.load_iris()
iris.data.shape, iris.target.shape
clf = svm.SVC(kernel='linear', C=1)
scores = cross_val_score(clf, iris.data, iris.target, cv=5)
print(scores)
#[0.96666667 1.         0.96666667 0.96666667 1.        ]

评分估计的平均得分和 95% 置信区间由此给出:

print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
#Accuracy: 0.98 (+/- 0.03)

2.cross_validate 函数和多度量评估

允许多个指标进行评估，并且除了测试得分外，还会返回一个包含训练得分、拟合次数、得分次数的一个字典

这里是一个使用单一指标的 cross_validate 的示例:

from sklearn.model_selection import cross_validate
from sklearn.metrics import recall_score

scores = cross_validate(clf, iris.data, iris.target,
scoring='precision_macro', cv=5, return_estimator=True)

print(sorted(scores.keys()))
#['estimator', 'fit_time', 'score_time', 'test_score']

3.通过交叉验证获取预测(函数cross_val_predict)

cross_val_predict函数的结果可能会与cross_val_score函数的结果不一样，因为在这两种方法中元素的分组方式不一样。函数cross_val_score在所有交叉验证的折子上取平均。但是，函数cross_val_predict只是简单的返回由若干不同模型预测出的标签或概率。

具有交叉验证的ROC曲线的绘制：

import numpy as np
import matplotlib.pyplot as plt

from sklearn import svm, datasets
from sklearn.metrics import auc
from sklearn.metrics import RocCurveDisplay
from sklearn.model_selection import StratifiedKFold

# #############################################################################
# Data IO and generation

# Import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target
X, y = X[y != 2], y[y != 2]
n_samples, n_features = X.shape

# Add noisy features
random_state = np.random.RandomState(0)
X = np.c_[X, random_state.randn(n_samples, 200 * n_features)]

# #############################################################################
# Classification and ROC analysis

# Run classifier with cross-validation and plot ROC curves
cv = StratifiedKFold(n_splits=6)
classifier = svm.SVC(kernel="linear", probability=True, random_state=random_state)

tprs = []
aucs = []
mean_fpr = np.linspace(0, 1, 100)

fig, ax = plt.subplots()
for i, (train, test) in enumerate(cv.split(X, y)):
    classifier.fit(X[train], y[train])
    viz = RocCurveDisplay.from_estimator(
        classifier,
        X[test],
        y[test],
        name="ROC fold {}".format(i),
        alpha=0.3,
        lw=1,
        ax=ax,
    )
    interp_tpr = np.interp(mean_fpr, viz.fpr, viz.tpr)
    interp_tpr[0] = 0.0
    tprs.append(interp_tpr)
    aucs.append(viz.roc_auc)

ax.plot([0, 1], [0, 1], linestyle="--", lw=2, color="r", label="Chance", alpha=0.8)

mean_tpr = np.mean(tprs, axis=0)
mean_tpr[-1] = 1.0
mean_auc = auc(mean_fpr, mean_tpr)
std_auc = np.std(aucs)
ax.plot(
    mean_fpr,
    mean_tpr,
    color="b",
    label=r"Mean ROC (AUC = %0.2f $\pm$ %0.2f)" % (mean_auc, std_auc),
    lw=2,
    alpha=0.8,
)

std_tpr = np.std(tprs, axis=0)
tprs_upper = np.minimum(mean_tpr + std_tpr, 1)
tprs_lower = np.maximum(mean_tpr - std_tpr, 0)
ax.fill_between(
    mean_fpr,
    tprs_lower,
    tprs_upper,
    color="grey",
    alpha=0.2,
    label=r"$\pm$ 1 std. dev.",
)

ax.set(
    xlim=[-0.05, 1.05],
    ylim=[-0.05, 1.05],
    title="Receiver operating characteristic example",
)
ax.legend(loc="lower right")
plt.show()

ROC曲线图：
此示例显示了从K折叠交叉验证创建的不同数据集的ROC响应。采用所有这些曲线，可以计算曲线下的平均面积，并在训练集拆分为不同的子集时看到曲线的方差。这大致显示了分类器输出如何受到训练数据变化的影响，以及K倍交叉验证生成的拆分之间的差异。

三、交叉验证迭代器：用于生成索引标号，用于在不同的交叉验证策略中生成数据划分

1.K折

KFold 将所有的样例划分为 k 个组，称为折叠 (fold) （如果 k = n，这等价于 Leave OneOut（留一）策略），都具有相同的大小（如果可能）。预测函数学习时使用 k - 1 个折叠中的数据，最后一个剩下的折叠会用于测试。
在 4 个样例的数据集上使用2-fold交叉验证的示例:

import numpy as np
from sklearn.model_selection import KFold

X = ["a", "b", "c", "d"]
kf = KFold(n_splits=2)
for train, test in kf.split(X):
    print("%s  %s" % (train, test))
#[2 3]  [0 1]
#[0 1]  [2 3]

2.重复 K-折交叉验证

RepeatedKFold 重复 K-Fold n 次。当需要运行时可以使用它 KFold n 次，在每次重复中产生不同的分割。

2折K-Fold重复 2 次的示例:

import numpy as np
from sklearn.model_selection import RepeatedKFold
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
random_state = 12883823
rkf = RepeatedKFold(n_splits=2, n_repeats=2, random_state=random_state)
for train, test in rkf.split(X):
    print("%s  %s" % (train, test))
#[2 3]  [0 1]
#[0 1]  [2 3]
#[0 2]  [1 3]
#[1 3]  [0 2]

3.留一交叉验证 (LOO)

LeaveOneOut (或 LOO) 是一个简单的交叉验证。每个学习集都是通过除了一个样本以外的所有样本创建的，测试集是被留下的样本。因此，对于 n 个样本，我们有 n 个不同的训练集和 n 个不同的测试集。这种交叉验证程序不会浪费太多数据，因为只有一个样本是从训练集中删除掉的:

from sklearn.model_selection import LeaveOneOut

X = [1, 2, 3, 4]
loo = LeaveOneOut()
for train, test in loo.split(X):
    print("%s  %s" % (train, test))
#[1 2 3]  [0]
#[0 2 3]  [1]
#[0 1 3]  [2]
#[0 1 2]  [3]

当与 k 折交叉验证进行比较时，可以从 n 样本中构建 n 模型，而不是 k 模型，其中 n > k 。此外，每个在 n - 1 个样本而不是在 (k-1) n / k 上进行训练。在两种方式中，假设 k 不是太大，并且 k < n ， LOO 比 k 折交叉验证计算开销更加昂贵。
就精度而言， LOO 经常导致较高的方差作为测试误差的估计器。直观地说，因为 n 个样本中的 n - 1 被用来构建每个模型，折叠构建的模型实际上是相同的，并且是从整个训练集建立的模型。但是，如果学习曲线对于所讨论的训练大小是陡峭的，那么 5- 或 10- 折交叉验证可以泛化误差增高。作为一般规则，大多数作者和经验证据表明， 5- 或者 10- 交叉验证应该优于 LOO 。

4.留 P 交叉验证 (LPO)

LeavePOut 与 LeaveOneOut 非常相似，因为它通过从整个集合中删除 p 个样本来创建所有可能的训练/测试集。对于 n 个样本，这产生了（n,p）个训练-测试对。与 LeaveOneOut 和 KFold 不同，当 p > 1 时，测试集会重叠。

在有 4 个样例的数据集上使用 Leave-2-Out 的示例:

from sklearn.model_selection import LeavePOut

X = np.ones(4)
lpo = LeavePOut(p=2)
for train, test in lpo.split(X):
    print("%s  %s" % (train, test))
#[2 3]  [0 1]
#[1 3]  [0 2]
#[1 2]  [0 3]
#[0 3]  [1 2]
#[0 2]  [1 3]
#[0 1]  [2 3]

5.随机排列交叉验证ShuffleSplit

ShuffleSplit 迭代器将会生成一个用户给定数量的独立的训练/测试数据划分。样例首先被打散然后划分为一对训练测试集合。
可以通过设定明确的 random_state ，使得伪随机生成器的结果可以重复。

这是一个使用的小示例:

from sklearn.model_selection import ShuffleSplit
X = np.arange(5)
ss = ShuffleSplit(n_splits=3, test_size=0.25,
                  random_state=0)
for train_index, test_index in ss.split(X):
    print("%s  %s" % (train_index, test_index))
#[1 3 4]  [2 0]
#[1 4 3]  [0 2]
#[4 0 2]  [1 3]

ShuffleSplit 可以替代KFold交叉验证，因为其提供了细致的训练测试划分的数量和样例所占的比例等的控制。

6.分层 k 折

StratifiedKFold 是 k-fold 的变种，会返回 stratified（分层）的折叠：每个小集合中，各个类别的样例比例大致和完整数据集中相同。

在有 10 个样例的，有两个略不均衡类别的数据集上进行分层 3-fold 交叉验证的示例:

from sklearn.model_selection import StratifiedKFold

X = np.ones(10)
y = [0, 0, 0, 0, 1, 1, 1, 1, 1, 1]
skf = StratifiedKFold(n_splits=3)
for train, test in skf.split(X, y):
    print("%s  %s" % (train, test))
#[2 3 6 7 8 9]  [0 1 4 5]
#[0 1 3 4 5 8 9]  [2 6 7]
#[0 1 2 4 5 6 7]  [3 8 9]

7.组 k-fold

GroupKFold 是 k-fold 的变体，它确保同一个 group 在测试和训练集中都不被表示。例如，如果数据是从不同的subjects获得的，每个 subject 有多个样本，并且如果模型足够灵活以高度人物指定的特征中学习，则可能无法推广到新的 subject 。 GroupKFold 可以检测到这种过拟合的情况。

假设有三组数据，每组都有一个从1到3的相关数字：

from sklearn.model_selection import GroupKFold

X = [0.1, 0.2, 2.2, 2.4, 2.3, 4.55, 5.8, 8.8, 9, 10]
y = ["a", "b", "b", "b", "c", "c", "c", "d", "d", "d"]
groups = [1, 1, 1, 2, 2, 2, 3, 3, 3, 3]

gkf = GroupKFold(n_splits=3)
for train, test in gkf.split(X, y, groups=groups):
    print("%s  %s" % (train, test))
#[0 1 2 3 4 5]  [6 7 8 9]
#[0 1 2 6 7 8 9]  [3 4 5]
#[3 4 5 6 7 8 9]  [0 1 2]

由于数据不平衡，折叠的大小并不完全相同。

8.留一组交叉验证

LeaveOneGroupOut 是一个交叉验证方案，它根据第三方提供的array of integer groups（整数组的数组）来提供样本。这个组信息可以用来编码任意域特定的预定义交叉验证折叠。
每个训练集都是由除特定组别以外的所有样本构成的。

例如，在多个实验的情况下， LeaveOneGroupOut 可以用来根据不同的实验创建一个交叉验证：我们使用除去一个实验的所有实验的样本创建一个训练集:

from sklearn.model_selection import LeaveOneGroupOut

X = [1, 5, 10, 50, 60, 70, 80]
y = [0, 1, 1, 2, 2, 2, 2]
groups = [1, 1, 2, 2, 3, 3, 3]
logo = LeaveOneGroupOut()
for train, test in logo.split(X, y, groups=groups):
    print("%s  %s" % (train, test))
#[2 3 4 5 6]  [0 1]
#[0 1 4 5 6]  [2 3]
#[0 1 2 3]  [4 5 6]

9.留 P 组交叉验证

LeavePGroupsOut 类似于LeaveOneGroupOut，但为每个训练/测试集删除与 P 组有关的样本。
Leave-2-Group Out 的示例:

from sklearn.model_selection import LeavePGroupsOut

X = np.arange(6)
y = [1, 1, 1, 2, 2, 2]
groups = [1, 1, 2, 2, 3, 3]
lpgo = LeavePGroupsOut(n_groups=2)
for train, test in lpgo.split(X, y, groups=groups):
    print("%s  %s" % (train, test))
#[4 5]  [0 1 2 3]
#[2 3]  [0 1 4 5]
#[0 1]  [2 3 4 5]

10.Group Shuffle Split

GroupShuffleSplit 迭代器是 ShuffleSplit 和 LeavePGroupsOut 的组合，它生成一个随机划分分区的序列，其中为每个分组提供了一个组子集。

这是使用的示例:

from sklearn.model_selection import GroupShuffleSplit

X = [0.1, 0.2, 2.2, 2.4, 2.3, 4.55, 5.8, 0.001]
y = ["a", "b", "b", "b", "c", "c", "c", "a"]
groups = [1, 1, 2, 2, 3, 3, 4, 4]
gss = GroupShuffleSplit(n_splits=4, test_size=0.5, random_state=0)
for train, test in gss.split(X, y, groups=groups):
    print("%s  %s" % (train, test))
#[0 1 2 3]  [4 5 6 7]
#[2 3 6 7]  [0 1 4 5]
#[2 3 4 5]  [0 1 6 7]
#[4 5 6 7]  [0 1 2 3]

三、.预定义的折叠 / 验证集

对一些数据集，一个预定义的，将数据划分为训练和验证集合或者划分为几个交叉验证集合的划分已经存在。可以使用 PredefinedSplit 来使用这些集合来搜索超参数。
比如，当使用验证集合时，设置所有验证集合中的样例的test_fold为 0，而将其他样例设置为 -1 。

四、交叉验证在时间序列数据中应用

TimeSeriesSplit 是 k-fold 的一个变体，它首先返回 k 折作为训练数据集，并且 (k+1) 折作为测试数据集。与标准的交叉验证方法不同，连续的训练集是超越前者的超集。另外，它将所有的剩余数据添加到第一个训练分区，它总是用来训练模型。
这个类可以用来交叉验证以固定时间间隔观察到的时间序列数据样本。

对具有 6 个样本的数据集进行 3-split 时间序列交叉验证的示例:

from sklearn.model_selection import TimeSeriesSplit

X = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([1, 2, 3, 4, 5, 6])
tscv = TimeSeriesSplit(n_splits=3)
print(tscv)  
TimeSeriesSplit(max_train_size=None, n_splits=3)
for train, test in tscv.split(X):
    print("%s  %s" % (train, test))
#[0 1 2]  [3]
#[0 1 2 3]  [4]
#[0 1 2 3 4]  [5]

五、可视化操作

from sklearn.model_selection import (
    TimeSeriesSplit,
    KFold,
    ShuffleSplit,
    StratifiedKFold,
    GroupShuffleSplit,
    GroupKFold,
    StratifiedShuffleSplit,
    StratifiedGroupKFold,
)
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.patches import Patch

np.random.seed(1338)
cmap_data = plt.cm.Paired
cmap_cv = plt.cm.coolwarm
n_splits = 4
# Generate the class/group data
n_points = 100
X = np.random.randn(100, 10)

percentiles_classes = [0.1, 0.3, 0.6]
y = np.hstack([[ii] * int(100 * perc) for ii, perc in enumerate(percentiles_classes)])

# Evenly spaced groups repeated once
groups = np.hstack([[ii] * 10 for ii in range(10)])


def visualize_groups(classes, groups, name):
    # Visualize dataset groups
    fig, ax = plt.subplots()
    ax.scatter(
        range(len(groups)),
        [0.5] * len(groups),
        c=groups,
        marker="_",
        lw=50,
        cmap=cmap_data,
    )
    ax.scatter(
        range(len(groups)),
        [3.5] * len(groups),
        c=classes,
        marker="_",
        lw=50,
        cmap=cmap_data,
    )
    ax.set(
        ylim=[-1, 5],
        yticks=[0.5, 3.5],
        yticklabels=["Data\ngroup", "Data\nclass"],
        xlabel="Sample index",
    )

visualize_groups(y, groups, "no groups")

会生成如下图片：

def plot_cv_indices(cv, X, y, group, ax, n_splits, lw=10):
    """Create a sample plot for indices of a cross-validation object."""

    # Generate the training/testing visualizations for each CV split
    for ii, (tr, tt) in enumerate(cv.split(X=X, y=y, groups=group)):
        # Fill in indices with the training/test groups
        indices = np.array([np.nan] * len(X))
        indices[tt] = 1
        indices[tr] = 0

        # Visualize the results
        ax.scatter(
            range(len(indices)),
            [ii + 0.5] * len(indices),
            c=indices,
            marker="_",
            lw=lw,
            cmap=cmap_cv,
            vmin=-0.2,
            vmax=1.2,
        )

    # Plot the data classes and groups at the end
    ax.scatter(
        range(len(X)), [ii + 1.5] * len(X), c=y, marker="_", lw=lw, cmap=cmap_data
    )

    ax.scatter(
        range(len(X)), [ii + 2.5] * len(X), c=group, marker="_", lw=lw, cmap=cmap_data
    )

    # Formatting
    yticklabels = list(range(n_splits)) + ["class", "group"]
    ax.set(
        yticks=np.arange(n_splits + 2) + 0.5,
        yticklabels=yticklabels,
        xlabel="Sample index",
        ylabel="CV iteration",
        ylim=[n_splits + 2.2, -0.2],
        xlim=[0, 100],
    )
    ax.set_title("{}".format(type(cv).__name__), fontsize=15)
    return ax
fig, ax = plt.subplots()
cv = KFold(n_splits)
plot_cv_indices(cv, X, y, groups, ax, n_splits)

生成k折的可视化图：

uneven_groups = np.sort(np.random.randint(0, 10, n_points))

cvs = [StratifiedKFold, GroupKFold, StratifiedGroupKFold]

for cv in cvs:
    fig, ax = plt.subplots(figsize=(6, 3))
    plot_cv_indices(cv(n_splits), X, y, uneven_groups, ax, n_splits)
    ax.legend(
        [Patch(color=cmap_cv(0.8)), Patch(color=cmap_cv(0.02))],
        ["Testing set", "Training set"],
        loc=(1.02, 0.8),
    )
    # Make the legend fit
    plt.tight_layout()
    fig.subplots_adjust(right=0.7)

生成StratifiedKFold, GroupKFold, StratifiedGroupKFold的可视化图：

cvs = [
    KFold,
    GroupKFold,
    ShuffleSplit,
    StratifiedKFold,
    StratifiedGroupKFold,
    GroupShuffleSplit,
    StratifiedShuffleSplit,
    TimeSeriesSplit,
]


for cv in cvs:
    this_cv = cv(n_splits=n_splits)
    fig, ax = plt.subplots(figsize=(6, 3))
    plot_cv_indices(this_cv, X, y, groups, ax, n_splits)

    ax.legend(
        [Patch(color=cmap_cv(0.8)), Patch(color=cmap_cv(0.02))],
        ["Testing set", "Training set"],
        loc=(1.02, 0.8),
    )
    # Make the legend fit
    plt.tight_layout()
    fig.subplots_adjust(right=0.7)
plt.show()

生成KFold, GroupKFold, ShuffleSplit, StratifiedKFold, StratifiedGroupKFold, GroupShuffleSplit,StratifiedShuffleSplit,TimeSeriesSplit的可视化图：

六、注意事项

如果数据的顺序不是任意的（比如说，相同标签的样例连续出现），为了获得有意义的交叉验证结果，首先对其进行打散是很有必要的。然而，当样例不是独立同分布时打散则是不可行的。例如：样例是相关的文章，以他们发表的时间进行排序，这时候如果对数据进行打散，将会导致模型过拟合，得到一个过高的验证分数：因为验证样例更加相似（在时间上更接近）于训练数据。

力扣Hot100刷题笔记 G兴X java 力扣
哈希1两数之和classSolution{publicint[]twoSum(int[]nums,inttarget){Mapmap=newHashMap>groupAnagrams(String[]strs){Map>map=newHashMaplist=map.getOrDefault(key,newArrayList>(map.values());}}128最长连续序列classSoluti
2025-1-21-sklearn学习(43) 使用 scikit-learn 介绍机器学习楼上阑干横斗柄，寒露人远鸡相应。汤姆和佩琦 sklearn 机器学习 sklearn 学习 python 人工智能 scikit-learn
文章目录sklearn学习(43)使用scikit-learn介绍机器学习43.1机器学习：问题设置43.2加载示例数据集43.3学习和预测43.4模型持久化43.4规定43.4.1类型转换43.4.2再次训练和更新参数43.4.3多分类与多标签拟合sklearn学习(43)使用scikit-learn介绍机器学习文章参考网站：https://sklearn.apachecn.org/和https
通过Python编程语言实现“机器学习”小项目教程案例胡萝卜不甜机器学习 python 机器学习开发语言
1.Python与机器学习概述1.1Python语言特点Python是一种广泛使用的高级编程语言，具有简洁、易读、易学的特点，这使得它成为初学者和专业人士的首选语言之一。简洁性：Python的语法简洁明了，减少了代码量，提高了开发效率。例如，与其他语言相比，Python可以用更少的代码实现相同的功能，这使得代码更容易编写和维护。易读性：Python的代码风格类似于英语，易于理解和阅读。这种易读性使
周报管理系统大霸王龙行业+领域+业务场景=定制 python microsoft ascii 文本处理
代码仓库产品名称：智汇周报管理系统主要功能：自动化报告生成：智汇周报管理系统能够自动收集项目进展、任务完成情况、团队成员工作日志等关键数据，基于预设模板或用户自定义模板，一键生成周报。支持多格式导出（如Word、PDF、Excel），满足不同场景下的报告需求。智能数据分析与可视化：系统内置强大的数据分析引擎，能够自动对收集到的数据进行统计分析，如任务完成率、进度延误情况、成员工作负荷等，并通过图表
C++随笔记录：区别()和{}创建对象 jax不摆烂 C++入门到精通算法
C++在C++11之前的初始化方式五花八门，所以C++11引入统一初始化语法。初始化值要用圆括号()或者花括号{}括起来，或者放到等号=的右边：不管是基本类型、数组还是复杂容器，都可以用花括号{}来初始化；int x(0); //使用圆括号初始化int y= 0; //使用"="初始化int z{ 0 }; //使用花括号初始化这里的=运算符可能会让人产生
Coze，Dify，FastGPT，对比云连山 AI编程 AI编程
在当今AI技术迅速发展的背景下，AIAgent智能体成为了关键领域，Coze、Dify和FastGPT作为其中的佼佼者，各有千秋。平台介绍-FastGPT：由环界云计算公司发起，是基于大语言模型（LLM）的开源知识库问答系统。其亮点是支持Flow可视化工作流编排，在知识问答领域表现出色，拥有庞大用户群体，包括数百家企业付费客户等。网址为https://fastgpt.cn/。-Dify：苏州语灵人
【YOLO日志文件】读取和可视化events.out.tfevents文件我是瓦力其他 YOLO 目标检测人工智能计算机视觉 pytorch 视觉检测
文章目录前言方法读取数据可视化数据总结前言目的：读取和可视化events.out.tfevents文件问题：yolo官方程序默认出的图样式和数据不够详细，如何提取出相应数据，方便自己查看详细和处理数据方法：通过tensorboardX和tensorboard库读取数据，再通过matplotlib进行可视化例如yolo结果数据都是固定样式图，不能方便查看其中每个点的具体数值。方法读取数据为了读取.t
ROS学习（5）可视化和调试工具一敲代码的雪糕 ROS ROS
文章目录前言一、调试ROS节点1、使用gdb调试器调试节点2、在节点启动时调用gdb调试器3、在节点启动时调用valgrind分析节点4、设置ROS节点core文件存储二、日志消息1.输出日志消息2.调试消息级别3.为特定节点配置调试消息级别4.消息命名5.按条件显示消息与过滤消息6.显示消息的方式7.使用rqt_console和rqt_logger_level在运行时修改调试级别总结前言ROS自
侯捷 C++ 课程学习笔记：开启 C++ 深度探索之旅秃头小饼干 jvm 开发语言 c++
在C++的学习道路上，侯捷老师的课程宛如一座明亮的灯塔，为无数学习者照亮前行的方向。经过一段时间对侯捷C++课程的深入学习，我收获颇丰，在此将自己的学习笔记和感悟分享给大家，希望能对正在学习C++或者准备踏入C++领域的朋友们有所帮助。一、课程初印象初次接触侯捷老师的课程，就被其深入浅出的讲解风格所吸引。老师不仅有着深厚的技术功底，更具备出色的教学能力，能够将复杂的C++知识以通俗易懂的方式呈现出
PyQt6医疗多模态大语言模型（MLLM）实用系统框架构建初探（下.代码部分） Allen_LVyingbo 医疗高效编程研发 python 健康医疗 python pyqt 语言模型人工智能
医疗MLLM框架编程实现本医疗MLLM框架结合Python与PyQt6构建，旨在实现多模态医疗数据融合分析并提供可视化界面。下面从数据预处理、模型构建与训练、可视化界面开发、模型-界面通信与部署这几个关键部分详细介绍编程实现。6.1数据预处理在医疗MLLM框架中，多模态数据的预处理是非常关键的一步，它直接影响到后续模型的训练效果和性能。我们需要对医学影像、文本数据和音频数据分别进行预处理，以确保数
【Python】红旗超市线下缴电费用户数据分析及可视化（pandas+pyecharts）风度78 百度人工智能 python 机器学习数据分析
场景分析：一部分用户习惯在红旗超市线下进行缴电费，电力公司希望了解哪些用户喜欢到线下缴费，具体分布在哪里，才能有针对性地宣传掌上电力app引导用户体验更高效的线上缴费方式，提升用户满意度。需求分析：首先要拿到红旗超市线下缴费清单数据，对所有数据进行隐私化处理，数据预览如图所示：可以看出台区名称为本项目的核心字段，通过台区匹配到经纬度信息，然后利用经纬度信息进行线下缴费热力图展示。同时可以提供分析报
浅谈人群扩展（lookalike）模型 eso1983 算法
Lookalike主要用于广告或者推荐系统中，找到与种子用户相似的人群。常用的算法应该包括协同过滤、基于标签的相似度计算，还有一些机器学习模型，比如逻辑回归、随机森林，以及深度学习的模型，比如DNN或者Embedding方法。这里简单介绍一下Lookalike人群扩展（相似人群扩展）中常用算法模型的解析，涵盖原理、数学公式、实现步骤、优缺点及适用场景。1.基于标签的相似度匹配原理通过用户标签（兴趣
基于Python的天气数据可视化平台 q.q 1102255374 python 信息可视化开发语言
摘要：随着社会多元化的不断发展，天气数据问题不可被简单的理解为是科学问题，更多的是环境问题，可以直接影响到人民的日常生活，甚至对一个国家的政治经济带来影响，由此可见，天气预测是一项非常重要的行业。基于此，我们就需要开发一个可视化的、综合的、方便人们查看的项目。基于Python的天气数据可视化设计与实现，通过使用基于Python的网络爬虫技术,能在短时内提取有价值的信息数据。然后根据数据的形式进行整
Python 深度学习实战：生成对抗网络 AI天才研究院深度学习实战 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍生成对抗网络（GenerativeAdversarialNetwork，GAN）是近年来较火热的深度学习模型之一，其在图像合成、视频生成、文本数据生成等领域均取得了不俗的效果。与传统的机器学习模型不同，GAN可以生成真实有效的数据，无需人工标注数据。它由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器通过学习，根据噪声或随机变量（latentvar
ECharts：数据可视化的魔法师，偶尔也会“皮”一下 Python私教 Web 使用Vue3进行前端开发 Vue 信息可视化 echarts 前端
在数据爆炸的时代，如何从海量数据中提取有价值的信息，并将其清晰易懂地呈现出来，成为了各行各业面临的共同挑战。数据可视化作为一种有效的信息传递手段，应运而生，并逐渐成为数据分析领域不可或缺的一部分。而在众多数据可视化工具中，ECharts凭借其强大的功能、灵活的配置和丰富的图表类型，脱颖而出，成为了众多开发者的首选利器。一、ECharts：数据可视化的利器ECharts是一个由百度开源的可视化图表库
【AI+可视化工具】实现流程图快速生成 Unity青子问题解决（软件疑难杂症）深度学习 Mermaid
代码绘制流程图的工具有很多，以下是一些常用的工具：Mermaid：Mermaid是一个基于Markdown的图表语言，可以生成各种类型的图表，包括流程图、时序图、甘特图等。Mermaid可以使用JavaScript或TypeScript进行编写，可以通过Node.js运行。Graphviz：Graphviz是一个开源的图形可视化工具，可以生成各种类型的图表，包括流程图、时序图、网络拓扑图等。Gra
用文字“画出”流程图：用 AI+Mermaid.js 构建出你心中的可视化世界敏编程流程图 javascript mermaid
Mermaid介绍首先，什么是Mermaid?Mermaid.js是一款开源流程图/序列图的文本制作工具，它允许你使用简单的文本语法来创建各种类型的图表。无论你是开发者、学生还是普通用户，Mermaid.js都能帮助你将复杂的信息以直观、易懂的方式呈现出来。在AI技术的加持下，Mermaid现已支持把用户内容自动转成对应的文本语法，从而达到自动生成流程图的目地。这不仅提高了工作效率，还使非专业用户
工程项目管理流程示意图数据可视化
借助图形天下强大的关系数据可视化技术，该流程图清晰地展示了工程项目从立项到结束的完整流程。从开始的立项、文档评审，到工程量清单、价格咨询，再到招投标、签订合同、开展工程，直至最后的结算和收尾工作，每一环节都紧密相连，通过直观的图形展示，使得复杂的关系数据可视化，便于理解和管理整个项目流程。工程项目管理流程示意图这一流程不仅确保了项目的顺利推进，还有效监控
LogicFlow 一款流程图编辑框架小毛驴850 流程图
LogicFlow是什么LogicFlow是一款流程图编辑框架，提供了一系列流程图交互、编辑所必需的功能和灵活的节点自定义、插件等拓展机制。LogicFlow支持前端自定义开发各种逻辑编排场景，如流程图、ER图、BPMN流程等。在工作审批流配置、机器人逻辑编排、无代码平台流程配置都有较好的应用。官方网站更多资料请查看LogicFlow系列文章特性可视化模型：通过LogicFlow提供的直观可视化界
ROS VScode 使用笔记 zhanglianzhao 机器人技术基础 c++vscode
ROSVScode使用笔记编译快捷方式修改功能包下CMakeList.txt136行和149-151行程序如果C++文件返回的日志信息乱码，可以在程序main中开头添加下面内容在写C++程序时如果不能自动提示，需要在.vscode目录下的c_cpp_properties.json文件中的name下一行添加下面代码编译快捷方式Ctrl+Shift+B，选择第二个的小齿轮，将以下代码替换掉原先内容，保
【Origin+Python】使用External Python批量出图代码参考2 kkkkkkkkk_1201 绘图 python 开发语言
目录前情提要进阶代码1批量绘制曲线图2曲线图设置3批量绘制相同设置的曲线图去除水印前情提要基础教程见链接:【Origin+Python】使用ExternalPython批量出图代码参考这里主要介绍一些进阶代码以及使用盗版origin要如何去除水印的方法！#############################################################进阶代码########
[E题成品文章发布]2025美赛数学建模E题35页成品论文+每小问配套py+matlab代码+完整数据集+高清可视化结果图 2025数学建模资料汇总 2025美赛数学建模E题数学建模 matlab 开发语言
基于生态模型的有机农业管理策略研究：除草剂移除与物种引入的生态影响分析摘要随着全球农业可持续性需求的增加，减少化学品使用并提高农业生态系统的稳定性成为关键目标。本研究基于农业生态系统中的物种互动模型，探讨了不同农业管理方式对生态系统稳定性、害虫控制和成本效益的影响。完整版获取如下地址：点击加入【2025美国大学生数学建模竞赛】：http://qm.qq.com/cgi-bin/qm/qr?_wv=
YOLOv10-1.1部分代码阅读笔记-model.py 红色的山茶花 YOLO 笔记深度学习
model.pyultralytics\models\yolo\model.py目录model.py1.所需的库和模块2.classYOLO(Model):3.classYOLOWorld(Model):1.所需的库和模块#UltralyticsYOLO,AGPL-3.0licensefrompathlibimportPathfromultralytics.engine.modelimportMo
VScode使用笔记我的老子姓彭 vscode 笔记 ide
VScode打开keil工程的配置[STM32]从零开始的vscode连接keil教程_vscode配置keil环境-CSDN博客补充：包含头文件vscode编辑keilarm工程中遇到的问题以及解决方法-了不起的亮亮-博客园
【Lora微调】提高模型效率的创新方法 @fishv 人工智能大模型微调 Lora
前言在自然语言处理（NLP）和机器学习的研究和应用中，随着模型规模的不断扩大，模型训练的计算成本和存储需求也不断攀升。大型预训练模型，如GPT、BERT等，虽然在许多任务上表现出色，但它们的训练和微调通常需要巨大的计算资源，这使得许多研究者和开发者无法充分利用这些模型进行个性化或领域特定的调整。为了在保持模型性能的同时减少计算开销，**Lora（Low-RankAdaptation）**应运而生。
游戏引擎架构第二版中文pdf_Allen Kashiwa的游戏开发信息 weixin_39811166 游戏引擎架构第二版中文pdf
0本文首发于我的github和我的博客，欢迎大家与我交流。1基础知识与通用技能1.1语言相关1.1.1C/C++C++Primer1.1.2C#C#编程指南CLRviaC#（第4版）1.1.3LuaProgramminginLua1.1.4Python廖雪峰的Python教程1.2语言无关1.2.1算法算法图解DataStructureVisualizations算法可视化visualgoIntr
广告计算学刘鹏听课笔记 qq415581343 广告计算笔记刘鹏
1.1广告的目的三个主体：advertisermediumaudience广告是非人员的、低成本的用户接触（reach）品牌（brank）广告vs效果（direct）广告：离线转化率vs即时转化1.2广告有效性模型三个阶段选择：曝光-广告位属性；关注-减少干扰、推荐解释、符合需求；解释：理解-用户能看懂；信息接受-认同（广告位不能只看流量，要高大上）；态度：保持-艺术性带来的记忆效果；购买-价格可
数据可视化期末复习-简答题熊假猫威XStar 信息可视化数据分析数据挖掘计算机视觉数据可视化期末大学生
数据可视化的标准实用性完整性真实性艺术性交互性数据可视化的目标通过数据可视化有效呈现数据中的重要特征通过数据可视化揭示事物内部的规律和数据之间的内在联系通过数据可视化辅助人们理解事物的概念和过程通过数据可视化对模拟和测量进行质量监控通过数据可视化提高科研开发效率数据可视化的过程1.通过仪器采样、调查记录、模拟计算等方法进行数据采集2.对采集来的数据进行处理和变换，提高数据的质量3.把不同数据之间的
stable diffusion 模型和lora融合 Kun Li 图像视频生成大模型 stable diffusion
炜哥的AI学习笔记——SuperMerger插件学习-哔哩哔哩接下来学习的插件名字叫做SuperMerger，它的作用正如其名，可以融合大模型或者LoRA，一般来说会结合之前的插件LoRABlockWeight使用，在调整完成LoRA模型的权重后使用改插件进行重新打包。除了LoRA，Checkpoint也可以通过这个插件进行融合合并。实际上，目前市面上存在大量的Checkpoint模型都是经由合并
Java Web学习笔记淘气的然酱计算机学习笔记 java 学习后端
JavaWeb后端基础第1章Maven项目1.1Maven简介Maven基于项目对象模型，通过一小段描述信息来管理项目的构建、报告和文档。Maven提供了一套标准化的项目结构、构建流程和一套依赖管理机制。Maven模型：pom.xml→项目对象模型↔依赖管理模型→仓库Maven仓库包含本地仓库、中央仓库、远程仓库（私服）。Maven项目获取jar包时，首先在本地仓库寻找是否有对应jar包，若没有则
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

【机器学习】交叉验证详细解释+10种常见的验证方法具体代码实现+可视化图

你可能感兴趣的:(笔记,机器学习,交叉验证,ROC曲线,可视化)