一个语文不好的NLPer

欠拟合和过拟合——【torch学习笔记】

欠拟合和过拟合

引用翻译：《动手学深度学习》

当我们比较训练和验证误差时，我们要注意两种常见的情况。首先，我们要注意我们的训练误差和验证误差都很大，但两者之间有一点差距的情况。如果模型无法减少训练误差，这可能意味着我们的模型过于简单（即表达能力不足），无法捕捉到我们试图建模的模式。此外，由于我们的训练和验证误差之间的泛化差距很小，我们有理由相信，我们可以用一个更复杂的模型来解决。这种现象被称为欠拟合。

另一方面，正如我们上面所讨论的，我们要注意的是，当我们的训练误差明显低于验证误差时，表明严重的过拟合。请注意，过拟合并不总是一件坏事。特别是在深度学习方面，众所周知，最好的预测模型在训练数据上的表现往往远远好于保持数据。

最终，我们通常更关心验证误差而不是训练和验证误差之间的差距。我们是过拟合还是欠拟合，既取决于我们模型的复杂性，也取决于可用的训练数据集的大小，我们在下面讨论这两个话题。

一、模型复杂度

为了说明一些关于过拟合和模型复杂性的经典直觉，我们给出了一个使用多项式的例子。给出由单一特征x和相应的实值标签y组成的训练数据，我们试图找到度数为d的多项式

$y=\sum_{i=0}^d\ W^ix^i$

这只是一个线性回归问题，我们的特征是由x的幂给出的，wi是由模型的权重给出的，而偏差是由w0给出的，因为x 0 = 1为所有x。高阶多项式函数比低阶多项式函数更复杂，因为高阶多项式有更多的参数，模型函数的选择范围也更广。固定训练数据集，相对于低阶多项式，高阶多项式函数应该总是能达到较低（最差也是相等）的训练误差。事实上，只要数据点都有一个不同的x值，度数等于数据点数量的多项式函数就能完全适合训练集。我们将多项式程度和欠拟合与过拟合之间的关系可视化如下。

二、数据集大小

要记住的另一个重要考虑因素是数据集的大小。固定我们的模型，我们在训练数据集中的样本越少，我们就越有可能（也越严重）遇到过拟合的问题。随着我们增加训练数据量，泛化误差通常会减少。此外，一般来说，更多的数据永远不会有坏处。对于一个固定的任务和数据分布，模型的复杂性和数据集的大小之间通常存在着一种关系。

如果有更多的数据，我们可能会尝试拟合一个更复杂的模型，这样做是有利的。如果没有足够的数据，较简单的模型可能很难被打败。对于许多任务，深度学习只有在有成千上万的训练实例时才会胜过线性模型。在某种程度上，深度学习目前的成功要归功于目前由于互联网公司、廉价存储、连接设备和经济的广泛数字化而带来的大量数据集。

三、多项式回归

现在我们可以通过对数据进行多项式拟合来交互地探索这些概念。为了开始，我们将导入我们常用的包。

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.utils.data as Data
from torch.utils.data import TensorDataset
from torch.utils.data import DataLoader
from matplotlib import pyplot as plt

四、生成数据集

首先我们需要数据。给定x，我们将使用下面的三次方多项式来生成训练和测试数据的标签：

$y=5+1.2x-3.4\frac{x^2}{2!}+5.6\frac{x^3}{3!}+ E where E-N(0,0.1)$

噪声项ϵ服从正态分布，平均值为0，标准差为0.1。我们将为训练集和测试集各合成100个样本

max_degree=20
n_train,n_test=100,100

poly_features=torch.zeros(20,200)
true_w=torch.zeros(max_degree)
true_w[0:4] = torch.tensor([5, 1.2, -3.4, 5.6])
features = torch.randn(size=(n_train + n_test, 1))
print(len(features))
print('features_sample:',features[1:5])

200
features_sample: tensor([[ 0.2953],
        [ 0.1419],
        [ 2.3510],
        [-0.3489]])

torch.pow(input, exponent, *, out=None) → Tensor

计算两个张量或者一个张量与一个标量的指数计算结果，返回一个张量。

input和exponent都可以是张量或者标量,

1)若input和exponent都为张量，则必须维度一致；

2)若input和exponent其中一个为标量，一个为张量，标量以广播的形式进行计算

poly_features=torch.zeros(20,200)
true_w=torch.zeros(max_degree)
true_w[0:4] = torch.tensor([5, 1.2, -3.4, 5.6])
features = torch.randn(size=(n_train + n_test, 1))
# 此时len(features)=200
x_list=torch.arange(max_degree)  
# torch.arange(max_degree)生成0-max_degree-1的张量
# 如tensor([ 0,  1,  2, ..., 16, 17,18, 19])
x_list.float()
features=features.reshape(1,-1)
# 在神经网络的语义里，一组特征值对应一个标签。所以要加上reshape(-1, 1)，让特征值和标签一一对应。
for i in range(1,max_degree):
    
    poly_features[i] = torch.pow(features,i)
    
print(features[:,3])
print(poly_features[:,3])

tensor([0.5201])
tensor([0.0000e+00, 5.2013e-01, 2.7053e-01, 1.4071e-01, 7.3188e-02, 3.8067e-02,
        1.9800e-02, 1.0298e-02, 5.3564e-03, 2.7860e-03, 1.4491e-03, 7.5371e-04,
        3.9203e-04, 2.0390e-04, 1.0606e-04, 5.5163e-05, 2.8692e-05, 1.4923e-05,
        7.7620e-06, 4.0372e-06])

poly_featrues的维度与max_degree一致。

对于优化来说，我们通常希望避免梯度、损失等的非常大的数值。这就是为什么存储在poly_features中的单项式是由x重新缩放的。

它使我们能够避免大指数i的非常大的值。因数在Gluon中使用Gamma函数实现，其中n！=Γ（n+b 1）。看一下生成的数据集的前2个样本。严格来说，数值1是一个特征，即对应于偏置的常数特征

from scipy.special import factorial
ok=torch.arange(1,(max_degree) + 1).reshape((1, -1))
import numpy as np
dr=np.array(factorial(ok))
dr2=torch.from_numpy(dr)
poly_features = poly_features.double() /dr2.t()
labels = torch.matmul(true_w.double(),poly_features)
poly_features = poly_features.type(torch.FloatTensor)
labels = labels.type(torch.FloatTensor)
labels += torch.randn(200)*0.5

print('label:',labels[1:3])
print('poly_features:',poly_features[1:3])

label: tensor([-1.1956,  0.1997])
poly_features: tensor([[-3.1400e-01, -2.3480e-01, -4.6314e-01,  2.6006e-01,  1.0187e+00,
         -6.9830e-01,  4.4445e-01, -8.6985e-01,  1.0671e-01,  1.1793e+00,
         -5.5948e-01, -2.8550e-01,  3.8387e-01,  7.8964e-01, -5.4954e-01,
         -6.2641e-01,  4.0432e-01, -2.6746e-01,  7.9382e-01,  1.3878e-01,
          1.8964e-02, -3.0917e-01,  3.7844e-01,  1.1040e+00, -5.0291e-01,
         -3.3822e-01,  3.0181e-01,  9.0185e-02,  7.2134e-01, -1.6417e-02,
          1.6719e-02, -2.0597e-02,  3.8049e-01,  7.3728e-01, -4.7587e-01,
          2.5029e-01, -3.6972e-01,  2.7229e-01,  6.7817e-01, -4.5840e-01,
         -1.0192e-01,  4.4336e-01, -8.6498e-01, -6.6167e-01, -7.3390e-01,
         -3.1954e-02, -2.5319e-01, -3.1537e-01,  5.3046e-02,  3.3482e-01,
         -4.3939e-01,  1.0898e-01,  2.6033e-01, -1.5160e+00,  5.4289e-01,
          1.6894e-01,  8.1840e-02,  2.2017e-01,  4.0803e-01,  1.0349e+00,
          2.5141e-02,  4.1763e-01,  3.0520e-01, -3.4512e-01, -4.4098e-01,
         -2.4226e-01, -1.2120e-01,  3.4511e-01, -6.5298e-01, -1.6932e-03,
         -2.0895e-01, -6.9718e-01,  3.5759e-01,  3.5523e-01,  5.6842e-01,
         -1.7945e-02,  4.2711e-01, -5.7841e-01,  6.9256e-01, -1.7349e-01,
         -5.1058e-01,  5.0590e-02,  9.6669e-01,  8.3027e-01, -1.9242e-01,
          4.8091e-02, -5.8907e-01,  4.9107e-01,  4.3220e-01,  3.8178e-01,
         -2.1670e-02, -3.4599e-01, -8.0641e-01, -4.8481e-01,  4.6595e-01,
         -7.0008e-01, -1.6731e-01,  3.0853e-01, -2.0891e-01,  5.0182e-02,
         -6.8278e-01, -6.2210e-01,  2.6816e-01,  3.2911e-01,  3.2188e-02,
          2.6063e-01, -5.5399e-01, -4.2825e-01,  1.0510e+00,  3.7201e-01,
         -5.1389e-01,  5.5163e-01, -5.8923e-03,  1.2088e+00,  2.1583e-01,
          2.5300e-02, -7.1968e-01, -2.5226e-01, -5.4693e-01, -2.1076e-01,
          1.0129e-01, -1.4640e-01, -1.4477e-01,  5.2616e-01, -9.1825e-01,
          2.2752e-01,  5.7931e-01,  8.6443e-02, -1.9949e-01,  4.5472e-01,
         -1.0476e-01,  5.5642e-01, -6.1096e-01, -1.2485e-01,  6.6338e-01,
          9.2693e-02,  2.3368e-01,  3.4167e-01, -2.7173e-01,  8.4498e-01,
         -6.6640e-01,  6.0106e-01, -2.6324e-02, -6.5853e-02,  3.2732e-01,
          1.5165e-01,  5.2006e-01, -3.5379e-01,  6.1084e-02, -1.7663e-01,
          2.6346e-01, -5.1887e-01,  8.1525e-01, -8.9162e-01,  3.8223e-01,
          3.3044e-01,  4.8643e-03,  2.4476e-01, -2.9402e-01, -6.6403e-01,
         -5.7634e-01, -1.8108e-01,  3.4945e-01, -9.2972e-02,  2.6097e-01,
         -1.7739e-01,  4.4916e-01, -4.5783e-02, -5.6727e-01,  2.0923e-01,
          2.1904e-01,  8.1564e-01, -4.3642e-03,  5.0278e-01, -3.0945e-01,
         -5.2889e-01,  2.4982e-01,  8.0057e-01,  3.4643e-01, -1.0574e+00,
          3.2641e-01,  5.3184e-01, -3.5789e-01, -5.8631e-01, -1.8255e-02,
          5.2955e-01, -8.6759e-01, -1.6631e-01,  3.9272e-01,  3.0628e-01,
          9.9851e-01, -8.6854e-01,  5.3226e-01,  9.8750e-03,  6.3992e-01,
          7.8651e-01,  2.6739e-02,  4.5857e-02,  3.1480e-01, -4.6563e-01],
        [ 6.5731e-02,  3.6754e-02,  1.4300e-01,  4.5089e-02,  6.9182e-01,
          3.2509e-01,  1.3169e-01,  5.0443e-01,  7.5915e-03,  9.2720e-01,
          2.0868e-01,  5.4340e-02,  9.8239e-02,  4.1569e-01,  2.0133e-01,
          2.6160e-01,  1.0898e-01,  4.7689e-02,  4.2010e-01,  1.2840e-02,
          2.3975e-04,  6.3724e-02,  9.5478e-02,  8.1250e-01,  1.6862e-01,
          7.6262e-02,  6.0726e-02,  5.4222e-03,  3.4689e-01,  1.7968e-04,
          1.8636e-04,  2.8281e-04,  9.6513e-02,  3.6239e-01,  1.5097e-01,
          4.1764e-02,  9.1128e-02,  4.9429e-02,  3.0661e-01,  1.4009e-01,
          6.9252e-03,  1.3104e-01,  4.9879e-01,  2.9187e-01,  3.5907e-01,
          6.8071e-04,  4.2736e-02,  6.6305e-02,  1.8759e-03,  7.4734e-02,
          1.2871e-01,  7.9173e-03,  4.5180e-02,  1.5323e+00,  1.9649e-01,
          1.9028e-02,  4.4652e-03,  3.2317e-02,  1.1099e-01,  7.1396e-01,
          4.2138e-04,  1.1627e-01,  6.2099e-02,  7.9405e-02,  1.2964e-01,
          3.9126e-02,  9.7932e-03,  7.9399e-02,  2.8426e-01,  1.9112e-06,
          2.9106e-02,  3.2404e-01,  8.5246e-02,  8.4126e-02,  2.1540e-01,
          2.1469e-04,  1.2162e-01,  2.2304e-01,  3.1976e-01,  2.0066e-02,
          1.7379e-01,  1.7062e-03,  6.2300e-01,  4.5956e-01,  2.4685e-02,
          1.5418e-03,  2.3134e-01,  1.6077e-01,  1.2453e-01,  9.7172e-02,
          3.1305e-04,  7.9807e-02,  4.3353e-01,  1.5669e-01,  1.4474e-01,
          3.2674e-01,  1.8662e-02,  6.3460e-02,  2.9097e-02,  1.6788e-03,
          3.1079e-01,  2.5800e-01,  4.7940e-02,  7.2209e-02,  6.9073e-04,
          4.5286e-02,  2.0460e-01,  1.2227e-01,  7.3636e-01,  9.2261e-02,
          1.7605e-01,  2.0287e-01,  2.3146e-05,  9.7407e-01,  3.1056e-02,
          4.2672e-04,  3.4529e-01,  4.2425e-02,  1.9942e-01,  2.9612e-02,
          6.8402e-03,  1.4289e-02,  1.3973e-02,  1.8456e-01,  5.6212e-01,
          3.4510e-02,  2.2373e-01,  4.9815e-03,  2.6532e-02,  1.3784e-01,
          7.3169e-03,  2.0640e-01,  2.4884e-01,  1.0392e-02,  2.9338e-01,
          5.7280e-03,  3.6404e-02,  7.7824e-02,  4.9226e-02,  4.7599e-01,
          2.9606e-01,  2.4085e-01,  4.6198e-04,  2.8911e-03,  7.1426e-02,
          1.5332e-02,  1.8031e-01,  8.3446e-02,  2.4875e-03,  2.0799e-02,
          4.6274e-02,  1.7948e-01,  4.4309e-01,  5.2999e-01,  9.7400e-02,
          7.2794e-02,  1.5774e-05,  3.9939e-02,  5.7630e-02,  2.9396e-01,
          2.2145e-01,  2.1859e-02,  8.1412e-02,  5.7625e-03,  4.5405e-02,
          2.0978e-02,  1.3449e-01,  1.3974e-03,  2.1453e-01,  2.9184e-02,
          3.1986e-02,  4.4351e-01,  1.2697e-05,  1.6853e-01,  6.3838e-02,
          1.8648e-01,  4.1606e-02,  4.2727e-01,  8.0008e-02,  7.4544e-01,
          7.1029e-02,  1.8857e-01,  8.5389e-02,  2.2917e-01,  2.2215e-04,
          1.8695e-01,  5.0181e-01,  1.8439e-02,  1.0282e-01,  6.2539e-02,
          6.6468e-01,  5.0291e-01,  1.8887e-01,  6.5010e-05,  2.7300e-01,
          4.1240e-01,  4.7665e-04,  1.4019e-03,  6.6065e-02,  1.4454e-01]])

五、定义、训练和测试模型

我们首先定义绘图函数emilogy，其中y轴利用了对数尺度

由于我们将尝试使用不同复杂度的模型来拟合生成的数据集，我们将模型定义插入fit_and_plot函数中。多项式函数拟合中涉及的训练和测试步骤与之前描述的softmax回归相似

def semilogy(x_vals, y_vals, x_label, y_label, x2_vals=None, y2_vals=None,
legend=None, figsize=(3.5, 2.5)):
    plt.xlabel(x_label)
    plt.ylabel(y_label)
    plt.semilogy(x_vals, y_vals)
    if x2_vals and y2_vals:
        plt.semilogy(x2_vals, y2_vals, linestyle=':')
        plt.legend(legend)

def fit_and_plot(train_features,train_labels,test_features,test_labels,no_inputs):
    class LinearRegressionModel(torch.nn.Module): 
  
        def __init__(self): 
            super(LinearRegressionModel, self).__init__() 
            self.linear = torch.nn.Linear(no_inputs, 1)  
  
        def forward(self, x): 
            y_pred = self.linear(x) 
            return y_pred 

    model = LinearRegressionModel() 
    criterion = torch.nn.MSELoss(reduction='sum') 
    optimizer = torch.optim.SGD(model.parameters(), lr = 0.01)
    train_ls,test_ls=[],[]
    train_labels=train_labels.reshape(-1,1)
    train_ds=TensorDataset(train_features,train_labels)
    batch_size=10
    train_dl=DataLoader(train_ds,batch_size,shuffle=True)
    test_labels=test_labels.reshape(-1,1)
    for ep in range(100):
        for xb,yb in train_dl: 
            pred_y = model(xb) 
            loss = criterion(pred_y, yb) 
            optimizer.zero_grad() 
            loss.backward() 
            optimizer.step()
        predytr=model(train_features)
        train_ls.append((criterion(predytr,train_labels)).mean())
        predyts=model(test_features)
        test_ls.append((criterion(predyts,test_labels)).mean())    
    print('final epoch:train loss',train_ls[-1],'test Loss',test_ls[-1])
    semilogy(range(1,ep+2), train_ls,'epoch','loss',range(1,ep+2),test_ls,['train','test'])

六、三阶多项式函数拟合(正常情况)

我们首先使用一个与数据生成函数同阶的三阶多项式函数。结果显示，在使用测试数据集时，这个模型的训练错误率很低。训练后的模型参数也接近于真实值w = [5, 1.2, -3.4, 5.6]。

poly_features_t=poly_features.t()
fit_and_plot(train_features=poly_features_t[:100,0:4],train_labels=labels[:100],test_features=poly_features_t[100:,0:4],test_labels=labels[100:],no_inputs=4)

final epoch:train loss tensor(32.4263, grad_fn=) test Loss tensor(26.4059, grad_fn=)

七、线性函数拟合（欠拟合）

让我们再看一下线性函数拟合。在早期 epoch 的下降之后，进一步降低这个模型的训练错误率变得很困难。在最后一个 epoch 迭代完成后，训练错误率仍然很高。当用于拟合非线性模式（如这里的三阶多项式函数）时，线性模型容易出现欠拟合。

fit_and_plot(train_features=poly_features_t[:100,0:3],train_labels=labels[:100],test_features=poly_features_t[100:,0:3],test_labels=labels[100:],no_inputs=3)

final epoch:train loss tensor(64.4643, grad_fn=) test Loss tensor(53.6851, grad_fn=)

八、训练过拟合

现在让我们尝试用一个度数过高的多项式来训练这个模型。这里，没有足够的数据来学习高阶系数应该有接近零的值。因此，我们过于复杂的模型太容易受到训练数据中噪音的影响了。当然，我们的训练误差现在会很低（甚至比我们有正确的模型还低！），但我们的测试误差会很高。尝试不同的模型复杂度（n_degree）和训练集大小（n_subset），以获得一些对所发生情况的直觉。

fit_and_plot(train_features=poly_features_t[1:100,0:20],train_labels=labels[1:100],test_features=poly_features_t[100:,0:20],test_labels=labels[100:],no_inputs=20)

final epoch:train loss tensor(32.3802, grad_fn=) test Loss tensor(26.4659, grad_fn=)

九、总结

由于泛化错误率不能根据训练错误率来估计，简单地将训练错误率最小化并不一定意味着泛化错误率的降低。机器学习模型需要注意防止过度拟合，从而使泛化误差最小化。
验证集可以用于模型的选择（前提是不能用得太随意）。
欠拟合意味着模型无法降低训练错误率，而过拟合是指模型训练错误率远远低于测试数据集的错误率。
我们应该选择一个适当的复杂模型，避免使用不充分的训练样本

十、练习题

1、你能准确解决多项式回归问题吗？提示 - 使用线性代数。

2、多项式的模型选择

绘制训练误差与模型复杂性（多项式的度数）的关系图。你观察到了什么？
画出这种情况下的测试误差。
生成相同的数据量的函数图？

3、如果你放弃对多项式特征x i的归一化，用1/i！会发生什么？你能以其他方式解决这个问题吗？

4、你需要多少度的多项式才能将训练误差降低到0？

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
python画出分子化学空间分布（UMAP） Sakaiay python
利用umap画出分子化学空间分布图安装pipinstallumap-learn下面是用一个数据集举的例子importtorchimportumapimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfromsklearn.manifoldimportTSNEfromrdkit.Chemimport
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
golang学习笔记--MPG模型 xxzed golang #学习笔记学习笔记 golang
MPG模式：M（Machine）：操作系统的主线程P（Processor）：协程执行需要的资源（上下文context），可以看作一个局部的调度器，使go代码在一个线程上跑，他是实现从N：1到N：M映射的关键G（Goroutine）：协程，有自己的栈。包含指令指针（instructionpointer）和其它信息（正在等待的channel等等），用于调度。一个P下面可以有多个G1、当前程序有三个M,
碎片化学习笔记分享剑客写作
现在生活节奏很快，学习力成为了我们拥有的最大财富。碎片化学习是最好的。首先，不要太过自信，学会虚心学习，是我们面对现实的好方法，才能够常保新鲜。平时我们要拥有什么工具呢？1.思维导图2.写在印象笔记里3.听书，消燥耳机4.教学输出5.录音笔里面最好的方式就是教学输出法，记忆里最好。当输出时我们集中精力记忆里最好。有人认为缩短睡眠时间来学习，其实最好的方式是保持最好的睡眠，记忆力会更好。剥夺睡眠，会
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
《随园诗话》学习笔记三百零六飞鸿雪舞
卷五凡诗之传者，都在灵性五、五斗米与诗【原文】丁丑，余觅一抄书人，或荐黄生，名之纪，号星岩者，人甚朴野。偶过其案头，得句云；“破庵僧卖临街瓦，独井人争向晚泉。”余大奇之，即饷米五斗。自此欣然大用力于诗。五言句云：“云开日脚直，雨落水纹圆。竹锐穿泥壁，蝇酣落酒尊。钓久知鱼性，樵多识树名。笔残芦并用，墨尽指同磨。＂七言云：＂小窗近水寒偏觉，古木遮天曙不知。旧生萍处泥犹绿，新落花时水亦香。旧甓恐闲都贮水
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l