燏羡

深度学习笔记5：Softmax 回归 + 损失函数 + 图片分类数据集

Softmax 回归

回归 vs 分类

回归估计一个连续值
分类预测一个离散类别

应用：Kaggle上的分类问题
将人类蛋白质显微镜图片分成28类
将恶意软件分成9个类别
将恶意的Wikipedia评论分成7类

从回归到多类分类

回归

单连续数值输出
自然区间ℝ
跟真实值的区别作为损失

分类

通常多个输出
输出i是预测为第i类的置信度（置信度=可信度）

从回归到多类分类——均方损失

对类别进行一位有效编码
使用均方损失训练
最大值最为预测

从回归到多类分类——无校验比例

对类别进行一位有效编码
最大值最为预测
需要更置信的识别正确类（大余量）

从回归到多类分类——校验比例

输出匹配概率（非负，和为1）
概率y和ŷ的区别作为损失

Softmax和交叉熵损失

交叉熵常用来衡量两个概率的区别
将它作为损失
其梯度是真实概率和预测概率的区别

总结

Softma回归是一个多类分类模型
使用Softmax操作子得到每个类的预测置信度
使用交叉熵来衡量预测和标号的区别

损失函数

均方损失函数（L2 Loss）

公式：

图：

蓝色：当y=0时，变化预测值y‘的函数

绿色：似然函数（高斯分布）

橙色：损失函数的梯度（一次函数过原点）

梯度走向：

梯度下降对负梯度方向进行更新参数的，所以导数决定如何更新参数。当预测值y’和真实值y相隔远，梯度比较大，参数更新就比较多，当预测值随着靠近真实值时，靠近原点的时候，梯度绝对值会变的越来越小，参数更新幅度也越来越小。

坏处：离原点比较远的时候，不希望很大的更新参数

绝对值损失函数（L1 Loss）

公式：

图：

蓝色：损失函数的曲线，即当y=0时候的样子

绿色：似然函数（注：尖点）

橙色：损失函数的梯度（当y‘>0，导数为1，当y‘<0，导数为-1；都为常数）

梯度走向：

当预测值和真实值相隔远的话，梯度永远都是常数，参数更新就不会特别大，带来稳定性的好处

坏处：零点处不可导，在零点处有一个正1和负1之间剧烈的变化，不平滑性，当优化到末期在这个地方可能不太稳定

Huber’s Robust Loss（上面两种损失的结合）

公式、图：

梯度走向：

蓝色：损失函数的曲线

绿色：似然函数

橙色：损失函数的梯度（当y‘>1或y‘<-1时，导数为常数，当-1

代码实现

图像分类数据集

MNIST数据集是图像分类中广泛使用的数据集之一，但作为基准数据集过于简单。我们将使用类似但更复杂的Fashion-MNIST数据集

%matplotlib inline
import torch
import torchvision #计算机视觉实现的库
from torch.utils import data
from torchvision import transforms #tranforms对数据进行操作的模具
from d2l import torch as d2l

d2l.use_svg_display() #使用svg显示图片 清晰度高

通过框架中的内置函数将 Fashion-MNIST 数据集下载并读取到内存中

#通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式
#并除以255使得所有像素的数值均在0到1之间
trans = transforms.ToTensor() #图片转成tensor
mnist_train = torchvision.datasets.FashionMNIST(
    root="../data", train=True, #下载训练数据集，放在data文件夹下
    transform=trans, #tensor的数据集而不是图片
    download=True) #默认从网上下载
mnist_test = torchvision.datasets.FashionMNIST(
    root="../data", train=False, #下载测试集
    transform=trans, download=True)

len(mnist_train), len(mnist_test)

结果：(60000, 10000)

mnist_train[0][0].shape #第0个样本第一张图片的形状

结果：torch.Size([1, 28, 28])

两个可视化数据集的函数

def get_fashion_mnist_labels(labels):  
    """返回Fashion-MNIST数据集的文本标签。"""
    text_labels = [
        't-shirt', 'trouser', 'pullover', 'dress', 'coat', 'sandal', 'shirt',
        'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]

def show_images(imgs, num_rows, num_cols, titles=None, scale=1.5):  
    """Plot a list of images."""
    #使用matplotlib来画出图片
    figsize = (num_cols * scale, num_rows * scale)
    _, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize)
    axes = axes.flatten()
    for i, (ax, img) in enumerate(zip(axes, imgs)):
        if torch.is_tensor(img):
            ax.imshow(img.numpy())
        else:
            ax.imshow(img)
        ax.axes.get_xaxis().set_visible(False)
        ax.axes.get_yaxis().set_visible(False)
        if titles:
            ax.set_title(titles[i])
    return axes

几个样本的图像及其相应的标签

X, y = next(iter(data.DataLoader(mnist_train, batch_size=18))) #next拿到第一批数据量
show_images(X.reshape(18, 28, 28), 2, 9, titles=get_fashion_mnist_labels(y)); #shape是（18，28，28） 分成2行 9列

结果：

这里分了两次截图，可以将2行9列改成其他数值

读取一小批量数据，大小为batch_size

batch_size = 256

def get_dataloader_workers():  
    """使用4个进程来读取数据。"""
    #根据cpu选择大小
    return 4

train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True,
                             num_workers=get_dataloader_workers())

timer = d2l.Timer() #测试速度
for X, y in train_iter:
    continue
f'{timer.stop():.2f} sec'

结果：‘5.71 sec’

定义 load_data_fashion_mnist 函数使得之后重用

def load_data_fashion_mnist(batch_size, resize=None):  
    """下载Fashion-MNIST数据集，然后将其加载到内存中。resize:之后使用的模型如果想使图片变大，就可以用resize"""
    trans = [transforms.ToTensor()]
    if resize:
        trans.insert(0, transforms.Resize(resize))
    trans = transforms.Compose(trans)
    mnist_train = torchvision.datasets.FashionMNIST(root="../data",
                                                    train=True,
                                                    transform=trans,
                                                    download=True)
    mnist_test = torchvision.datasets.FashionMNIST(root="../data",
                                                   train=False,
                                                   transform=trans,
                                                   download=True)
    return (data.DataLoader(mnist_train, batch_size, shuffle=True,
                            num_workers=get_dataloader_workers()),
            data.DataLoader(mnist_test, batch_size, shuffle=False,
                            num_workers=get_dataloader_workers()))

train_iter, test_iter = load_data_fashion_mnist(32, resize=64)
for X, y in train_iter:
    print(X.shape, X.dtype, y.shape, y.dtype)
    break

结果：torch.Size([32, 1, 64, 64]) torch.float32 torch.Size([32]) torch.int64

softmax回归的从零开始实现

就像我们从零开始实现线性回归一样，你应该知道实现softmax的细节

import torch
from IPython import display
from d2l import torch as d2l

batch_size = 256 #随机读取256张图片
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size) 
#之前定义如何读取Fashion-MNIST数据集 这里直接调用返回训练集和测试集

将展平每个图像，把它们看作长度为784的向量。因为我们的数据集有10个类别，所以网络输出维度为 10

num_inputs = 784 #28*28=784向量
num_outputs = 10 

W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True) #定义w，形状是（784，10）
b = torch.zeros(num_outputs, requires_grad=True) #偏移b 长为10的向量

给定一个矩阵X，我们可以对所有元素求和

X = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]]) #形状（2，3）的矩阵
X.sum(0, keepdim=True), X.sum(1, keepdim=True)

结果：

(tensor([[5., 7., 9.]]),
tensor([[ 6.],
[15.]]))

实现softmax

def softmax(X):
    X_exp = torch.exp(X) #指数计算
    partition = X_exp.sum(1, keepdim=True) #每一行进行求和
    return X_exp / partition #使用了广播机制 每个元素除以partition

我们将每个元素变成一个非负数。此外，依据概率原理，每行总和为1

X = torch.normal(0, 1, (2, 5)) #2行5列 正态分布
X_prob = softmax(X) 
X_prob, X_prob.sum(1) #softmax之后所有值为正且行加起来为1

结果：

(tensor([[0.2191, 0.2060, 0.0295, 0.0664, 0.4790],
[0.4143, 0.1119, 0.1537, 0.0555, 0.2646]]),
tensor([1., 1.]))

实现softmax回归模型

def net(X):
    return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b) #X形状（256，784）

创建一个数据y_hat，其中包含2个样本在3个类别的预测概率，使用y作为y_hat中概率的索引

y = torch.tensor([0, 2])
y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
y_hat[[0, 1], y] #对0号样本拿出y[0]所对应的元素，对1号样本拿出y[1]所对应的元素（感觉像是双重索引）

结果：tensor([0.1000, 0.5000])

实现交叉熵损失函数

def cross_entropy(y_hat, y):
    return -torch.log(y_hat[range(len(y_hat)), y]) 

cross_entropy(y_hat, y)

结果：tensor([2.3026, 0.6931])

分类问题：将预测类别与真实 y 元素进行比较

#函数表示：找出来预测正确的样本数，再除以y的长度就是预测正确的概率
def accuracy(y_hat, y):  
    """计算预测正确的数量。"""
    if len(y_hat.shape) > 1 and y_hat.shape[1] > 1: #y_hat是一个二维矩阵，shape大于1 列数也大于1
        y_hat = y_hat.argmax(axis=1) #每行元素值最大的下标存到y_hat 这是预测分类的类别
    cmp = y_hat.type(y.dtype) == y #y_hat的数据类型转成y的数据类型，然后相比较
    return float(cmp.type(y.dtype).sum()) #将cmp转成y的类型，再求和

accuracy(y_hat, y) / len(y)

结果：0.5

我们可以评估在任意模型 net 的准确率

#函数表示：给出一个模型和数据迭代器，计算模型在数据集上的精度
def evaluate_accuracy(net, data_iter):  
    """计算在指定数据集上模型的精度。"""
    if isinstance(net, torch.nn.Module): #如果是一个torch.nn模型
        net.eval() #将模型设置为评估模式
    metric = Accumulator(2) #正确预测数、预测总数
    for X, y in data_iter: #每次拿到的批量
        metric.add(accuracy(net(X), y), y.numel()) 
    return metric[0] / metric[1]

Accumulator 实例中创建了 2 个变量，用于分别存储正确预测的数量和预测的总数量

class Accumulator:  
    """在`n`个变量上累加。"""
    def __init__(self, n):
        self.data = [0.0] * n

    def add(self, *args):
        self.data = [a + float(b) for a, b in zip(self.data, args)]

    def reset(self):
        self.data = [0.0] * len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]

evaluate_accuracy(net, test_iter)

结果：0.0905

Softmax回归的训练

def train_epoch_ch3(net, train_iter, loss, updater):  
    """训练模型一个迭代周期（定义见第3章）。"""
    if isinstance(net, torch.nn.Module): #如果是nn模具
        net.train() #开启训练模式
    metric = Accumulator(3) #长度为3的迭代器 来累积需要信息
    for X, y in train_iter: #扫描数据
        y_hat = net(X) #计算y_hat
        l = loss(y_hat, y) #损失函数计算l 
        if isinstance(updater, torch.optim.Optimizer):  #如果updater是pytorch的一个买者
            updater.zero_grad() #梯度设为0
            l.backward() #计算梯度
            updater.step() #更新参数
            metric.add( #样本数 累加数 正确的分类数 放到累加器里面
                float(l) * len(y), accuracy(y_hat, y), 
                y.size().numel())
        else:  #如果从头开始实现
            l.sum().backward() #l是一个向量 求和算梯度
            updater(X.shape[0]) 
            metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())
    return metric[0] / metric[2], metric[1] / metric[2] 
#返回结果：损失/样本总数，所有分类正确的样本数/ 总样本数

定义一个在动画中绘制数据的实用程序类

class Animator:  
    """在动画中绘制数据。"""
    def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,
                 ylim=None, xscale='linear', yscale='linear',
                 fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,
                 figsize=(3.5, 2.5)):
        if legend is None:
            legend = []
        d2l.use_svg_display()
        self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)
        if nrows * ncols == 1:
            self.axes = [self.axes,]
        self.config_axes = lambda: d2l.set_axes(self.axes[
            0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
        self.X, self.Y, self.fmts = None, None, fmts

    def add(self, x, y):
        if not hasattr(y, "__len__"):
            y = [y]
        n = len(y)
        if not hasattr(x, "__len__"):
            x = [x] * n
        if not self.X:
            self.X = [[] for _ in range(n)]
        if not self.Y:
            self.Y = [[] for _ in range(n)]
        for i, (a, b) in enumerate(zip(x, y)):
            if a is not None and b is not None:
                self.X[i].append(a)
                self.Y[i].append(b)
        self.axes[0].cla()
        for x, y, fmt in zip(self.X, self.Y, self.fmts):
            self.axes[0].plot(x, y, fmt)
        self.config_axes()
        display.display(self.fig)
        display.clear_output(wait=True)

训练函数

def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater):  
    """训练模型（定义见第3章）。"""
    animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],
                        legend=['train loss', 'train acc', 'test acc']) #可视化的animator（可忽略）
    for epoch in range(num_epochs): #扫描n遍数据
        train_metrics = train_epoch_ch3(net, train_iter, loss, updater) #训练一次
        test_acc = evaluate_accuracy(net, test_iter) #在测试数据集上评估精度
        animator.add(epoch + 1, train_metrics + (test_acc,)) #显示
    train_loss, train_acc = train_metrics
    assert train_loss < 0.5, train_loss
    assert train_acc <= 1 and train_acc > 0.7, train_acc
    assert test_acc <= 1 and test_acc > 0.7, test_acc

小批量随机梯度下降来优化模型的损失函数

lr = 0.1

def updater(batch_size):
    return d2l.sgd([W, b], lr, batch_size)

训练模型10个迭代周期（开始训练）

num_epochs = 10
train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, updater)
#蓝色：训练损失 红色：训练数据集上的精度 绿色：测试上的精度（关注）

结果：

对图像进行分类预测

def predict_ch3(net, test_iter, n=6):  
    """预测标签（定义见第3章）。"""
    for X, y in test_iter:
        break
    trues = d2l.get_fashion_mnist_labels(y) #真实标号
    preds = d2l.get_fashion_mnist_labels(net(X).argmax(axis=1)) #预测标号
    titles = [true + '\n' + pred for true, pred in zip(trues, preds)]
    d2l.show_images(X[0:n].reshape((n, 28, 28)), 1, n, titles=titles[0:n])

predict_ch3(net, test_iter)
d2l.plt.show()

结果：

softmax回归的简洁实现

通过深度学习框架的高级API能够使实现 softmax 回归变得更加容易

import torch
from torch import nn
from d2l import torch as d2l

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

Softmax 回归的输出层是一个全连接层

#pytorch不会隐式地调整输入的形状
#因此，我们定义了展平层（flatten）在线性层前调整网络输入的形状
net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10)) #sequential构造器里面

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights);

在交叉熵损失函数中传递未归一化的预测，并同时计算softmax及其对数

loss = nn.CrossEntropyLoss(reduction='none')

使用学习率为0.1的小批量随机梯度下降作为优化算法

trainer = torch.optim.SGD(net.parameters(), lr=0.1)

调用之前定义的训练函数来训练模型

num_epochs = 10
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

结果：

Java基础笔记（小白友好版）代码什么的真不会呀 java 笔记开发语言
Java基础笔记（小白友好版）1.Java简介Java是一种广泛使用的计算机编程语言，由詹姆斯·高斯林（JamesGosling）在1995年创建Java的口号是"一次编写，到处运行"（WriteOnce,RunAnywhere）Java程序需要先编译成字节码（.class文件），然后在Java虚拟机（JVM）上运行主要特点：面向对象：一切皆对象，代码更清晰易懂平台无关性：可以在Windows、M
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
从零至巅：逆向爬虫之道 0_0 蓝花楹下逆向爬虫爬虫
逆向爬虫-涅槃吾本一介凡鸟，栖于尘世，碌碌无为，浑浑噩噩，如沧海一粟，渺小而无足轻重。然，虽为小雀，心亦怀鸿鹄之志，欲挥羽向天，如凤凰般，翱翔九天，俯瞰苍茫大地。奈何羽翼未丰，学识浅薄，常感力不从心，困于樊笼，不得展翅高飞。然，吾深知，学如逆水行舟，不进则退。故，今执笔为记，以明志，以自勉。愿以此笔记为舟，载吾渡学海，以勤为桨，以思为帆，逐浪前行，终至彼岸。虽前路漫漫，荆棘丛生，然吾心坚定，誓不负
Netty源码—3.Reactor线程模型四东阳马生架构 Netty应用与源码 Netty Reactor线程模型
大纲5.NioEventLoop的执行总体框架6.Reactor线程执行一次事件轮询7.Reactor线程处理产生IO事件的Channel8.Reactor线程处理任务队列之添加任务9.Reactor线程处理任务队列之执行任务10.NioEventLoop总结8.Reactor线程处理任务队列之添加任务(1)Reactor线程执行一次事件轮询的过程(2)任务的分类和添加说明(3)普通任务的添加(4
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
ruoyi 小程序使用笔记万变不离其宗_8 笔记小程序笔记
1.上传图片页面jsimportuploadfrom'@/utils/upload.js'methods:{upload(){constconfig={filePath:this.$refs.imageUploadRetire.files[0].path,url:'/api/common/file/upload'}upload(config).then(res=>{this.form.retire
【猫狗分类】Pytorch VGG16 实现猫狗分类1-数据清洗+制作标签文件努力的小巴掌 pytorch分类项目 pytorch 分类人工智能
Pytorch猫狗分类用Pytorch框架，实现分类问题，好像是学习了一些基础知识后的一个小项目阶段，通过这个分类问题，可以知道整个pytorch的工作流程是什么，会了一个分类，那就可以解决其他的分类问题，当然了，其实最重要的还是，了解她的核心是怎么工作的。那首先，我们的第一个项目，就做猫狗的分类。声明：整个数据和代码来自于b站，链接：使用pytorch框架手把手教你利用VGG16网络编写猫狗分类
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
mysql总结 tianyunlinger 大数据 mysql 数据库
MySQL基础1.数据库基本介绍数据库定义：用于存储数据的仓库，通过SQL语句操作。数据库作用：存储应用程序中的数据，便于管理和查询。数据库分类：关系型数据库（如MySQL、Oracle、DB2）和非关系型数据库（如Redis、HBase）。关系型数据库：通过E-R图描述数据之间的关系，支持复杂查询。2.MySQL在Linux中的安装安装前准备：配置防火墙、创建统一的管理目录（如/export/s
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
GS-SLAM论文阅读笔记-MGSO zenpluck GS论文阅读论文阅读笔记
前言MGSO首字母缩略词是直接稀疏里程计(DSO)，我们建立的光度SLAM系统和高斯飞溅(GS)的混合。这应该是第一个前端用DSO的高斯SLAM，不知道这个系统的组合能不能打得过ORB-SLAM3，以及对DSO会做出怎么样的改进以适应高斯地图，接下来就看一下吧！GishelloG^s_ihelloGishello我是红色文章目录前言1.背景介绍2.关键内容2.1SLAMmodule2.2Dense
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
CCF CSP 历年真题 C语言版满分代码集合 (至2021.9 持续更新中 JY_0329 CCF c语言开发语言 csp ccf 算法
CCFCSP历年真题C语言版满分代码集合（全部原创）2021-9-1数组推导2021-9-2非零段划分2021-4-1灰度直方图2021-4-2领域均值2020-12-1期末预测之安全指数2020-12-2期末预测之最佳阈值2020-9-1称检测点查询2020-9-2风险人群筛查2020-6-1线性分类器2020-6-2稀疏向量2019-12-1报数2019-12-2回收站选址2019-9-1小明
python学智能算法（八）|决策树西猫雷婶人工智能 python学习笔记机器学习 python 决策树开发语言
【1】引言前序学习进程中，已经对KNN邻近算法有了探索，相关文章链接为：python学智能算法（七）|KNN邻近算法-CSDN博客但KNN邻近算法有一个特点是：它在分类的时候，不能知晓每个类别内事物的具体面貌，只能获得类别，停留在事物的表面。为了进一步探索事物的内在特征，就需要学习新的算法。本篇文章就是在KNN的基础上学习新算法：决策树。【2】原理分析在学习决策树执之前，需要先了解香农熵。本科学控
家用笔记本换装centos7当服务器全流程吕域服务器 windows 电脑 centos
目录1、安装centos7系统硬件准备软件和镜像准备制作启动盘2、网络连接和ssh远程登陆centos7连接网络ssh远程登陆3、笔记本闭盖不休眠（7*24小时可用）4、定时开关机（省电、保护电脑）5、配置开发环境（此处以python为例，非必要项，示需求安装）1、安装centos7系统硬件准备老旧淘汰笔记本一台（新笔记本不合算，舍不得）一个大于8G的U盘网线一根（后续联网用）软件和镜像准备软件U
CentOS 7.x 快速搭建ARK服务器 Aorsion Linux ark server ark server centos 方舟服务器搭建Linux 方舟开服教程方舟多人联机
本人菜鸟一枚，最近喜欢上了ark，也找到了2个基友，但是在别的服玩的不是很开心（非人民币玩家，你们懂），刚好有台闲置的拯救者14笔记本，i7-4720HQ、16G内存、128G三星970pro，1T机械，索性拿来装个Centos7.6搭个服自己玩,就多点电费的事，下面把自己折腾一天的开服经历做个笔记留给和我一样的童鞋，喜欢开服工具的请绕道友情提醒：ARK需要大量内存，建议使用至少具有6GBRAM以
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
docker-compose笔记 Re_Virtual docker docker 笔记容器
docker目前docker官网已经无法登录，但是还可以从清华镜像站（https://mirrors.tuna.tsinghua.edu.cn/docker-ce/）下载。使用方法可以参考早期文章《docker笔记》docker-compose可以从Github下载不同版本的二进制文件，例如docker-compose-linux-x86_64。下载完成后，将二进制文件复制入路径，例如/usr/l
自学黑客技术多长时间能达到挖漏洞的水平？慕烟疏雨网络安全 web安全安全网络运维
抱着一个明确的目的去学习，学习效果能够事半功倍，给你点个赞。但值得注意的一个点是：任何未经授权的挖洞行为，都是违法的！！！任何未经授权的挖洞行为，都是违法的！！！任何未经授权的挖洞行为，都是违法的！！！这一点一定要切记！！！！！！！接下来回归主题，你想挖漏洞做副业这个想法是好的，但有时候理想很丰满，现实很骨干。从提问描述来看，你之前应该没有深入了解过网络安全，为了避免后面说的东西你理解不了，那我就
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

深度学习笔记5：Softmax 回归 + 损失函数 + 图片分类数据集

Softmax 回归

回归 vs 分类

从回归到多类分类

从回归到多类分类——均方损失

从回归到多类分类——无校验比例

从回归到多类分类——校验比例

Softmax和交叉熵损失

总结

损失函数

均方损失函数（L2 Loss）

绝对值损失函数（L1 Loss）

Huber’s Robust Loss（上面两种损失的结合）

代码实现

图像分类数据集

softmax回归的从零开始实现

softmax回归的简洁实现

你可能感兴趣的:(深度学习（pytorch）笔记,深度学习,回归,分类)