淳纯纯纯纯

U-Net学习笔记及Pytorch实战训练细节

文章目录

前言
一、卷积和核(Convolution and Kernels)
- 1.什么是卷积
- 2.什么是核
二、卷积层与全连接层的共同点
- 1.全连接层(Fully-connection)
- 2.卷积层1×1
三、U-Net
- 1.反卷积
- 2.U-Net结构
四、U-Net实战(Pytorch)
- 1.项目描述
- 2.搭建U-Net
- - 2.1卷积层
  - 2.2上采样层
  - 2.3完成U-Net结构搭建
- 3.数据集定义
- 4.训练
- 5.预测
参考链接

前言

因为毕设需要针对遥感影像进行语义分割，在这里记录一下自己学习的心路历程。

提示：以下是本篇文章正文内容，下面案例可供参考

一、卷积和核(Convolution and Kernels)

1.什么是卷积

卷积和加法、乘法一样，只是一种数学运算，选择不同的内核，如“锐化”、“边缘检测”、“滤波”等，通过内核与原图像进行卷积，便能实现相应的功能。
例如，让我们找下图A的轮廓（边缘）。

A
给出一个内核如下：

查找垂直方向(Finds verticals) 卷积运算如下：将核所覆盖的像素值与相应的核值相乘，乘积相加后作为新图像中与核中心相对应的点的值。具体如下图：

卷积第一步 之后，蓝色区域(核)开始移动，根据不同的步幅(stride)能得到不同尺寸的结果图像，当stride=1时，蓝色区域每次移动一个格子，从左往右从上往下，直到遍历完原始图像：

卷积运算完整过程 观察上图，发现原图像大小为5×5，卷积后的图像大小为3×3，这是由于卷积运算后的求和值只放置在内核中心点导致的，如果你想得到尺寸与原始图像相同的结果图像，可以使用填充(padding)操作，下图用0像素将原始图像padding为7×7，经过卷积后，得到结果图像为5×5。

使用0填充，结果图像与填充前的原始图像有同样大小 现在回到图A(上面的安卓标志)，采用Vertical Sobel(核)卷积后的结果如下：

Vertical Sobel

2.什么是核

感谢前人的大量研究，我们有了很多功能明确的核，例如上文的Vertical Sobel，可以提取图像的垂直信息，但是我们应该思考两个问题：
①我们并不知道需要用到怎样的核；
②假设你知道需要怎样功能的核，但并不是所有我们需要的核都被明确的开发出来了
因此，核中的值应该是被当做参数，通过误差反向传播、优化“学”出来的。就和简单的神经网络一样。
具体怎么理解呢？
首先，我们应该有这么一个认识：一个8×8的图像，一共有64个像素点，每个像素点的值都是它的一个特征，也就是输入的一个节点，通过卷积，结果会被放入到另一些节点，即隐藏节点，而核中的每个值对应着输入节点与隐藏节点的联系，即权重。这些权重以与普通神经网络完全相同的方式学习：首先随机初始化核值，将卷积后的结果与实际输出进行比较(然后对其进行误差反向传播和优化)，最终迭代出新的核值。如果输入图像是二维的(即单通道)，那么针对某一个功能的核(例如下图的绿色核)也是二维的，当你想提取四类特征时候，就应该采用4个二维核：

输入为单通道图像 当输入图像为多通道时(如正常的RGB三通道图像)，不同功能核的尺寸也应该变成三维(核的不同颜色代表不同功能，如边缘、锐化、或其他不知名特征类)，针对某一个功能核(如绿色核)对应通道分别卷积，再最终求和(三个通道对应位置相加)，得到的最终结果依旧是单通道的， 这个单通道结果矩阵的每一个值，代表的是输入图像的某个像素或某些像素在绿色核所代表的高维特征中的情况。下图最终会输出四个单通道结果(绿、黄、蓝、粉)，表示的是原图像在不同高维特征中的情况。

输入为三通道图像 在pytorch构建卷积层时，in_channels代表输入图像通道数，out_channels代表卷积产生的通道数，即高维特征数，在上图中分别为：in_channels=3,out_channels=4. `torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)`

二、卷积层与全连接层的共同点

在一个识别X与O的任务中，我们输入一张图像，经过一系列卷积层、池化层后，得到了3×2×2的特征图：

得到3×2×2的特征图

1.全连接层(Fully-connection)

全连接层所扮演的角色是主要建构单元，当我们向这个单元输入图片时，它会将所有像素的值当成一个一维清单，而不是前面的二维矩阵，清单里的每个值都可以决定图片中的符号是O还是X，不过这场选举并不全然民主。由于某些值可以更好地判别叉，有些则更适合用来判断圈，这些值可以投的票数会比其他值还多。所有值对不同选项所投下的票数，将会以权重（weight）的方式来表示。下图连接线的不同粗细代表权重的高低。

全连接层

2.卷积层1×1

全连接层的结果是输入图像归属某类的强度，但很多时候我们需要得到的是输入图像中各个像素归属某类的强度，此时可以用1×1的卷积层来等价代替全连接层。
下图展示了1×1卷积核的计算，输出中的每个元素来自输入中在高和宽上相同位置的元素在不同通道间的按权重累加，这与上文的卷积运算相同。假设我们将通道维当作特征维，每个像素位置当成一个数据样本，那么一个样本是1×3，共有9个样本，输入为9×3。于是下图实际上是9个全连接层的组合，每组样本与核的卷积输出就相当于一个全连接层输出，下图的两个通道维对应着两个输出类别。

1×1卷积层

三、U-Net

1.反卷积

经过上面的学习我们知道，卷积会导致尺寸变小，为了使得输入输出图像有相同的尺寸，我们会填充原图像(padding)。

原图(蓝)填充后再卷积输出同尺寸结果(绿) 如果将原图继续往外扩大，结果图像比原图尺寸更大，这就是反卷积，也称为 上采样。

2.U-Net结构

U-Net: Convolutional Networks for Biomedical Image Segmentation

U-net结构（以最低分辨率的32x32像素为例）。每个蓝盒对应于一个多通道的特征图。通道的数量表示在盒子的顶部。X-Y尺寸在盒子的左下角提供。白框代表复制的特征图。箭头表示不同的操作。

U形的结构非常简洁优雅，灰色的箭头是Skip Connection，是将不同深度的下采样层的输出裁剪后与同深度的上采样层的输入叠加，叠加结果为通道数加倍，目的在于保留下采样中部分损失的特征信息。绿色的箭头是反卷积，产生的结果是通道数减半但尺寸加倍。最后一层采用了1×1卷积层，目的是二分类。

为什么最终输出图片尺寸与输入图片尺寸不同呢？原论文中首先对数据进行了镜像填充，可以减少有效数据的损失。此外，有些图像尺寸较大(如遥感影像)，需要分块输入，之后再拼接结果，这样做还可以避免拼接过程中边缘部分不连接问题。

无缝分割策略 为什么卷积核数量是64、128、...、1024？这是根据实验结果好坏人为设置的，卷积核越多特征提取越充分，但计算量也会越大，也可能产生冗余信息。 为什么会翻倍增长呢？因为下采样时图像高宽缩小一倍，将卷积核增多一倍也是为了保留更多信息。

为什么是四层深网络，而不是五层、六层，网络越深精度会越高吗？针对不同的训练数据，会有不同的最佳网络深度，网络过深会出现“退化”现象，即随着网络层数变多，训练误差反而降低了。

强烈推荐阅读：研习U-Net

四、U-Net实战(Pytorch)

1.项目描述

复现原论文中的医学图像分割实验，共有30张原始图像，分辨率为512×512。

原始图像(左)，对应标签(右)

2.搭建U-Net

根据U-Net的结构，首先重现卷积池化层与上采样层，最后再在Unet中按顺序连接起来。

2.1卷积层

导入模块，实现卷积层

import torch
import torch.nn as nn
import torch.nn.functional as F
from torchsummary import summary

#1.模型搭建
#***数据tensor是四维的(N,C,H,W)
#①卷积层
class Unetconv(nn.Module):
    def __init__(self,in_channels,out_channels):
        super(Unetconv,self).__init__()
        
        self.conv1=nn.Sequential(
            nn.Conv2d(in_channels,out_channels,kernel_size=3,stride=1,padding=0),
            nn.ReLU(inplace=True),#inplace=True，节省内存开销
        )
        self.conv2=nn.Sequential(
            nn.Conv2d(out_channels,out_channels,kernel_size=3,stride=1,padding=0),
            nn.ReLU(inplace=True),
        )
    
    def forward(self,X):
        X=self.conv1(X)
        outputs=self.conv2(X)
        return outputs

2.2上采样层

Attention 1:在最后一行的torch.cat()中，我们需要数据在通道维进行叠加，而网络中的数据是四维的，(批大小,通道数,高,宽)，dim=0时按批叠加，dim=1时按通道数叠加，大家可以动手实现下面这个例子来加深理解。

x=torch.randn(1,2,3)
print("x.shape:",x.shape)
print("dim1.shape:",torch.cat((x,x),dim=1).shape)
print("dim2.shape:",torch.cat((x,x),dim=2).shape)

输出：
x.shape: torch.Size([1, 2, 3])
dim1.shape: torch.Size([1, 4, 3])
dim2.shape: torch.Size([1, 2, 6])

Attention 2:反卷积层的输出通道数为in_channels//2(//为向下取整除法)，但进入卷积层的张量是torch.cat()后的，因此Unetconv的输入通道数是in_channels.

Attention 3:torch.cat()要求待叠加张量在除叠加维度外的其他维相同，例如按通道维叠加，那么另外三个维度应该完全相同(批大小、高、宽)。批大小是人为给定一定相同，高和宽是不同的，因此需要对高、宽进行裁剪(crop)，也就是U-Net结构中的copy and crop，pad=[左，右，上，下]，数组中的数大于0为填充，小于0为裁剪，例如“左=-2”则原图像裁剪两列。详细见：functional.pad()说明文档

#②上采样层
class upconv(nn.Module):
    def __init__(self,in_channels, out_channels):
        super(upconv,self).__init__()
        
        self.conv=Unetconv(in_channels, out_channels)
        #①反卷积
        self.upconv1=nn.ConvTranspose2d(in_channels, in_channels//2, kernel_size=2, stride=2)
        #②skip connection，数据合并
    def forward(self,inputs_R,inputs_U):
        #self,x2,x1
        outputs_U=self.upconv1(inputs_U)
        offset=outputs_U.size()[-1]-inputs_R.size()[-1]
        pad=[offset//2,offset-offset//2,offset//2,offset-offset//2]        # 2*[1,1]=[1,1,1,1]
        outputs_R=F.pad(inputs_R,pad)
        
        #这里教程写的dim=1，但torch(c,h,w)，我觉得dim=0的时候才是通道相加
        #tensor是四维的，所以dim=1，即按三维拼接
        return self.conv(torch.cat((outputs_U,outputs_R),dim=1))

2.3完成U-Net结构搭建

在最后的1×1卷积层中，为了使得输出结果与原始图像有相同尺寸，使用了Upsample层，这并不是最好的办法。

#③完成U-net构建
#in_channels:图片维度
#n_classes:最终分类数
class Unet(nn.Module):
    def __init__(self,in_channels=3,n_classes=1):
        super(Unet,self).__init__()
        self.in_channels=in_channels
        
        filters=[64,128,256,512,1024]  
        
        #下采样
        self.conv1=Unetconv(self.in_channels,filters[0])
        self.maxpool1=nn.MaxPool2d(kernel_size=2)
        
        self.conv2=Unetconv(filters[0],filters[1])
        self.maxpool2=nn.MaxPool2d(kernel_size=2)
        
        self.conv3=Unetconv(filters[1],filters[2])
        self.maxpool3=nn.MaxPool2d(kernel_size=2)
        
        self.conv4=Unetconv(filters[2],filters[3])
        self.maxpool4=nn.MaxPool2d(kernel_size=2)

        self.center=Unetconv(filters[3],filters[4])
        #上采样
        self.upnet4=upconv(filters[4],filters[3])
        self.upnet3=upconv(filters[3],filters[2])
        self.upnet2=upconv(filters[2],filters[1])
        self.upnet1=upconv(filters[1],filters[0])
        #
        self.final=nn.Sequential(
            nn.Conv2d(filters[0],n_classes,kernel_size=1),
            ######为了使得输出与label同尺寸，这里加入了一个Upsample层，但为什么是2D而不是4D呢？
            nn.Upsample(size=(512, 512)),
            )
        
    def forward(self,inputs):
        #下
        conv1=self.conv1(inputs)
        maxpool1=self.maxpool1(conv1)

        conv2=self.conv2(maxpool1)
        maxpool2=self.maxpool2(conv2)

        conv3=self.conv3(maxpool2)
        maxpool3=self.maxpool3(conv3)

        conv4=self.conv4(maxpool3)
        downputs=self.maxpool4(conv4)

        centerputs=self.center(downputs)
        #上
        up4=self.upnet4(conv4,centerputs)
        up3=self.upnet3(conv3,up4)
        up2=self.upnet2(conv2,up3)
        up1=self.upnet1(conv1,up2)
        #1×1
        final=self.final(up1)

        return final

3.数据集定义

Pytorch提供了自定义数据集的框架，我们需要重构dataset，然后用dataloader读取，框架如下：
对Dataloader感兴趣的话推荐看一下这个：Dataloader讲解-Miracle8070

# ================================================================== #
#                Input pipeline for custom dataset                 #
# ================================================================== #
 
# You should build your custom dataset as below.
class CustomDataset(torch.utils.data.Dataset):
    def __init__(self):
        # TODO
        # 1. Initialize file paths or a list of file names. 
        pass
    def __getitem__(self, index):
        # TODO
        # 1. Read one data from file (e.g. using numpy.fromfile, PIL.Image.open).
        # 2. Preprocess the data (e.g. torchvision.Transform).
        # 3. Return a data pair (e.g. image and label).
        pass
    def __len__(self):
        # You should change 0 to the total size of your dataset.
        return 0 
 
# You can then use the prebuilt data loader. 
custom_dataset = CustomDataset()
train_loader = torch.utils.data.DataLoader(dataset=custom_dataset,
                                           batch_size=64, 
                                           shuffle=True)

于是我们自定义数据集如下，我的理解是：在__init__()中得到一个列表，这个列表中的每个元素是一个图片的路径，即[图片路径1，图片路径2，…]，在__getitem__(index)中，用index来挨个读取某一个图片路径，从而能得到一张图片数据，及其对应标签数据，再return即可。

from torch.utils.data import Dataset
from matplotlib import pyplot as plt
import os
import glob
import cv2
import random
class MyDataset(Dataset):
    def __init__(self,data_dir,transform=None):
        # TODO
        # 1. Initialize file paths or a list of file names. 
        self.data_dir=data_dir
        #img_dir为图片路径列表
        self.img_dir=glob.glob(os.path.join(data_dir,'image/*.png'))
        
    def __getitem__(self, index):
        # TODO
        # 1. Read one data from file (e.g. using numpy.fromfile, PIL.Image.open).
        # 2. Preprocess the data (e.g. torchvision.Transform).
        # 3. Return a data pair (e.g. image and label).
        #先传入图片的路径列表
        img_path=self.img_dir[index]
        #修改后得到了对应标签的路径列表
        label_path=img_path.replace('image','label')
        #得到图片和标签数据
        image = cv2.imread(img_path)
        label = cv2.imread(label_path)
        #数据转换为单通道
        image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
        label = cv2.cvtColor(label, cv2.COLOR_BGR2GRAY)
        image = image.reshape(1, image.shape[0], image.shape[1])
        label = label.reshape(1, label.shape[0], label.shape[1])
        #把标签从[0,255]变到[0,1]
        if label.max()>1:
            label=label/255
        flipCode = random.choice([-1, 0, 1, 2])
        if flipCode != 2:
            ## 使用cv2.flip进行数据增强，filpCode为1水平翻转，0垂直翻转，-1水平+垂直翻转
            image = cv2.flip(image, flipCode)
            label=cv2.flip(label,flipCode)        
        return image,label
    def __len__(self):
        # You should change 0 to the total size of your dataset.
        return len(self.img_dir)

4.训练

损失函数采用了论文中的交叉熵损失函数，优化算法采用了RMSprop。训练中保存了best_model.pth，它是loss最小时保存的模型参数，并不是最后一次迭代的模型参数。

from torch import optim
def train_net(net, device, data_path, epochs=10, batch_size=15, lr=0.001):
    # 加载训练集
    isbi_dataset = MyDataset(data_path)
    train_loader = torch.utils.data.DataLoader(dataset=isbi_dataset,
                                               batch_size=batch_size, 
                                               shuffle=True)
    # 定义RMSprop算法
    optimizer = optim.RMSprop(net.parameters(), lr=lr, weight_decay=1e-8, momentum=0.9)
    # 定义Loss算法
    criterion = nn.BCEWithLogitsLoss()
    # best_loss统计，初始化为正无穷
    best_loss = float('inf')
    # 训练epochs次
    for epoch in range(epochs):
        # 训练模式
        net.train()
        # 按照batch_size开始训练
        for image, label in train_loader:
            optimizer.zero_grad()
            # 将数据拷贝到device中
            image = image.to(device=device, dtype=torch.float32)
            label = label.to(device=device, dtype=torch.float32)
            # 使用网络参数，输出预测结果
            pred = net(image)
            # 计算loss
            loss = criterion(pred, label)
            print('Loss/train', loss.item())
            # 保存loss值最小的网络参数
            if loss < best_loss:
                best_loss = loss
                torch.save(net.state_dict(), 'best_model.pth')
            # 更新参数
            loss.backward()
            optimizer.step()
            
        
    print("训练结束")

5.预测

# 选择设备，有cuda用cuda，没有就用cpu
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
# 加载网络，图片单通道1，分类为1。
net = Unet(in_channels=1, n_classes=1)
# 将网络拷贝到deivce中
net.to(device=device)
# 指定训练集地址，开始训练
data_path = "C:/Users/tc/Desktop/lesson-2/data/train/"
train_net(net, device, data_path)

参考链接

How do Convolutional Neural Networks work?
Dive into Pytorch
Convolutional Neural Networks - Basics

模型压缩与优化技术——神经架构搜索（Neural Architecture Search, NAS） DuHz 轻量化模型机器学习计算机视觉人工智能神经网络深度学习数据挖掘语音识别
模型压缩与优化技术中的神经架构搜索（NeuralArchitectureSearch,NAS）技术1.引言在深度学习领域，神经网络的架构设计对模型的性能至关重要。传统的手动设计网络架构的过程费时费力，且通常依赖于经验和直觉。为了提升效率与效果，神经架构搜索（NeuralArchitectureSearch,NAS）作为一种自动化的方法，能够通过算法寻找和优化最佳的神经网络架构。NAS可以在图像识别
Element修改表格结构样式集合（后续实时更新）白嫖叫上我 element-ui vue.js elementui 前端
场景修改前端Element组件el-table样式实现线表格-->-->执行-->轨迹轨迹-->.guiji-pop{height:100%;width:100%;.tablepro{width:100%;height:calc(100%-0.82rem);margin-top:0.16rem;::v-deep.el-table__body-wrapper{height:calc(100%-0.4
【揭秘】图像算法工程师岗位如何进入？认识祂人工智能算法图像算法工程师
“图像算法工程师，主要专注于开发图像处理和计算机视觉算法，广泛应用于各行业。本文，我们来揭秘一下他们的日常工作，以及如何成为这一领域的专业人才。”01图像算法工程师的日常工作算法设计与开发图像算法工程师的核心任务是设计和开发算法，以解决特定的图像处理或计算机视觉问题。常见的任务包括：图像分类：使用卷积神经网络（CNN）对图像进行分类，常见算法如ResNet、VGG。目标检测：在图像中定位并标注物体
SGLang安装教程，部署你的大模型，性能比vllm好，实现张量并行，数据并行，加快推理速度，亲测效果好。张登杰踩人工智能结对编程 python
目前大模型部署工具主要是vllm，最近出现了SGLang，很多新开源大模型都支持SGLang的部署推理，例如deepseek-R1，Qwen2.5，Mistral，GLM-4，MiniCPM3，InternLM2，Llama3.2等。代码：GitHub-sgl-project/sglang:SGLangisafastservingframeworkforlargelanguagemodelsand
deepin 下如何实现一个文件即可读写又可只读 deepin
在Linux系统的运维过程中，我们常常会遇到需要对文件或目录进行灵活权限管理的场景。例如，某个应用的存储目录空间不足，或者需要为开发人员提供只读访问权限，同时又不影响原有配置文件的写入权限。本文将介绍如何通过mount--bind和相关选项来实现这些需求。问题背景在实际工作中，我们可能会遇到以下场景：应用程序的存储目录空间不足，但无法直接扩容。需要为开发人员提供配置文件的只读权限，同时保留原有文件
深度求索DeepSeek V2.5-1210发布：强大的AI代码生成器，开启联网搜索新纪元前端
深度求索团队近日发布了AI代码生成器DeepSeekV2.5系列的最终版本——DeepSeekV2.5-1210，并正式上线了备受期待的联网搜索功能。这标志着DeepSeekV2系列发展历程的一个重要里程碑，也为AI大模型在代码生成和信息检索领域树立了新的标杆。此次更新不仅带来了模型能力的全面提升，更重要的是开启了AI与实时信息互联的新篇章。DeepSeekV2.5-1210的核心改进：Post-
QAT与PTQ模型量化方法的区别 old_power 计算机视觉模型量化深度学习计算机视觉
QAT（QuantizationAwareTraining）和PTQ（PostTrainingQuantization）是两种常见的模型量化方法，用于减少深度学习模型的计算和存储开销，同时尽量保持模型的性能。1.QAT（QuantizationAwareTraining）定义：QAT是在模型训练过程中引入量化操作，使模型在训练时就能感知到量化带来的影响，从而更好地适应量化后的精度损失。流程：在训练
毕设分享深度学习街道行人流量计数系统 fawubio_A 毕业设计 python 毕设
文章目录0前言1项目运行效果2设计概要2原理介绍2.1目标检测概况什么是目标检测？发展阶段2.2行人检测行人检测简介行人检测技术难点行人检测实现效果4最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要
Keras、TensorFlow、PyTorch框架对比及服务器配置揭秘小深ai硬件分享人工智能深度学习服务器
深度学习框架：开启智能大门的钥匙在数字化浪潮中，深度学习如明星照亮众多领域。从智能安防的人脸识别，到医疗图像分析、电商商品推荐、智能语音助手等，其身影无处不在，改变着生活与工作方式。在深度学习领域，Keras、TensorFlow和PyTorch是主流框架，能助开发者构建强大智能模型。但这些框架要充分发挥作用，离不开合适的服务器配置，就像魔法师需要魔法棒和魔力，下面我们就来看看这些具体的框架吧:框
深度学习｜表示学习｜卷积神经网络｜局部链接是什么？｜06 漂亮_大男孩表示学习深度学习学习 cnn
如是我闻：局部连接（LocalConnectivity），是卷积神经网络（CNN）中的一个关键特性。什么是局部连接（LocalConnectivity）？局部连接指的是：在卷积操作中，每个神经元（或输出单元）只与输入数据的一个局部区域相关联，而不是与整个输入数据相连。换句话说：全连接网络（FullyConnectedLayer）中，每个神经元会与上一层所有的神经元相连。卷积网络（Convoluti
双足机器人开源项目广州深情Yangy_Jiaojiao 机器人
双足机器人（也称为人形机器人或仿人机器人）是一个复杂的领域，涉及机械设计、电子工程、控制理论、计算机视觉等多个学科。对于想要探索或开发双足机器人的开发者来说，有许多开源项目可以提供帮助。这些项目通常包括硬件设计文件、固件代码以及高级软件框架，以实现运动控制、导航、感知等功能。双足机器人开源项目推荐1.OpenHumanoids简介：由GeorgiaTech的AMBER实验室开发的开源双足机器人平台
deepin分享-Linux & Windows 双系统时间不一致解决方案 deepin
在双系统环境中（如Windows和Linux），时间同步问题是一个常见的困扰。Windows和Linux对系统时间的处理方式不同，这可能导致时间显示不一致。本文将介绍两种解决方法，帮助你解决Linux和Windows双系统时间不一致的问题。问题背景Windows操作系统直接将CMOS时间（硬件时钟）视为本地时间，不根据时区进行转换。每次调整系统时区或修改时间时，Windows会直接修改CMOS时间
deepin-UEFI 引导：从入门到重装 deepin
在现代计算机中，UEFI（统一可扩展固件接口）已成为主流的启动方式，逐渐取代了传统的BIOS。UEFI提供了许多改进，如更灵活的启动管理、更大的分区支持以及更快的启动速度。然而，对于许多Linux用户来说，UEFI的复杂性可能会带来一些挑战，尤其是在多系统环境中。本文将详细介绍如何在Linux下使用UEFI引导系统，以及如何在出现问题时进行修复和重装。1.UEFI的基本原理UEFI是一种替代传统B
强化学习代码实践1.DDQN:在CartPole游戏中实现 Double DQN 洪小帅游戏 python gym pytorch 深度学习
强化学习代码实践1.DDQN:在CartPole游戏中实现DoubleDQN1.导入依赖2.定义Q网络3.创建Agent4.训练过程5.解释6.调整超参数在CartPole游戏中实现DoubleDQN（DDQN）训练网络时，我们需要构建一个使用两个Q网络（一个用于选择动作，另一个用于更新目标）的方法。DoubleDQN通过引入目标网络来减少Q-learning中过度估计的偏差。下面是一个基于PyT
深度学习中交叉熵函数的导数:(极简) 洪小帅深度学习人工智能神经网络 python
文章目录前言一.交叉熵函数的导数二.Z,y为有n条数据的矩阵前言另一个博主有更详细的推导https://blog.csdn.net/chaipp0607/article/details/101946040一.交叉熵函数的导数softmax:令一条数据最后的输出为[z1,z2,z3,z4,…,z10],这里令输出层的神经元数量为10pi=ezi∑j=110ezjpi=\frac{e^{z_i}}{\
【Python】已完美解决：ERROR: Could not find a version that satisfies the requirement re 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
目标跟踪概念、多目标跟踪算法SORT和deep SORT原理 yhwang-hub 深度学习
目录目标跟踪、单目标跟踪、多目标跟踪的概念欧氏距离、马氏距离、余弦距离欧氏距离马氏距离余弦距离SORT算法原理SORT算法中的匈牙利匹配算法指派问题中的匈牙利算法预测模型（卡尔曼滤波器）数据关联（匈牙利匹配）目标丢失问题的处理SORT算法过程deepSORT算法原理状态估计轨迹处理分配问题的评价指标级联匹配深度表观描述子算法总结目标跟踪、单目标跟踪、多目标跟踪的概念目标跟踪分为静态背景下的目标跟踪
下载马斯克Grok-1模型的实战代码 herosunly 大模型 grok-1 下载模型实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了下载马斯克Grok-1模型的实战代码，希望能对学习大模型的同学们有所帮助
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
mtls加密双向认证 sun007700 安全 ssl https http
https://www.cloudflare.com/en-gb/learning/access-management/what-is-mutual-tls/HTTPS双向认证（MutualTLSauthentication)-API网关-阿里云SSL/TLS双向认证(一)--SSL/TLS工作原理_ustccw-CSDN博客_双向认证SSL/TSL双向认证过程与Wireshark抓包分析_区块链
深度学习中的通道(Channel)概念详解小·恐·龙大模型深度学习人工智能
1.通道的基本概念通道(Channel)是深度学习中的一个重要概念，它在不同场景下有不同的具体含义。理解通道概念对于理解深度学习模型的结构和工作原理至关重要。2.大语言模型中的通道2.1全连接层的通道概念2.1.1基本结构输入：[batch_size,input_features]权重：[input_features,output_features]输出：[batch_size,output_fe
face-kkk 山山而川_R face 深度学习
目录一、配置环境1、新建虚拟环境2、配置环境安装包3、下载安装使用环境二、注册新人1、采集照片2、注册新人3、测试视频或摄像头三、配置文件config1、项目配置文件configs/configs.py，用于设置人脸检测模型，特征提取模型二、下面是自己测试用（个人的一个记录，不具备参考意义）MTCNN人脸检测参考项目：GitHub-Sierkinhane/mtcnn-pytorch:Afacede
FunASR语言识别的环境安装、推理山山而川_R FunASR r语言 xcode 开发语言
目录一、环境配置1、创建虚拟环境2、安装环境及pytorch官网：pytorch下载地址3、安装funasr之前，确保已经安装了下面依赖环境:python代码调用（推荐）4、模型下载5、启动funasr服务二、客户端连接2.1html连接三、推理识别模型1、实时语音识别2、非实时语音识别一、环境配置源码地址：FunASRFunASR/README_zh.mdatmain·alibaba-damo-
安装线程自由（无GIL锁）Python及Pytorch方法为什么每天的风都这么大 python pytorch 开发语言
参考资料：https://py-free-threading.github.io/installing_cpython/https://github.com/pytorch/pytorch/issues/130249https://download.pytorch.org/whl/torch/截至当前（2025.1.22），最新的线程自由Python版本为13.1，因此下面的方法适用于该版本安装P
DeepSpeed 常见问题解决方案申晓容Lucille
DeepSpeed常见问题解决方案DeepSpeedDeepSpeedisadeeplearningoptimizationlibrarythatmakesdistributedtrainingandinferenceeasy,efficient,andeffective.项目地址:https://gitcode.com/gh_mirrors/de/DeepSpeed1.项目基础介绍和主要编程语言
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
大语言模型原理与工程实践：案例介绍 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：案例介绍作者：禅与计算机程序设计艺术近年来，随着深度学习技术的快速发展，大语言模型（LargeLanguageModel，LLM）在自然语言处理领域取得了突破性进展，展现出强大的文本生成、理解和推理能力。从智能对话到机器翻译，从代码生成到诗歌创作，LLM正在深刻地改变着我们与信息交互的方式，并为人工智能应用开拓了更广阔的空间。1.背景介绍1.1大语言模型的兴起大语言模型的
AI驱动电商搜索导购：技术创新与应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
文章标题《AI驱动电商搜索导购：技术创新与应用》关键词：人工智能，电商搜索导购，机器学习，深度学习，推荐系统，自然语言处理，个性化搜索，图像识别，应用案例，未来展望。摘要：本文旨在探讨人工智能（AI）在电商搜索导购领域的应用，分析其技术创新和实际应用案例，探讨AI驱动电商搜索导购的未来发展趋势。文章首先介绍了AI在电商搜索导购中的角色和优势，然后深入探讨了AI基础理论和搜索导购技术原理。接着，文章
Flink系列-2、Flink架构体系技术武器库大数据专栏 flink 架构 jvm
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录Flink中的重要角⾊Flink数据流编程模型Libraries支持Flink集群搭建Local本地模式（开发测试）Standalone-伪分布环境（开
【机器学习实战入门】使用OpenCV进行性别和年龄检测精通代码大仙数据挖掘深度学习 python 机器学习 python opencv 数据挖掘人工智能
GenderandAgeDetectionPython项目首先，向您介绍用于此高级Python项目的性别和年龄检测中的术语：什么是计算机视觉？计算机视觉是一门让计算机能够像人类一样观察和识别数字图像和视频的学科。它面临的挑战大多源于对生物视觉有限的了解。计算机视觉涉及获取、处理、分析和理解数字图像，旨在从现实世界中提取高维数据，从而生成可用来做决策的符号或数值信息。该过程通常包括物体识别、视频跟踪
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri