云梦之上

unet各模块内容的理解（包含注意力机制、残差、以及数据维度的变化）

文章目录

attention机制
Unet的各个模块的设计
- ①残差块
- ②下块做一次残差，做一次自注意力
- ③上块：这里做了skip connect，做一次残差，做一次注意力
- ④中块：做两次残差和一次自注意力
- ⑤上采样：通道数不变，长宽翻两倍
- ⑥下采样：通道数不变，长宽缩小到原来的一半
整个unet模块
- unet模块的示意图

参考的unet代码
unet代码

attention机制

参考内容:
超详细图解Self-Attention

首先是计算QKV的矩阵的值，然后是利用QK计算相关性，然后更具相关性重构v

这里需要结合代码来理解其中的维度变换过程

class AttentionBlock(Module):
    """
    ### Attention block

    This is similar to [transformer multi-head attention](../../transformers/mha.html).
    """
	#只需要输入输入的数据的通道，因为后续的通道数不会发生改变
    def __init__(self, n_channels: int, n_heads: int = 1, d_k: int = None, n_groups: int = 32):
        """
        * `n_channels` is the number of channels in the input（输入的图像的最后一个维度，图像的通道数）
        * `n_heads` is the number of heads in multi-head attention（多头注意力的头的个数）
        * `d_k` is the number of dimensions in each head（每个多头注意力的维度数）
        * `n_groups` is the number of groups for [group normalization](../../normalization/group_norm/index.html)
        """
        super().__init__()

        # Default `d_k`
        if d_k is None:
            d_k = n_channels
       
        #组归一化：你有一个包含64个通道的输入，并且你设置n_groups=8，那么每个组将包含8个通道，组归一化将在这8个通道上独立地计算均值和标准差，并进行归一化
        self.norm = nn.GroupNorm(n_groups, n_channels)
        
        #将通过线性变化，将通道数增大为：多头注意力头数*每个头的维度，以及*3，用来后续划分为Q、K、V
        self.projection = nn.Linear(n_channels, n_heads * d_k * 3)
     
        #输出为维度通过线性映射恢复为何输入一致
        self.output = nn.Linear(n_heads * d_k, n_channels)
        # Scale for dot-product attention
        self.scale = d_k ** -0.5
        #
        self.n_heads = n_heads
        self.d_k = d_k

    def forward(self, x: torch.Tensor, t: Optional[torch.Tensor] = None):
        """
        * `x` has shape `[batch_size, in_channels, height, width]`
        * `t` has shape `[batch_size, time_channels]`
        """
        # `t` is not used, but it's kept in the arguments because for the attention layer function signature
        # to match with `ResidualBlock`.
        _ = t
  
        #首先得到输入数据的批量大小，通道维度，长，宽
        batch_size, n_channels, height, width = x.shape
       
        #将除通道数的维度进行合并，然后将通道数放在最后面
        x = x.view(batch_size, n_channels, -1).permute(0, 2, 1)
    
        #通过投影，将数据的维度进行提升，让其满足多头注意力的维度数
        #然后将数据的维度变化为：批量大小，像素维度（比如长*宽），头数，3*头的维度
        qkv = self.projection(x).view(batch_size, -1, self.n_heads, 3 * self.d_k)
   
        #将得到QKV按照最后一个维度进行维度划分，得到QKV矩阵
        q, k, v = torch.chunk(qkv, 3, dim=-1)
  
        #QK进行点积计算，维度变为：批量，像素维度，像素维度，头数
        attn = torch.einsum('bihd,bjhd->bijh', q, k) * self.scale
        #将第二个维度归一化
        attn = attn.softmax(dim=2)
        #attn与v进行点积，实现加权计算，维度变为和输入的QKV一样：批量，像素大小，头数，每头维度
        res = torch.einsum('bijh,bjhd->bihd', attn, v)
        #将结果的最后两个维度合并：头数，像素大小，升维的维度
        res = res.view(batch_size, -1, self.n_heads * self.d_k)
        #将结果的维度调整为和输入一致
        res = self.output(res)
		#做残差连接
        res += x
		#将将结果的维度调整为和输入一致，将长和宽拆开
        res = res.permute(0, 2, 1).view(batch_size, n_channels, height, width)

        #
        return res

Unet的各个模块的设计

①残差块

class ResidualBlock(Module):
    """
    ### Residual block

    A residual block has two convolution layers with group normalization.
    Each resolution is processed with two residual blocks.
    """
    #输入：需要输入通道，和输出通道，最后让输入通道变为输出通道

    def __init__(self, in_channels: int, out_channels: int, time_channels: int,
                 n_groups: int = 32, dropout: float = 0.1):
        """
        * `in_channels` is the number of input channels
        * `out_channels` is the number of input channels
        * `time_channels` is the number channels in the time step ($t$) embeddings
        * `n_groups` is the number of groups for [group normalization](../../normalization/group_norm/index.html)
        * `dropout` is the dropout rate
        """
        super().__init__()
        # Group normalization and the first convolution layer
        self.norm1 = nn.GroupNorm(n_groups, in_channels)
        self.act1 = Swish()
   		#通过卷积将输入的通道转化为输出的通道
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=(3, 3), padding=(1, 1))

        # Group normalization and the second convolution layer
        self.norm2 = nn.GroupNorm(n_groups, out_channels)
        self.act2 = Swish()
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=(3, 3), padding=(1, 1))

        # If the number of input channels is not equal to the number of output channels we have to
        # project the shortcut connection
        # 如果x的维度不一致，则用卷积进行维度的变换
        if in_channels != out_channels:
            self.shortcut = nn.Conv2d(in_channels, out_channels, kernel_size=(1, 1))
        else:
            self.shortcut = nn.Identity()

        # Linear layer for time embeddings
        #对于时间嵌入，将输入的时间嵌入通道转化为输出的通道
        self.time_emb = nn.Linear(time_channels, out_channels)
        self.time_act = Swish()

        self.dropout = nn.Dropout(dropout)

    def forward(self, x: torch.Tensor, t: torch.Tensor):
        """
        * `x` has shape `[batch_size, in_channels, height, width]`
        * `t` has shape `[batch_size, time_channels]`
        """
        # First convolution layer
        h = self.conv1(self.act1(self.norm1(x)))
        # Add time embeddings
        #时间和输入的x都转化为相同的通道后就可以进行相加了
        #在最后添加两个维度，例如如果时间嵌入维度为：32，100  则变为了 32,100,1,1，这里只是改变了张量的形状，而没有改变数据
        h += self.time_emb(self.time_act(t))[:, :, None, None]
        # Second convolution layer
        h = self.conv2(self.dropout(self.act2(self.norm2(h))))

        # Add the shortcut connection and return
        #做残差相加
        return h + self.shortcut(x)

②下块做一次残差，做一次自注意力

class DownBlock(Module):
    """
    ### Down block

    This combines `ResidualBlock` and `AttentionBlock`. These are used in the first half of U-Net at each resolution.
    """
	
    def __init__(self, in_channels: int, out_channels: int, time_channels: int, has_attn: bool):
        super().__init__()
        #通过残差块，将输入的维度转化为out_channels
        self.res = ResidualBlock(in_channels, out_channels, time_channels)
        if has_attn:
            self.attn = AttentionBlock(out_channels)
        else:
        	#不需要注意时，结果不变，为其本身
            self.attn = nn.Identity()

    def forward(self, x: torch.Tensor, t: torch.Tensor):
    	#做一次残差
        x = self.res(x, t)
        #做一次注意力，如果不需要注意力，那么结果不变
        x = self.attn(x)
        return x

③上块：这里做了skip connect，做一次残差，做一次注意力

class UpBlock(Module):
    """
    ### Up block

    This combines `ResidualBlock` and `AttentionBlock`. These are used in the second half of U-Net at each resolution.
    """

    def __init__(self, in_channels: int, out_channels: int, time_channels: int, has_attn: bool):
        super().__init__()
        #输入和输出的通道式相等，将之间下采样的结果和传入到当前块的结果concatenate起来作为了新的输入
        # The input has `in_channels + out_channels` because we concatenate the output of the same resolution
        # from the first half of the U-Net
        self.res = ResidualBlock(in_channels + out_channels, out_channels, time_channels)
        if has_attn:
            self.attn = AttentionBlock(out_channels)
        else:
            self.attn = nn.Identity()

    def forward(self, x: torch.Tensor, t: torch.Tensor):
        x = self.res(x, t)
        x = self.attn(x)
        return x

④中块：做两次残差和一次自注意力

class MiddleBlock(Module):
    """
    ### Middle block

    It combines a `ResidualBlock`, `AttentionBlock`, followed by another `ResidualBlock`.
    This block is applied at the lowest resolution of the U-Net.
    """

    def __init__(self, n_channels: int, time_channels: int):
        super().__init__()
        self.res1 = ResidualBlock(n_channels, n_channels, time_channels)
        self.attn = AttentionBlock(n_channels)
        self.res2 = ResidualBlock(n_channels, n_channels, time_channels)

    def forward(self, x: torch.Tensor, t: torch.Tensor):
        x = self.res1(x, t)
        x = self.attn(x)
        x = self.res2(x, t)
        return x

⑤上采样：通道数不变，长宽翻两倍

class Upsample(nn.Module):
    """
    ### Scale up the feature map by $2 \times$
    """

    def __init__(self, n_channels):
        super().__init__()
        #反卷积函数，通道数不变，实现宽度和高度翻两倍
        self.conv = nn.ConvTranspose2d(n_channels, n_channels, (4, 4), (2, 2), (1, 1))

    def forward(self, x: torch.Tensor, t: torch.Tensor):
        # `t` is not used, but it's kept in the arguments because for the attention layer function signature
        # to match with `ResidualBlock`.
        _ = t
        return self.conv(x)

⑥下采样：通道数不变，长宽缩小到原来的一半

class Downsample(nn.Module):
    """
    ### Scale down the feature map by $\frac{1}{2} \times$
    """

    def __init__(self, n_channels):
        super().__init__()
        #用卷积实现下采样，通道数不变，长宽减少一倍
        self.conv = nn.Conv2d(n_channels, n_channels, (3, 3), (2, 2), (1, 1))

    def forward(self, x: torch.Tensor, t: torch.Tensor):
        # `t` is not used, but it's kept in the arguments because for the attention layer function signature
        # to match with `ResidualBlock`.
        _ = t
        return self.conv(x)

整个unet模块

unet模块的示意图

R为残差，A为注意力，x为上一步的输出，up为上采样，down为下采样

class UNet(Module):
    """
    ## U-Net
    """

    def __init__(self, image_channels: int = 3, n_channels: int = 64,
                 ch_mults: Union[Tuple[int, ...], List[int]] = (1, 2, 2, 4),
                 is_attn: Union[Tuple[bool, ...], List[bool]] = (False, False, True, True),
                 n_blocks: int = 2):
        """
        * `image_channels` is the number of channels in the image. $3$ for RGB.输入的图像通道
        * `n_channels` is number of channels in the initial feature map that we transform the image into图像的初始化通道，一般是将图像通过VAE编码为4，64，64的维度。
        * `ch_mults` is the list of channel numbers at each resolution. The number of channels is `ch_mults[i] * n_channels`#每一个层的通道数与输入通道数的倍数关系，一开始为1，然后2表示扩大的2倍。
        * `is_attn` is a list of booleans that indicate whether to use attention at each resolution是否用注意力，默认为第3,4块需要，那么1,2块就只是做了残差了
        * `n_blocks` is the number of `UpDownBlocks` at each resolution
        #每层的上下块的个数
        """
        super().__init__()

        # Number of resolutions
        #计算层数：为4
        n_resolutions = len(ch_mults)

        # Project image into feature map
        #将图像的通道数通过卷积提升到64
        self.image_proj = nn.Conv2d(image_channels, n_channels, kernel_size=(3, 3), padding=(1, 1))

        # Time embedding layer. Time embedding has `n_channels * 4` channels
        #时间嵌入模块的通道数为256
        self.time_emb = TimeEmbedding(n_channels * 4)

        # #### First half of U-Net - decreasing resolution
        down = []
        # Number of channels
        #刚开始输入输出通道都一样为64 
        out_channels = in_channels = n_channels
        # For each resolution
        #对设计前半个unet的每一块，总共有4块
        for i in range(n_resolutions):
            # Number of output channels at this resolution
            #，每一块的通道数由resolution指定
            out_channels = in_channels * ch_mults[i]
            # Add `n_blocks`
            #每一块包含的小块的个数由n_blocks指定，默认为2
            for _ in range(n_blocks):
                down.append(DownBlock(in_channels, out_channels, n_channels * 4, is_attn[i]))
                in_channels = out_channels
            # Down sample at all resolutions except the last
            #在每一块的最后下采样，最后一块不需要，所以只有1,2,3 需要下采样3次，按照图像是下采样4次。
            if i < n_resolutions - 1:
                down.append(Downsample(in_channels))

        # Combine the set of modules
        self.down = nn.ModuleList(down)

        # Middle block
        #中间层，做两次残差，一次注意力
        self.middle = MiddleBlock(out_channels, n_channels * 4, )

        # #### Second half of U-Net - increasing resolution
        up = []
        # Number of channels
        in_channels = out_channels
        # For each resolution
        for i in reversed(range(n_resolutions)):
            # `n_blocks` at the same resolution
            #这里不改变通道数，有2块上块
            out_channels = in_channels
            for _ in range(n_blocks):
                up.append(UpBlock(in_channels, out_channels, n_channels * 4, is_attn[i]))
            # Final block to reduce the number of channels
            out_channels = in_channels // ch_mults[i]
           	#再来一块进行通道数的改变
            up.append(UpBlock(in_channels, out_channels, n_channels * 4, is_attn[i]))
            in_channels = out_channels
            # Up sample at all resolutions except last
            if i > 0:
                up.append(Upsample(in_channels))

        # Combine the set of modules
        self.up = nn.ModuleList(up)

        # Final normalization and convolution layer
        self.norm = nn.GroupNorm(8, n_channels)
        self.act = Swish()
        self.final = nn.Conv2d(in_channels, image_channels, kernel_size=(3, 3), padding=(1, 1))

    def forward(self, x: torch.Tensor, t: torch.Tensor):
        """
        * `x` has shape `[batch_size, in_channels, height, width]`
        * `t` has shape `[batch_size]`
        """

        # Get time-step embeddings
        t = self.time_emb(t)

        # Get image projection
        #将图像的维度投影到我门需要的维度，一般为64
        x = self.image_proj(x)
		#用一个列表来存储我们上半部分的unet产生的结果，用于后半部分的concatenate
        # `h` will store outputs at each resolution for skip connection
        h = [x]
        # First half of U-Net
        #每一次下采用后将输出的结果存入h中
        for m in self.down:
            x = m(x, t)
            h.append(x)

        # Middle (bottom)
        x = self.middle(x, t)

        # Second half of U-Net
        for m in self.up:
            if isinstance(m, Upsample):
            	#如果是上采样块则直接进行上采样计算
                x = m(x, t)
            else:
                # Get the skip connection from first half of U-Net and concatenate
                #如果不是上采样块，那么先将x与unet上半部分的输出做concatenate
                s = h.pop()
                #这里沿着第1维度做拼接，实际上就是channel 的增加
                x = torch.cat((x, s), dim=1)
                #每一个非上采样的上块都会与之前的x做concatenate，所以输入的维度都是翻了2倍
                x = m(x, t)

        # Final normalization and convolution
        return self.final(self.act(self.norm(x)))

大神之路-起始篇 | 第13章.计算机科学导论之【文件结构】学习笔记全栈工程师修炼指南从业必看书籍专栏学习笔记
欢迎关注「WeiyiGeek」公众号点击下方卡片即可关注我哟!设为「星标⭐」每天带你基础入门到进阶实践再到放弃学习！涉及网络安全运维、应用开发、物联网IOT、学习路径、个人感悟等知识“花开堪折直须折，莫待无花空折枝。”作者主页：[https://www.weiyigeek.top]作者博客：[https://blog.weiyigeek.top]作者答疑学习交流群：
Redis学习总结（15）——Redis 基本数据类型使用场景一杯甜酒 Redis Redis基本数据类型使用场景
一、StringStrings数据结构是简单的key-value类型，value其实不仅是String，也可以是数字.常用命令:set,get,decr,incr,mget等。应用场景：String是最常用的一种数据类型，普通的key/value存储都可以归为此类.即可以完全实现目前Memcached的功能，并且效率更高。还可以享受Redis的定时持久化，操作日志及Replication等功能。除
pytorch官方文档60分钟入门笔记 xiaodidadada 机器学习
文章目录1.张量（Tensors）定义张量张量操作2.自动求导（autograd）变量Variable3.神经网络4.训练一个分类器载入数据5.数据并行day63参考：官方文档https://blog.csdn.net/u014630987/article/details/786690511.张量（Tensors）tensors和numpy的ndarray类似,但是tensors可以使用GPU加快
Prompt 精通之路（四）- AI 赋能：10 个超实用的 Prompt 模板，覆盖写作、编程、学习和办公程序员阿超的博客 Prompt 精通之路：从零基础到 AI 高效玩家人工智能 prompt 学习 Prompt模板 AI工作流 ChatGPT应用生产力工具
Prompt精通之路：系列文章导航第一篇：[本文]AI时代的新语言：到底什么是Prompt？为什么它如此重要？第二篇：告别废话！掌握这4个黄金法则，让你的Prompt精准有效第三篇：像专业人士一样思考：Zero-Shot,Few-Shot和思维链（CoT）技巧详解第四篇：AI赋能：10个超实用的Prompt模板，覆盖写作、编程、学习和办公第五篇：构建你的“AI指令系统”：超越简单提问的CRISPE
基于改进扩散模型与注意力机制的影像到转基因数据预测系统
基于改进扩散模型与注意力机制的影像到转基因数据预测系统1.项目概述本系统利用改进的扩散模型结合注意力机制，从医学影像中预测转基因数据。系统采用PyTorch框架实现，包含数据预处理、模型架构、训练流程和评估指标等完整模块。importtorchimporttorch.nnasnnimporttorch.nn.functionalasFimporttorch.optimasoptimfromtorc
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（下） Allen_Lyb 数智化医院2025 人工智能健康医疗数据库矩阵
医疗边缘AI的市场趋势医疗边缘AI市场正经历着显著的增长，根据市场研究公司的数据，2024年的边缘AI市场价值为125亿美元，估计在2025至2034年之间，由于各部门越来越多地采用边缘装置，CAGR为24.8%。保健、制造业、零售业和汽车业的企业拥有综合边缘计算解决方案[36]。这一增长趋势表明，边缘AI技术正在各行各业得到广泛应用，其中医疗保健是一个重要的应用领域。2023年全球边缘人工智能市
AI 编程对决：Gemini CLI vs Claude Code，谁是最佳 AI 编码工具？ charieli-fh 人工智能大模型
1.引言：AI编码工具的崛起在软件开发的快节奏世界中，人工智能（AI）工具正迅速从辅助角色转变为不可或缺的伙伴。它们不再仅仅是提供代码补全，而是能够理解复杂上下文、执行多步骤任务，甚至自动化整个工作流的智能代理。这种转变正在重塑开发者的日常工作，提高生产力，并加速创新。在众多涌现的AI编码工具中，Google的GeminiCLI和Anthropic的ClaudeCode脱颖而出，各自代表了AI辅助
深入剖析AI大模型：关于模型训练 chilavert318 熬之滴水穿石人工智能
今天说的是模型训练，在AI模型里，它是点亮智慧星辰的关键引擎。今天将围绕开源预训练模型的使用、数据与模型的集成、模型的部署管理，以及大规模模型的可扩展性与效率提升展开，带大家开启一场深入浅出的模型训练实战之旅。一、使用开源预训练模型1、如何利用开源模型（如BERT、GPT）进行微调开源预训练模型就像是已经搭建好框架的摩天大楼，BERT、GPT等模型便是其中声名赫赫的标志性建筑。它们经过海量数据的“
RAG技术栈详解：构建智能问答系统的核心组件认知超载 AI 人工智能
本文深度剖析RAG（Retrieval-AugmentedGeneration）技术栈的核心构成，助你快速搭建企业级知识增强系统一、RAG技术架构全景图二、核心组件技术选型1.检索模块（Retriever）向量数据库主流选择：Pinecone、Milvus、Qdrant、Weaviate新兴势力：ChromaDB（开源轻量级）、腾讯云向量数据库嵌入模型（Embedding）OpenAItext-e
微调 || RAG，项目落地怎么选？LLM应用选型指南，适用场景全解析认知超载 AI 人工智能
基本定义微调：是指利用更小、更具针对性的数据集对经过预先训练的大语言模型进一步训练的过程。在这个过程中，模型基于新数据集修改权重和参数，学习特定于任务的模式，同时保留来自最初预训练模型的知识。RAG：即检索增强生成，是将检索大量外部知识的过程与文本生成结合在一起的一种方法。它会从大型外部数据库中检索与输入问题相关的信息，将这些信息作为上下文提供给大语言模型，辅助其生成回答。微调适用场景1.特定领域
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
Gartnet《Solution Path for Implementing Hybrid Cloud Applications With On-Premises Data》学习心得架构师学习成长之路大数据架构
一、引言随着企业数字化转型的深入，混合云架构逐渐成为一种中长期的现实选择。软件架构师们在将应用逻辑迁移到云端的同时，往往面临着数据层难以同步迁移的困境。Gartner的这份报告《SolutionPathforImplementingHybridCloudApplicationsWithOn-PremisesData》为我们提供了一条实施混合云应用的清晰路径，涵盖了从迁移策略的确定、应用与数据层的整
Java AI 开发智能体：从入门到实践培风图南以星河揽胜 java java 人工智能开发语言
在人工智能（AI）技术蓬勃发展的今天，智能体作为AI领域的核心概念之一，正逐渐渗透到各个行业与应用场景。而Java凭借其跨平台性、丰富的类库和强大的生态系统，成为开发智能体的热门选择。本文将深入探讨如何使用Java进行AI开发智能体，从基础概念到实践应用，解答常见问题，为你揭开JavaAI开发智能体的神秘面纱。一、Java在AI开发中的优势1.跨平台性Java的“一次编写，到处运行”特性，使得基于
Spring MVC 详解蟒蛇boy spring mvc java
在JavaWeb开发中，SpringMVC是一个强大而广泛使用的框架，它为构建高效、可维护的企业级应用提供了坚实的基础。本文将深入介绍SpringMVC，并提供示例代码帮助你更好地理解其工作原理。一、SpringMVC简介SpringMVC是Spring框架的一个模块，全称为SpringWebMVC。它实现了模型-视图-控制器（MVC）设计模式，将应用程序分为三个主要部分：模型（Model）、视图
Vue简介，什么是Vue（Vue3）？水云桐程序员 vue.js 前端 javascript
什么是Vue？Vue是一款用于构建用户界面的JavaScript框架。它基于标准HTML、CSS和JavaScript构建，并提供了一套声明式的、组件化的编程模型，帮助你高效地开发用户界面。无论是简单的还是复杂地界面，Vue都可以胜任。声明式渲染：Vue基于标准HTML拓展了一套模板语法，使得我们可以声明式地描述最终输出地HTML和JavaScript状态之间的关系。响应性：Vue会自动跟踪Jav
Prompt 精通之路（五）- 构建你的“AI 指令系统”：超越简单提问的 CRISPE 与 APE 框架
Prompt精通之路：系列文章导航第一篇：[本文]AI时代的新语言：到底什么是Prompt？为什么它如此重要？第二篇：告别废话！掌握这4个黄金法则，让你的Prompt精准有效第三篇：像专业人士一样思考：Zero-Shot,Few-Shot和思维链（CoT）技巧详解第四篇：AI赋能：10个超实用的Prompt模板，覆盖写作、编程、学习和办公第五篇：构建你的“AI指令系统”：超越简单提问的CRISPE
C#学习日志 future1412 c#学习 java
构造函数和析构函数知识点一构造函数基本概念在实例化对象时会调用的用于初始化的函数如果不写默认存在一个无参构造函数构造函数的写法1.没有返回值2.函数名和类名必须相同3.没有特殊需求时一般都是public的classPerson{publicstringname;publicintage;类中是允许自己申明无参构造函数的结构体是不允许publicPerson(){name="怪盗基德";age=18
ollama v0.9.4 详解：联网功能、模型目录自定义及macOS性能优化全面升级
近年来，随着人工智能技术的快速发展，模型管理与调用变得尤为重要。作为一款备受关注的本地AI模型管理工具，Ollama在最新发布的v0.9.4版本中带来了多项重磅改进和全新功能，提升了用户体验和应用场景的灵活性。本文将深入解析Ollamav0.9.4版本的功能亮点、技术改进以及实用操作指南，帮助广大开发者和AI爱好者全面掌握这款工具的最新动态。一、版本概述Ollamav0.9.4版本于2025年7月
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
【深度学习】卷积神经网络(CNN)原理 chaser&upper 深度学习神经网络卷积计算机视觉
【深度学习】卷积神经网络原理1.卷积神经网络的组成2.卷积层2.1卷积运算过程3.padding-零填充3.1ValidandSame卷积3.2奇数维度的过滤器4.stride-步长5.多通道卷积5.1多卷积核（多个Filter）6.卷积总结7.池化层(Pooling)8.全连接层9.总结1.卷积神经网络的组成定义卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比，卷
深度学习学习经验——卷积神经网络（CNN） Linductor 深度学习学习经验深度学习学习 cnn
卷积神经网络卷积神经网络（CNN）1.卷积神经网络的基本组成2.卷积操作3.激活函数（ReLU）4.池化操作5.全连接层6.卷积神经网络的完整实现项目示例项目目标1.加载数据2.卷积层：图像的特征探测器2.1第一个卷积层3.激活函数：增加非线性4.池化层：信息压缩器5.多层卷积和池化：逐层提取更高层次的特征6.全连接层：分类器7.模型训练和测试完整的项目示例代码总结卷积神经网络（CNN）卷积神经网
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
LeetCode - #106 从中序与后序遍历序列构造二叉树网罗开发 Swift #LeetCode leetcode 算法职场和发展
文章目录前言1.描述2.示例3.答案关于我们前言我们社区陆续会将顾毅（Netflix增长黑客，《iOS面试之道》作者，ACE职业健身教练。）的Swift算法题题解整理为文字版以方便大家学习与阅读。LeetCode算法到目前我们已经更新到105期，我们会保持更新时间和进度（周一、周三、周五早上9:00发布），每期的内容不多，我们希望大家可以在上班路上阅读，长久积累会有很大提升。不积跬步，无以至千里；
LeetCode - #144 二叉树的前序遍历网罗开发 Swift leetcode 算法职场和发展
文章目录前言1.描述2.示例3.答案关于我们前言我们社区陆续会将顾毅（Netflix增长黑客，《iOS面试之道》作者，ACE职业健身教练。）的Swift算法题题解整理为文字版以方便大家学习与阅读。LeetCode算法到目前我们已经更新到143期，我们会保持更新时间和进度（周一、周三、周五早上9:00发布），每期的内容不多，我们希望大家可以在上班路上阅读，长久积累会有很大提升。不积跬步，无以至千里；
【V5.0 - 视觉篇】AI的“火眼金睛”：用OpenCV量化“第一眼缘”，并用SHAP验证它的“审美” 爱分享的飘哥 AI 人工智能 opencv 计算机视觉
系列回顾：在上一篇《给AI装上“写轮眼”：用SHAP看穿模型决策的每一个细节》中，我们成功地为AI装上了“透视眼镜”，看穿了它基于数字决策的内心世界。但一个巨大的问题暴露了：它的世界里，还只有数字。它能理解“时长60秒”，却无法感受画面的震撼。它是一个强大的“盲人数学家”。计算机视觉我们没有必要为每个视频进行切帧，可以针对开头的视频或者中间关键点视频进行切帧，让计算机识别。承上启下：“现在，我们来
Ubuntu22+ROS2+QtCreator+Ros_Qtc_Plugin开发环境搭建 ZPC8210 ROS python github git
Ubuntu22+ROS2+QtCreator+Ros_Qtc_Plugin开发环境搭建1.写在前面最近重装了ubuntu22.04，被告知ubuntu22已经不支持ROS1了，想着ROS2毕竟是大势所趋，所以安装了ROS2准备进行相应的学习开发。折腾了两天，没发现一款好用的、适合ROS2开发的IDE。之前开发ROS1程序时一直用的QTC，我本以为QTC应该还没有对应的ROS2插件，没想到网上查找
Python Day58 别勉. python机器学习 python 信息可视化数据分析
Task：1.时序建模的流程2.时序任务经典单变量数据集3.ARIMA（p，d，q）模型实战4.SARIMA摘要图的理解5.处理不平稳的2种差分a.n阶差分—处理趋势b.季节性差分—处理季节性建立一个ARIMA模型，通常遵循以下步骤：数据可视化：观察原始时间序列图，判断是否存在趋势或季节性。平稳性检验：对原始序列进行ADF检验。如果p值>0.05，说明序列非平稳，需要进行差分。确定差分次数d:进行
Python Day57 别勉. python机器学习 python 开发语言
Task：1.序列数据的处理：a.处理非平稳性：n阶差分b.处理季节性：季节性差分c.自回归性无需处理2.模型的选择a.AR§自回归模型：当前值受到过去p个值的影响b.MA(q)移动平均模型：当前值收到短期冲击的影响，且冲击影响随时间衰减c.ARMA(p,q)自回归滑动平均模型：同时存在自回归和冲击影响时间序列分析：ARIMA/SARIMA模型构建流程时间序列分析的核心目标是理解序列的过去行为，并
Python Day44 别勉. python机器学习 python 开发语言
Task：1.预训练的概念2.常见的分类预训练模型3.图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调。这种方法可以显著提高模型在目标任务上的性能，减少训练时间和所需数据量。核心思想：在大规模、通用的数据（如ImageNet）上训练模型，学习丰
Python Day42 别勉. python机器学习 python 开发语言
Task：Grad-CAM与Hook函数1.回调函数2.lambda函数3.hook函数的模块钩子和张量钩子4.Grad-CAM的示例1.回调函数定义：回调函数是作为参数传入到其他函数中的函数，在特定事件发生时被调用。特点：便于扩展和自定义程序行为。常用于训练过程中的监控、日志记录、模型保存等场景。示例：defcallback_function():print("Epochcompleted!")
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

unet各模块内容的理解（包含注意力机制、残差、以及数据维度的变化）

文章目录

attention机制

Unet的各个模块的设计

①残差块

②下块 做一次残差，做一次自注意力

③上块：这里做了skip connect，做一次残差，做一次注意力

④中块：做两次残差和一次自注意力

⑤上采样：通道数不变，长宽翻两倍

⑥下采样：通道数不变，长宽缩小到原来的一半

整个unet模块

unet模块的示意图

你可能感兴趣的:(#,扩散模型系统性学习,人工智能,神经网络,pytorch)

②下块做一次残差，做一次自注意力