@左左@右右

MONAI Transform 分析和使用

最近在学习深度学习，了解了monai框架，随着学习的不断深入，发现Transform这个模块很重要在做医学图像处理的时候需要用到图像增强，就需要用到个Transform中的各种API进行增强变换

所以在这里记录下，以便大家参考

一.Transform 的分类

具体API函数请参考文档：https://docs.monai.io/en/latest/transforms.html

二普通变换和字典变换的联系与区别

        普通变换又可以说是基于数组的变换：image和label是以数组形式给到Dataset。字典变换是基于字典的变换（image和label是一个字典对)。
        普通变换和字典变换的功能是一样的，只是字典变换在每个transform后面都加了一个"d", 也可以写成”D“。如LoadImage/LoadImaged, Resize/Resized
        使用字典变换时，必须指明该变换是对image做，还是label做。如，LoadImaged（keys='image'）,表明只加载image

三.Transform组合使用案列

1.导入transforms模块

from monai.transforms import (
    AsDiscrete,
    EnsureChannelFirstd,
    Compose,
    LoadImaged,
    ScaleIntensityRanged,
    Spacingd,
    Orientationd,
    CropForegroundd,
    RandCropByPosNegLabeld,
    RandAffined,
    RandRotated,
    EnsureType,
    EnsureTyped,
)

2.使用Compose组合各种变换

train_transforms = Compose(
    [
        LoadImaged(keys=["image", "label"]),
        EnsureChannelFirstd(keys=["image", "label"]),
        Spacingd(keys=["image", "label"], pixdim=(
            1.5, 1.5, 2.0), mode=("bilinear", "nearest")),
        Orientationd(keys=["image", "label"], axcodes="RAS"),
        ScaleIntensityRanged(
            keys=["image"], a_min=-57, a_max=164,
            b_min=0.0, b_max=1.0, clip=True,
        ),
        CropForegroundd(keys=["image", "label"], source_key="image"),
        RandCropByPosNegLabeld(
            keys=["image", "label"],
            label_key="label",
            spatial_size=(96, 96, 96),
            pos=1,
            neg=1,
            num_samples=4,
            image_key="image",
            image_threshold=0,
        ),
        RandAffined(
            keys=['image', 'label'],
            mode=('bilinear', 'nearest'),
            prob=0.5,
            spatial_size=(96, 96, 96),
            rotate_range=(np.pi/18, np.pi/18, np.pi/5),
            scale_range=(0.05, 0.05, 0.05)
        ),
        EnsureTyped(keys=["image", "label"]),
    ]
)
val_transforms = Compose(
    [
        LoadImaged(keys=["image", "label"]),
        EnsureChannelFirstd(keys=["image", "label"]),
        Spacingd(keys=["image", "label"], pixdim=(
            1.5, 1.5, 2.0), mode=("bilinear", "nearest")),
        Orientationd(keys=["image", "label"], axcodes="RAS"),
        ScaleIntensityRanged(
            keys=["image"], a_min=-57, a_max=164,
            b_min=0.0, b_max=1.0, clip=True,
        ),
        RandRotated(
            keys=['image', 'label'],
            mode=('bilinear', 'nearest'),
            range_x=np.pi/18,
            range_y=np.pi/18,
            range_z=np.pi/5,
            prob=1.0,
            padding_mode=('reflection', 'reflection'),
        ),
        CropForegroundd(keys=["image", "label"], source_key="image"),
        EnsureTyped(keys=["image", "label"]),
    ]
)

四测试使用transforms API

接下来会演示部分常用的transform，其余的类似。以下演示基于字典变换。

1.数据准备

这次使用的数据是医学图像十项全能挑战赛里面的CT数据（Task09_Spleen）。数据来源：http://medicaldecathlon.com/

数据比较大，可以使用迅雷下载

"https://msd-for-monai.s3-us-west-2.amazonaws.com/Task09_Spleen.tar"

如果网速不好，也可以使用其他可用数据，用于测试了，无所谓了，能跑就行

我把数据解压好放在了特定的目录，你也可以参考MONAI加载数据方式自己组织

directory = os.environ.get("MONAI_DATA_DIRECTORY")
root_dir = tempfile.mkdtemp() if directory is None else directory
print(f"root dir is: {root_dir}")
data_dir = os.path.join(root_dir,"Task09_Spleen")
print(f"data dir is:{data_dir}")

train_images = sorted(
    glob.glob(os.path.join(data_dir, "imagesTr", "*.nii.gz")))
train_labels = sorted(
    glob.glob(os.path.join(data_dir, "labelsTr", "*.nii.gz")))
data_dicts = [
    {"image": image_name, "label": label_name}
    for image_name, label_name in zip(train_images[:4], train_labels[:4])
]
train_data_dicts, val_data_dicts = data_dicts[:2], data_dicts[-2:]

如下图可以看到，我活得4组数据的路径地址

2.加载NIfTI 格式的文件[LoadImage/ LoadImaged]

MONAI的一个设计选择是，它不仅提供高级工作流组件，而且以最小的功能形式提供相对较低级别的api。

LoadImage类是底层Nibabel映像加载器的简单可调用包装器在使用一些必要的系统参数构造加载程序之后，使用NIfTI文件名调用加载程序实例将返回图像数据数组以及元数据，

例如仿射信息和体素大小。简单说就是，如果是nii.gz格式的文件，调用LoadImage，它会自动调用Nibabel来打开数据。在python中，nii.gz一般都是通过Nibabel来打开的。

LoadImage/ LoadImaged在使用时会有细小的差别，通过举例来说明。

注意注意

如果这些变换不是在Compose里面进行组合使用，单独调用时都是需要先实例化的

loader = LoadImaged(keys=("image", "label"))  
data_dict = loader(train_data_dicts[0])
print(f"image shape: {data_dict['image'].shape}")
print(f"label shape: {data_dict['label'].shape}")
print("max pixel val:{}".format(data_dict["image"].max()))
print("min pixel val:{}".format(data_dict["image"].min()))
print(f"image pixdim:\n{data_dict['image_meta_dict']['pixdim'][2]}")
print(f"image dim:\n{data_dict['image_meta_dict']['dim']}")
print(f"data_dict keys:{data_dict.keys()}")
print(f"data_dict img_meta_dict :{data_dict['image_meta_dict'].keys()}\n")
print(f"data_dict img_meta_dict :{data_dict['image_meta_dict'].values()}\n")

如上图LoadImaged是会加载图像数据和元数据的,我们打印data_dict.keys() =dict_keys(['image', 'label', 'image_meta_dict', 'label_meta_dict']) 里面包含了image和label的图像数据索引key，元数据索引key

元数据的key默认保存在{key_meta_dict}中，例如上图中的image的元数据的key 是 image_meta_dict,label的元数据key是label_meta_dict

我们可以根据data_dict['image_meta_dict']中的key来获取元数据信息

例如data_dict['image_meta_dict']['filename_or_obj'] 中保存了Image的url

data_dict['image_meta_dict']['pixdim'] 保存了图像的体素维度信息，等等

2.1 加载显示

image, label = data_dict["image"], data_dict["label"]
plt.figure("visualize", (8, 4))
plt.subplot(1, 2, 1)
plt.title("image")
plt.imshow(image[:,:,24], cmap="gray")
plt.subplot(1, 2, 2)
plt.title("label")
plt.imshow(label[:,:,24])
plt.show()

3.方向变换(Orientationd)

对图像进行一个方向变换，图像默认的方向是RAS坐标表示，如上图，进行了一个LPS的转换

axcodes 指定一个一个轴向默认是"RAS"

as_closest_canonical 如果为 True，则加载最接近规范轴格式的图像。并忽略axcodes的参数

4.分辨率变换 [Spacingd]

spacing = Spacingd(keys=["image","label"], 
    pixdim=(1.5, 1.5, 5.0), mode=("bilinear", "nearest"))
print(f"label affine before Spacingd:\n{data_dict['label_meta_dict']['affine']}")
data_dict_spa = spacing(data_dict)
print(f"image affine after Spacingd:\n{data_dict_spa['image_meta_dict']['affine']}")

4.添加和变换通道[AddChanneld/EnsureChannelFirstd/AsChannelFirstd/AsChannelLastd]

1.AddChanneld

向输入图像添加一个长度为 1 的通道维度。

大多数图像变换假设输入图像采用通道优先格式，其形状为 (num_channels, spatial_dim_1[, spatial_dim_2, …]).monai.transforms

2. EnsureChannelFirstd

自动添加一个通道的维度确保通道在shape中的第一位置

3.AsChannelFirstd

将图像的通道维度更改为第一维度。

4. AsChannelLastd

将图像的通道维度更改为最后一个维度。参数channel_dim指定哪个维度改为最后一个维度，默认第一个维度(channel_dim=0)

print(f"AddChanneld before image shape: {data_dict['image'].shape}")
add_channel = AddChanneld(keys=["image", "label"])
data_dict_addc = add_channel(data_dict)
print(f"AddChanneld after image shape: {data_dict_addc['image'].shape}")

运行结果

5.强度变换

常用的有[NormalizeIntensityd / ScaleIntensityRanged/ScaleIntensityd]

NormalizeIntensityd

查看源码发现，该函数使用的归一化方法是 image-subtrahend/divisor

参数介绍

subtrahend：被减数，可以自己指定，默认为整个图像的均值。

divisor：除数，可以自己指定，默认为整个图像的标准差。

nonzero(bool)：等于True,表示只对图像的非0区域做归一化。

channel_wise(bool)：当不指定subtrahend和divisor，为True, 表示在每个通道上进行计算均值和标准差，为False,则在整个图像上计算均值和标准差

ScaleIntensityd

1 将输入图像的强度缩放到给定的值范围 (minv, maxv)。如果未提供 minv 和 maxv，则使用因子按 v = v * (1 + 因子) 缩放图像。

minv 默认为 0

maxv 默认为 1

ScaleIntensityRanged和NormalizeIntensityd不同之处在于， ScaleIntensityRanged可以指定把哪些范围值缩放到那个区间。

比如对脾脏的分割中，我们只在于脾脏的CT值范围（假设在-300-- +300之间），而骨头等高强度的信号（大于2000）我们不需要。如果直接将这个强度进行归一化，脾脏内部的值范围就很小。我们就可以直接把脾脏的CT值范围 [-300,+300] 进行归一化到 [0, 1], 而不在[-300,+300] 这中间的值都为0。事实上，很多论文都是这样做的。

参数介绍

a_min：float，强度原始范围最小值。可以理解为需要被归一化的最小值，如我们这个例子中的-300(需要写成小数，-300.0)

a_max： float，强度原始范围最大值。可以理解为需要被归一化的最大值，如我们这个例子中的300(需要写成小数，300.0)

b_min： float, 强度目标范围最小值。可以理解为归一化后的最小值，通常设置为0.0

b_max： float, 强度目标范围最大值。可以理解为归一化后的最大值，通常设置为1.0

clip：布尔值。设置为True, 才会把[-300,+300]之外的值都设置为0.通常为True

6.空间变换[Rotate90d / Resized]

使用旋转，尤其是随机旋转的时候一定要注意，如果是分割，image和label应当一同旋转，并且旋转方式要一模一样。

Rotate90d

Resized

参数介绍

spatial_size: 序列[int, int,], 期大小调整操作之后的空间尺寸的形状

mode: resize使用的插值方式，

'默认为”area, 选择"nearest", "linear", "bilinear", "bicubic", "trilinear"

四参考文档

MONAI API:https://docs.monai.io/en/latest/api.html

MONAI tutorials:https://github.com/Project-MONAI/tutorials

csdn博客：https://blog.csdn.net/u014264373/article/details/113742194

csdn博客：https://blog.csdn.net/u014264373/article/details/113752226

你可能感兴趣的:(MONAI,深度学习,MONAI,TRANSFORM)

LSTM：解决梯度消失问题 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在深度学习领域，循环神经网络（RNN）是一种处理序列数据的强大工具。然而，RNN在处理长序列时面临着梯度消失的问题。为了解决这个问题，Hochreiter和Schmidhuber于1997年提出了长短期记忆（LSTM）网络。本文将深入探讨LSTM如何解决梯度消失问题。2.核心概念与联系2.1梯度消失问题在深度神经网络中，梯度消失是一个常见的问题。当网络的层数增加时，反向传播的梯度会随着
基于深度学习的SSD口罩识别项目完整资料版（视频教程+课件+源码+数据） AI方案2025 深度学习人工智能
基于深度学习的SSD口罩识别项目完整资料版，包含视频教程、PPT课件和源码.01项目介绍.mp402SSD算法原理回顾.mp403数据集收集.mp404自定义数据集.mp405生成anchors.mp406展示anchors.mp407计算iou值.mp408计算target.mp409定义模型.mp410模型训练.mp411预测和总结.mp412ssd生成anchor源码编写.mp413计算of
55、深度学习-自学之路-自己搭建深度学习框架-16、使用LSTM解决RNN梯度消失和梯度爆炸的问题，重写莎士比亚风格文章。小宇爱深度学习-自学之路深度学习 rnn 人工智能自然语言处理神经网络
importnumpyasnpclassTensor(object):def__init__(self,data,autograd=False,creators=None,creation_op=None,id=None):self.data=np.array(data)self.autograd=autogradself.grad=Noneif(idisNone):self.id=np.rand
【AI论文】SongGen：用于文本到歌曲生成的单阶段自回归Transformer模型东临碣石82 人工智能回归 transformer
摘要：文本到歌曲生成任务，即根据文本输入创作歌词和伴奏，由于领域复杂性和数据稀缺性，面临着重大挑战。现有方法通常采用多阶段生成流程，导致训练和推理过程繁琐。在本文中，我们提出了SongGen，一个完全开源的单阶段自回归Transformer模型，专为可控歌曲生成而设计。该模型能够对多种音乐属性进行细粒度控制，包括歌词、乐器描述、流派、情绪和音色等文本信息，同时还提供可选的三秒参考片段用于声音克隆。
自然语言处理入门：从基础概念到实战项目范范0825 自然语言处理人工智能
自然语言处理入门：从基础概念到实战项目一、引言自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能的重要分支，旨在让计算机能够理解、生成和处理人类语言。随着大数据和深度学习的发展，NLP技术在文本分类、机器翻译、问答系统、情感分析等领域得到了广泛应用。本文将从NLP的基础概念入手，逐步介绍关键技术，最终通过一个完整的实战项目帮助读者掌握如何在实际应用中使用NLP
Python深度学习实践：使用TensorFlow构建图像分类器 Evaporator Core Python开发经验 python 深度学习 tensorflow
摘要随着深度学习技术的飞速发展，图像识别已成为AI领域的热点应用之一。本篇文章将引导读者使用Python和Google的TensorFlow框架，从零开始构建一个简单的图像分类器。我们将深入探讨卷积神经网络（CNN）的基本原理，实现一个能够识别MNIST手写数字的数据集模型，并通过实战代码演示整个过程，最终展示模型的训练与评估。一、环境配置与库导入确保已安装Python3.7+版本，以及Tenso
深度学习进阶：构建多层神经网络孤寂大仙v 深度学习神经网络人工智能
在上一篇文章中，我们从零开始构建了一个简单的两层神经网络，并通过异或问题（XOR）展示了神经网络的强大能力。今天，我们将进一步深入，构建一个更复杂的多层神经网络，并引入更多高级概念，如多隐藏层、激活函数选择、正则化等。我们还会使用更复杂的分类任务来训练模型，并评估其性能。1.多层神经网络的结构在实际应用中，深度学习模型通常包含多个隐藏层，这种结构被称为深度神经网络（DNN）。多层神经网络能够学习更
transformer中seq_len参数的设置 yuweififi transformer 深度学习人工智能
在Transformer模型中，seq_len（序列长度）是一个关键的超参数，下面从不同方面详细介绍它的具体含义和作用：一、基本定义seq_len表示输入到Transformer模型中的序列所允许的最大长度。在自然语言处理任务里，文本会被拆分成一个个的单词、子词或者字符，这些元素构成了一个序列。seq_len就是对这个序列中元素数量的上限规定，它决定了模型输入和输出的维度。二、具体使用输入处理文本
pytorch基础 nn.embedding yuweififi pytorch 人工智能 nlp
nn.Embedding是PyTorch中的一个模块，用于创建嵌入层（embeddinglayer），它将离散的索引（例如词汇表中的单词索引）映射为固定大小的稠密向量。这是许多NLP模型（包括Transformer）中的基本组件。示例用法：importtorchimporttorch.nnasnn#定义一个嵌入层vocab_size=10000#词汇表大小embedding_dim=512#嵌入向
pytorch基础-layernormal 与 batchnormal yuweififi pytorch 人工智能 python
nn.LayerNorm（层归一化）和nn.BatchNorm（批量归一化）是深度学习中常用的两种归一化方法，都有助于提高模型的训练效率和稳定性，但它们在归一化维度、应用场景、计算方式等方面存在明显区别，以下为你详细介绍：1、归一化维度nn.LayerNorm：对单个样本的特征维度进行归一化。无论输入数据的形状如何，它会计算每个样本在特征维度上的均值和方差，然后进行归一化。例如，对于一个形状为(b
通过TensorFlow实现简单深度学习模型（2） yyc_audio 人工智能深度学习 python 机器学习
前文我们已经实现了对每批数据的训练，下面继续实现一轮完整的训练。完整的训练循环一轮训练就是对训练数据的每个批量都重复上述训练步骤，而完整的训练循环就是重复多轮训练。deffit(model,images,labels,epochs,batch_size=128):forepoch_counterinrange(epochs):print(f"Epoch{epoch_counter}")batch_
Transformer 代码剖析2 - 模型训练（pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、模型初始化模块参考：项目代码1.1参数统计函数defcount_parameters(model):returnsum(p.numel()forpinmodel.parameters()ifp.requires_grad)遍历模型参数筛选可训练参数统计参数数量返回总数技术解析：numel()方法计算张量元素总数requires_grad筛选需要梯度更新的参数统计结果反映模型复杂度，典型Tran
阿里巴巴DIN模型原理与Python实现 eso1983 python 开发语言算法推荐算法
阿里巴巴的DeepInterestNetwork(DIN)是一种用于点击率预测（CTR）的深度学习模型，特别针对电商场景中用户兴趣多样化和动态变化的特性设计。其核心思想是通过注意力机制动态捕捉用户历史行为中与当前候选商品相关的兴趣。1.DIN模型原理1.核心问题传统推荐模型（如Embedding+MLP）将用户历史行为视为固定长度的向量，忽略了用户兴趣的多样性。例如，用户历史行为中可能包含多个互不
Unity 列表滚动到指定位置程序猿多布 unity
使用场景策划提出需求：当玩家打开领奖界面时，奖励列表需要自动滑动到可以领奖的奖励栏处或者正在进行的任务栏处。思路1、将Content设置好对齐方式和锚点子物体的预制体和Content：pivot轴心点设置为(0,1),并且设置为左上角对齐。2、主要根据索引计算Content需要设置的高度即（RectTransform的PosY）varsumHeight=targetIndex*(itemHeigh
月之暗面改进并开源了 Muon 优化算法，对行业有哪些影响？互联网之路. 知识点开源算法
互联网各领域资料分享专区(不定期更新)：Sheet正文月之暗面团队改进并开源的Muon优化算法在深度学习和大模型训练领域引发了广泛关注，其核心创新在于显著降低算力需求（相比AdamW减少48%的FLOPs）并提升训练效率，同时通过开源推动技术生态的共建。1.显著降低大模型训练成本，推动技术普惠算力需求锐减：Muon通过引入权重衰减和一致的RMS更新，解决了原始Muon在大规模训练中的稳定性问题，使
Spring Boot 动态配置数据源全解析 ♢.＊ spring boot 后端 java
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！引言在企业级应用开发中，单一数据源往往
深入解析：如何编写 Mapper 文件 ♢.＊ oracle 数据库 mybatis
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在软件开发尤其是涉及数据库交互的项目中
Spring Boot 中 @Transactional 注解全面解析 ♢.＊ spring boot 数据库 sql
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！引言在企业级应用开发中，数据的一致性和
《AI 大模型 ChatGPT 的传奇》武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js 算法数据结构
《AI大模型ChatGPT的传奇》——段方某世界100强企业大数据/AI总设计师教授北京大学博士后助理：1三6三二四61四五41AI大模型的概念和特点1.1什么是”大模型、多模态“？1.2大模型带来了什么？1.3大模型为什么能产生质变？1.4算法层面的跃升1.4.1RNN到transformor1.4.2扩散模型diffusion1.4.3跨模态的CLIP框架1.5AIGC的耀眼成果1.5.1AI
大模型专栏博文汇总和索引 Donvink 大模型 transformer 深度学习人工智能语言模型
大模型专栏主要是汇总了我在学习大模型相关技术期间所做的一些总结和笔记，主要包括以下几个子专栏：DeepSeek-R1AIGC大模型实践Transformer多模态系统视频理解对比学习目标检测目标跟踪图神经网络大模型专栏汇总了以上所有子专栏的论文，目前暂时先按照不同的技术领域划分子专栏，子专栏之间的内容可能会有交集，不完全是独立的。为了方便查阅相关模块的内容，故以此文章进行汇总与索引。一、DeepS
深度学习模型优化与医疗诊断应用突破智能计算研究中心其他
内容概要近年来，深度学习技术的迭代演进正在重塑医疗诊断领域的实践范式。随着PyTorch与TensorFlow等开源框架的持续优化，模型开发效率显著提升，为医疗场景下的复杂数据处理提供了技术基座。当前研究聚焦于迁移学习与模型压缩算法的协同创新，通过复用预训练模型的泛化能力与降低计算负载，有效解决了医疗数据样本稀缺与硬件资源受限的痛点问题。与此同时，自适应学习机制通过动态调整网络参数更新策略，在病理
阿里云服务器的作用腾云服务器阿里云服务器云计算
使用阿里云服务器能做什么？大家都知道可以用来搭建网站、数据库、机器学习、Python爬虫、大数据分析等应用，阿里云服务器网来详细说下使用阿里云服务器常见的玩法以及企业或个人用户常见的使用场景：玩转阿里云服务器使用阿里云服务器最常见的应用就是用来搭建网站，例如个人博客、企业网站等；除了搭建网站还可以利用阿里云GPU服务器搭建机器学习和深度学习等AI应用；使用阿里云大数据类型云服务器做数据分析；利用云
阿里云人工智能与机器学习 HaoHao_010 阿里云云服务器云计算服务器
阿里云的人工智能（AI）与机器学习（ML）服务为企业提供了全面的AI解决方案，帮助用户在多个行业实现数据智能化，提升决策效率，推动业务创新。阿里云通过先进的技术和丰富的工具，支持用户开发、部署和管理AI应用。以下是阿里云在人工智能和机器学习方面的主要产品与服务：1.云上机器学习平台—PaaS服务PAI(PlatformforAI)PAI是阿里云推出的人工智能平台，提供一系列机器学习与深度学习工具和
AI探索笔记：浅谈人工智能算法分类安意诚Matrix 机器学习笔记人工智能笔记
人工智能算法分类这是一张经典的图片，基本概况了人工智能算法的现状。这张图片通过三个同心圆展示了人工智能、机器学习和深度学习之间的包含关系，其中人工智能是最广泛的范畴，机器学习是其子集，专注于数据驱动的算法改进，而深度学习则是机器学习中利用多层神经网络进行学习的特定方法。但是随着时代的发展，这张图片表达得也不是太全面了。我更喜欢把人工智能算法做如下的分类：传统机器学习算法-线性回归、逻辑回归、支持向
VQ-Diffusion 深度解析与实战指南晏灵昀Odette
VQ-Diffusion深度解析与实战指南VQ-Diffusion项目地址:https://gitcode.com/gh_mirrors/vqd/VQ-Diffusion1.项目介绍VQ-Diffusion是一个用于文本到图像合成的深度学习模型，基于矢量量化变分自编码器（VQ-VAE）和去噪扩散概率模型（DenoisingDiffusionProbabilisticModel）。该模型通过将DDP
【模块】AKConv卷积模块 dearr__ 扒网络模块深度学习人工智能
论文《AKConv:ConvolutionalKernelwithArbitrarySampledShapesandArbitraryNumberofParameters》1、作用AKConv旨在解决深度学习中标准卷积操作的两个固有限制：限定在局部窗口内，限制了从其他位置捕获信息的能力；卷积核固定大小，限制了对不同目标形状和大小的适应能力。这种新方法允许卷积核具有任意参数和采样形状，提供了一种灵活
ELMo ，LM：一串词序列的概率分布probability distribution over sequences of words 强化学习曾小健 NLP自然语言处理 #预训练语言模型
语言模型（LanguageModel），语言模型简单来说就是一串词序列的概率分布。Languagemodelisaprobabilitydistributionoversequencesofwords.GPT与ELMo当成特征的做法不同，OpenAIGPT不需要再重新对任务构建新的模型结构，而是直接在transformer这个语言模型上的最后一层接上softmax作为任务输出层，然后再对这整个模型
DCMNet一种用于目标检测的轻量级骨干结构模型详解及代码复现清风AI 深度学习算法详解及代码复现深度学习机器学习计算机视觉人工智能算法目标检测
模型背景在深度学习技术快速发展的背景下，目标检测领域取得了显著进展。早期的手工特征提取方法如Viola-Jones和HOG逐渐被卷积神经网络（CNN）取代，其中AlexNet在2012年的ILSVRC比赛中表现突出，推动了CNN在计算机视觉中的广泛应用。然而，这些早期模型在精度和效率方面仍存在不足，尤其是在处理复杂场景和小目标时表现不佳。这为DCMNet等新型轻量化目标检测模型的出现提供了契机，旨
DeepSeek应用领域全景解析：驱动产业智能化升级的六大核心方向量子纠缠BUG DeepSeek部署 AI DeepSeek 人工智能 AI编程深度学习
一、引言：DeepSeek为何成为产业智能化首选？作为国产大模型的标杆产品，DeepSeek凭借其万亿级参数规模、MoE混合专家架构和多模态交互能力，正在重构产业智能化升级的技术路径。本文基于官方技术文档与行业实践案例，深入剖析DeepSeek在六大核心领域的应用突破与商业价值实现二、技术底座：支撑多领域落地的三大创新架构1.Transformer-XL增强架构通过引入Multi-HeadLate
Ollama本地私有化部署通义千问大模型Qwen2.5 ErbaoLiu 数据分析&大模型机器学习&大模型自然语言处理&大模型大模型 LLM Qwen2.5 Qwen2 Ollama
目录Qwen2.5介绍Qwen2.5新闻Ollama介绍Linux安装Ollama一键安装Ollama手工安装Ollama卸载OllamaOllama运行Qwen2基于Transformers进行推理本文复现环境：Python3.12.6+Windows8.1+LinuxCentOS7+PyCharmCommunityEdition2022.3.3。Qwen2.5github地址如下：GitHub
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他