春野运

I3D网络主体代码详解

I3D是DeepMind发表于CVPR2017上的一个工作，对于视频理解领域的发展起到了不可磨灭的作用，目前仍作为视频理解的基线网络而被大家广泛使用。

在文中，作者进行的为视频动作识别这个任务，但是这个网络并不局限于此。

网络是提取特征的手段，而进行不同的任务相当于是在进行不同的特征空间映射，我们改变不同的标签即可进行不同的任务，比如说视频情绪识别、微表情识别等等。

我们广泛采用微调的形式来进行此类任务，一般会取得不错的效果，在这里分享下我对于I3D主体网络的一些任务，因为时间原因进行的比较仓促，难免会有错误，望大家多多包涵。

代码：GitHub - piergiaj/pytorch-i3d

from torch import optim
import torch
import torch.nn as nn
import torch.nn.functional as F
import utils
import torch.utils.data as data_utl
import numpy as np


#----------------------------------------#
# 对于MaxPool3dSamePadding结构的定义
# 其为继承nn.MaxPool3d这个方法来进行定义
#----------------------------------------#
class MaxPool3dSamePadding(nn.MaxPool3d):

    def compute_pad(self, dim, s):
        if s % self.stride[dim] == 0:
            return max(self.kernel_size[dim] - self.stride[dim], 0)
        else:
            return max(self.kernel_size[dim] - (s % self.stride[dim]), 0)

    def forward(self, x):

        (batch, channel, t, h, w) = x.size()
        #---------------------------------#
        # compute 'same' padding
        # 分别计算维度 t,h以及w的pad
        #---------------------------------#
        pad_t   = self.compute_pad(0, t)
        pad_h   = self.compute_pad(1, h)
        pad_w   = self.compute_pad(2, w)

        pad_t_f = pad_t // 2
        pad_t_b = pad_t - pad_t_f

        pad_h_f = pad_h // 2
        pad_h_b = pad_h - pad_h_f

        pad_w_f = pad_w // 2
        pad_w_b = pad_w - pad_w_f
        #----------------------#
        # 将三个维度的pad分别表示
        # 出来之后,将pad求出
        #----------------------#
        pad     = (pad_w_f, pad_w_b, pad_h_f, pad_h_b, pad_t_f, pad_t_b)
        x       = F.pad(x, pad)

        return super(MaxPool3dSamePadding, self).forward(x)


#--------------------------------------#
# 对于Unit3D这个类的定义
# 我们将Conv3d中的padding设置为0,我们将会
# 根据输入的变化来动态的进行pad
# 对于这个模块我们将其看作2D目标检测中的
# conv+bn+relu
# 即为大结构中一次普通的卷积操作
#--------------------------------------#
class Unit3D(nn.Module):
    def __init__(self, in_channels, output_channels, kernel_shape=(1, 1, 1), stride=(1, 1, 1),
                 padding=0, activation_fn=F.relu, use_batch_norm=True, use_bias=False, name='unit_3d'):
        super(Unit3D, self).__init__()

        self._output_channels  = output_channels
        self._kernel_shape     = kernel_shape
        self._stride           = stride
        self._use_batch_norm   = use_batch_norm
        self._activation_fn    = activation_fn
        self._use_bias         = use_bias
        self.name              = name
        self.padding           = padding
        self.conv3d            = nn.Conv3d(in_channels=in_channels, out_channels=self._output_channels, kernel_size=self._kernel_shape,
                                           stride=self._stride, padding=self.padding, bias=self._use_bias)
        #------------------------------#
        # 在该类中为use_batch_norm=True
        # 表明将会使用3d的BatchNorm
        #------------------------------#
        if self._use_batch_norm:
            self.bn = nn.BatchNorm3d(self._output_channels, eps=0.001, momentum=0.01)

    def compute_pad(self, dim, s):
        if s % self._stride[dim] == 0:
            return max(self._kernel_shape[dim] - self._stride[dim], 0)
        else:
            return max(self._kernel_shape[dim] - (s % self._stride[dim]), 0)

    def forward(self, x):
        #--------------------------------#
        # 在这个类中其具体的实现顺序为
        # 3d卷积 -> BatchNorm3d -> relu
        #--------------------------------#
        x = self.conv3d(x)
        if self._use_batch_norm:
            x = self.bn(x)
        if self._activation_fn is not None:
            x = self._activation_fn(x)
        return x


#-----------------------------------#
# 此为对于InceptionModule的定义
# 为多次卷积堆叠而来的结构
# 将会在InceptionI3d使用
#-----------------------------------#
class InceptionModule(nn.Module):
    def __init__(self, in_channels, out_channels, name):
        super(InceptionModule, self).__init__()

        self.b0   = Unit3D(in_channels=in_channels, output_channels=out_channels[0], kernel_shape=[1, 1, 1], padding=0, name=name + '/Branch_0/Conv3d_0a_1x1')

        self.b1a  = Unit3D(in_channels=in_channels, output_channels=out_channels[1], kernel_shape=[1, 1, 1], padding=1, name=name + '/Branch_1/Conv3d_0a_1x1')
        self.b1b  = Unit3D(in_channels=out_channels[1], output_channels=out_channels[2], kernel_shape=[3, 3, 3], name=name + '/Branch_1/Conv3d_0b_3x3')

        self.b2a  = Unit3D(in_channels=in_channels, output_channels=out_channels[3], kernel_shape=[1, 1, 1], padding=1, name=name + '/Branch_2/Conv3d_0a_1x1')
        self.b2b  = Unit3D(in_channels=out_channels[3], output_channels=out_channels[4], kernel_shape=[3, 3, 3], name=name + '/Branch_2/Conv3d_0b_3x3')

        self.b3a  = MaxPool3dSamePadding(kernel_size=[3, 3, 3],stride=(1, 1, 1), padding=0)
        self.b3b  = Unit3D(in_channels=in_channels, output_channels=out_channels[5], kernel_shape=[1, 1, 1], padding=0, name=name + '/Branch_3/Conv3d_0b_1x1')

        self.name = name

    def forward(self, x):
        #---------------------------------#
        # 此为根据Inception的结构进行搭建
        # 总共有四个输出,之后将它们堆叠然后输出
        #---------------------------------#
        b0 = self.b0(x)
        b1 = self.b1b(self.b1a(x))
        b2 = self.b2b(self.b2a(x))
        b3 = self.b3b(self.b3a(x))

        return torch.cat([b0, b1, b2, b3], dim=1)

#------------------------------------------#
# Inception-v1 I3D architecture网络结构定义
# 使用的为上述定义的三个模块
#------------------------------------------#
class InceptionI3d(nn.Module):

    VALID_ENDPOINTS = (
        'Conv3d_1a_7x7',
        'MaxPool3d_2a_3x3',
        'Conv3d_2b_1x1',
        'Conv3d_2c_3x3',
        'MaxPool3d_3a_3x3',
        'Mixed_3b',
        'Mixed_3c',
        'MaxPool3d_4a_3x3',
        'Mixed_4b',
        'Mixed_4c',
        'Mixed_4d',
        'Mixed_4e',
        'Mixed_4f',
        'MaxPool3d_5a_2x2',
        'Mixed_5b',
        'Mixed_5c',
        'Logits',
        'Predictions',
    )
    def __init__(self, num_classes=400, spatial_squeeze=True, final_endpoint='Logits', name='inception_i3d', in_channels=3, dropout_keep_prob=0.5):
        super(InceptionI3d, self).__init__()

        #--------------------------------------#
        # 这个初始化函数的作用为定义在网络结构中会用到的
        # 方法以及属于该类的一些函数的定义
        #--------------------------------------#
        """Initializes I3D model instance.
        Args:
          num_classes: The number of outputs in the logit layer (default 400, which
              matches the Kinetics dataset).

          spatial_squeeze: Whether to squeeze the spatial dimensions for the logits
              before returning (default True).

          final_endpoint: The model contains many possible endpoints.
              `final_endpoint` specifies the last endpoint for the model to be built
              up to. In addition to the output at `final_endpoint`, all the outputs
              at endpoints up to `final_endpoint` will also be returned, in a
              dictionary. `final_endpoint` must be one of
              InceptionI3d.VALID_ENDPOINTS (default 'Logits').

          name: A string (optional). The name of this module.
        Raises:
          ValueError: if `final_endpoint` is not recognized.
        """
        #-------------------------------#
        # final_endpoint默认为logits
        #-------------------------------#
        if final_endpoint not in self.VALID_ENDPOINTS:
            raise ValueError('Unknown final endpoint %s' % final_endpoint)

        self._num_classes     = num_classes
        self._spatial_squeeze = spatial_squeeze
        self._final_endpoint  = final_endpoint
        self.logits           = None

        if self._final_endpoint not in self.VALID_ENDPOINTS:
            raise ValueError('Unknown final endpoint %s' % self._final_endpoint)
        #------------------------------#
        # 此为定义一个空字典,用于存储模块名称
        # 及其相对应的描述
        # 是键值对的形式
        #------------------------------#
        self.end_points       = {}

        #--------------------------------------------#
        # 该模块的描述为Conv3d_1a_7x7
        # 其所对应的具体形式为Unit3D
        # 当最后一个块为Conv3d_1a_7x7,将会返回相应的结果
        # 以下模块均为如下的定义方式
        #--------------------------------------------#
        end_point                  = 'Conv3d_1a_7x7'
        self.end_points[end_point] = Unit3D(in_channels=in_channels, output_channels=64, kernel_shape=[7, 7, 7],
                                            stride=(2, 2, 2), padding=(3, 3, 3), name=name + end_point)
        if self._final_endpoint   == end_point: return

        end_point                  = 'MaxPool3d_2a_3x3'
        self.end_points[end_point] = MaxPool3dSamePadding(kernel_size=[1, 3, 3], stride=(1, 2, 2),padding=0)
        if self._final_endpoint   == end_point: return

        end_point                  = 'Conv3d_2b_1x1'
        self.end_points[end_point] = Unit3D(in_channels=64, output_channels=64, kernel_shape=[1, 1, 1], padding=0,name=name + end_point)
        if self._final_endpoint   == end_point: return

        end_point                  = 'Conv3d_2c_3x3'
        self.end_points[end_point] = Unit3D(in_channels=64, output_channels=192, kernel_shape=[3, 3, 3], padding=1,name=name + end_point)
        if self._final_endpoint   == end_point: return

        end_point                  = 'MaxPool3d_3a_3x3'
        self.end_points[end_point] = MaxPool3dSamePadding(kernel_size=[1, 3, 3], stride=(1, 2, 2),padding=0)
        if self._final_endpoint   == end_point: return

        end_point                  = 'Mixed_3b'
        self.end_points[end_point] = InceptionModule(192, [64, 96, 128, 16, 32, 32], name + end_point)
        if self._final_endpoint   == end_point: return

        end_point                  = 'Mixed_3c'
        self.end_points[end_point] = InceptionModule(256, [128, 128, 192, 32, 96, 64], name + end_point)
        if self._final_endpoint   == end_point: return

        end_point                  = 'MaxPool3d_4a_3x3'
        self.end_points[end_point] = MaxPool3dSamePadding(kernel_size=[3, 3, 3], stride=(2, 2, 2),padding=0)
        if self._final_endpoint   == end_point: return

        end_point                  = 'Mixed_4b'
        self.end_points[end_point] = InceptionModule(128 + 192 + 96 + 64, [192, 96, 208, 16, 48, 64], name + end_point)
        if self._final_endpoint   == end_point: return

        end_point                  = 'Mixed_4c'
        self.end_points[end_point] = InceptionModule(192 + 208 + 48 + 64, [160, 112, 224, 24, 64, 64], name + end_point)
        if self._final_endpoint   == end_point: return

        end_point                  = 'Mixed_4d'
        self.end_points[end_point] = InceptionModule(160 + 224 + 64 + 64, [128, 128, 256, 24, 64, 64], name + end_point)
        if self._final_endpoint   == end_point: return

        end_point                  = 'Mixed_4e'
        self.end_points[end_point] = InceptionModule(128 + 256 + 64 + 64, [112, 144, 288, 32, 64, 64], name + end_point)
        if self._final_endpoint   == end_point: return

        end_point                  = 'Mixed_4f'
        self.end_points[end_point] = InceptionModule(112 + 288 + 64 + 64, [256, 160, 320, 32, 128, 128],name + end_point)
        if self._final_endpoint   == end_point: return

        end_point                  = 'MaxPool3d_5a_2x2'
        self.end_points[end_point] = MaxPool3dSamePadding(kernel_size=[2, 2, 2], stride=(2, 2, 2),padding=0)
        if self._final_endpoint   == end_point: return

        end_point                  = 'Mixed_5b'
        self.end_points[end_point] = InceptionModule(256 + 320 + 128 + 128, [256, 160, 320, 32, 128, 128],name + end_point)
        if self._final_endpoint   == end_point: return

        end_point                  = 'Mixed_5c'
        self.end_points[end_point] = InceptionModule(256 + 320 + 128 + 128, [384, 192, 384, 48, 128, 128],name + end_point)
        if self._final_endpoint   == end_point: return

        end_point     = 'Logits'
        self.avg_pool = nn.AvgPool3d(kernel_size=[2, 7, 7],stride=(1, 1, 1))
        self.dropout  = nn.Dropout(dropout_keep_prob)
        self.build()
        #-------------------------------------------#
        # 对于logits,我们使用一个3D卷积块来实现即可
        # 这里面的类别是按照 Kinetics数据集的400类来定义的
        #-------------------------------------------#
        self.logits   = Unit3D(in_channels=384 + 384 + 128 + 128, output_channels=self._num_classes,
                             kernel_shape=[1, 1, 1],
                             padding=0,
                             activation_fn=None,
                             use_batch_norm=False,
                             use_bias=True,
                             name='logits')
    #---------------------------------------#
    # 当训练我们自己的数据集的时候,可以使用
    # replace_logits来定义自己数据集中的类别数
    #---------------------------------------#
    def replace_logits(self, num_classes):
        self._num_classes = num_classes
        self.logits = Unit3D(in_channels=384 + 384 + 128 + 128, output_channels=self._num_classes,
                             kernel_shape=[1, 1, 1],
                             padding=0,
                             activation_fn=None,
                             use_batch_norm=False,
                             use_bias=True,
                             name='logits')
    #------------------------------------#
    # 在上面的初始化函数中,我们已经将需要使用的
    # 模块全部定义到end_points这个字典里面
    # 这个函数的目的在于将这些模块全部加入至
    # module里面进而方便后续的调用
    #------------------------------------#
    def build(self):
        for k in self.end_points.keys():
            self.add_module(k, self.end_points[k])

    #--------------------------------#
    # 整体网络前向传播函数的定义
    #--------------------------------#
    def forward(self, x):
        #----------------------------------------#
        # 对于之前定义的模块的调用
        # use _modules to work with dataparallel
        #----------------------------------------#
        for end_point in self.VALID_ENDPOINTS:
            if end_point in self.end_points:
                x = self._modules[end_point](x)
        #------------------------------------------------------------#
        # After passing through all of these modules abovementioned
        # 3d平均池化 -> dropout -> logits(3D卷积块)
        #------------------------------------------------------------#
        logits = self.logits(self.dropout(self.avg_pool(x)))

        #--------------------------------#
        # 若存在空间压缩,则会进行压缩维度操作
        # 首先在第四维度上压缩,之后再压缩一次
        # 只有当被压缩的维度值为1时压缩才会有效！
        #--------------------------------#
        if self._spatial_squeeze:
            logits = logits.squeeze(3).squeeze(3)
        #-------------------------------------------------------------------------#
        # 相当于直接将第二维度给合并
        # logits is batch X time X classes, which is what we want to work with
        # 过softmax进行归一化操作得到最后的概率
        #-------------------------------------------------------------------------#
        logits = torch.mean(logits, dim=2)
        return F.softmax(logits)

    #------------------------------------#
    # 只提取图像特征,并再最后过一层3d平均池化
    # 得到最终的特征图像
    #------------------------------------#
    def extract_features(self, x):
        for end_point in self.VALID_ENDPOINTS:
            if end_point in self.end_points:
                x = self._modules[end_point](x)
        return self.avg_pool(x)

DeepSeek：突破传统的AI算法与下载排行分析 smart_ljh 行业搜索人工智能 AI
DeepSeek的AI算法突破DeepSeek相较于OpenAI以及其它平台的性能对比DeepSeek的下载排行分析（截止2025/1/28AI人工智能相关DeepSeek甚至一度被推上了搜索）未来发展趋势总结在人工智能技术飞速发展的当下，搜索引擎市场也迎来了新的变革。DeepSeek，作为一款基于深度学习技术和大数据算法的搜索引擎，以其独特的优势在国内外市场上引起了广泛关注。下面介绍一下针对De
DeepSeek--通向通用人工智能的深度探索者油泼辣子多加专业名词解释人工智能
一、词源与全称“DeepSeek"由"Deep”（深度）与"Seek"（探索）组合而成，中文译名为"深度求索"。其全称为"深度求索人工智能基础技术研究有限公司"，英文对应"DeepSeekArtificialIntelligenceResearchInstitute"。这一命名体现了企业对深度学习技术与未知领域持续探索的双重追求。二、发展历程初创期（2023）公司成立于中国杭州，创始团队汇聚了来自
【计算机视觉】图像滤波油泼辣子多加计算机视觉计算机视觉人工智能 python 神经网络
1.图像滤波定义图像滤波是一种非常重要的图像处理技术，图像平滑、边缘检测、边缘增强、去除噪声都属于图像滤波，图像滤波是一种基于邻域的算法。通过图像滤波，可以实现图像平滑、边缘检测；图像平滑也叫图像模糊，用以去除图像中的噪声、伪影等，它是图像处理和计算机视觉的常见步骤。函数模糊类型特点使用场景cv.blur均值模糊简单快速，所有像素权重相等基础平滑和降噪cv.GaussianBlur高斯模糊中心权重
linux git clone出现fatal: unable to access Failed to connect to github.com port 443: Timed out解决方案 herosunly C/C++/Linux解决方案 linux git github timeout port 443
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了linuxgitclone出现fatal:unabletoaccessF
SalFAU-Net:显著性目标检测的显著性融合注意U-Net 明初啥都能学会目标检测人工智能计算机视觉
SalFAU-Net:显著性目标检测的显著性融合注意U-Net摘要IntroductionRelatedWorksSalFAU-Net:SaliencyFusionAttentionU-NetforSalientObjectDetection摘要显著目标检测（SOD）在计算机视觉中仍然是一个重要的任务，其应用范围从图像分割到自动驾驶。基于全卷积网络（FCN）的方法在过去几十年里在视觉显著性检测方面
人脸识别的经典深度学习方法明初啥都能学会深度学习人工智能
人脸识别的经典深度学习方法引言1.卷积神经网络（CNN）1.1LeNet1.2AlexNet1.3VGGNet1.4ResNet2.人脸检测2.1Viola-Jones算法2.2基于深度学习的人脸检测3.人脸特征提取3.1主成分分析（PCA）3.2人脸对齐3.2.1基于特征点的对齐3.2.2基于深度学习的对齐4.人脸识别模型4.1传统机器学习方法4.2基于深度学习的方法5.公式解读5.1卷积运算5
基于深度学习的遥感目标检测系统：UI界面、R-CNN模型与数据集准备 2025年数学建模美赛 R-CNN检测系统人工智能深度学习 r语言 cnn python ui 目标检测
一、引言遥感图像中的目标检测在很多领域，如环境监测、土地利用、城市规划、农业资源监测等方面有着广泛应用。遥感图像具有高分辨率和丰富的空间信息，但同时也带来了目标检测中的许多挑战，特别是在目标尺度变化、遮挡和复杂背景的情况下。因此，采用深度学习技术，尤其是卷积神经网络（CNN）和区域卷积神经网络（R-CNN），在遥感图像目标检测中取得了显著的成果。本文将详细介绍基于深度学习的遥感目标检测系统，使用R
ultralytics 是什么？博刻 AI 学习笔记 python
ultralytics是一个用于计算机视觉任务的Python库，专注于提供高效、易用的目标检测、实例分割和图像分类工具。它最著名的功能是实现YOLO（YouOnlyLookOnce）系列模型，特别是最新的YOLOv8。1.YOLO是什么？YOLO是一种流行的目标检测算法，以其速度快和精度高而闻名。YOLO的核心思想是将目标检测问题转化为一个回归问题，直接预测目标的边界框和类别。YOLOv8是YOL
Kaggle房价预测一名小菜鸟的学习之路深度学习pytorch 深度学习机器学习 python 人工智能神经网络
Kaggle房价预测作为深度学习基础篇章的总结，我们将对本章内容学以致用。下面，让我们动手实战一个Kaggle比赛：房价预测。本节将提供未经调优的数据的预处理、模型的设计和超参数的选择。我们希望读者通过动手操作、仔细观察实验现象、认真分析实验结果并不断调整方法，得到令自己满意的结果。%matplotlibinlineimporttorchimporttorch.nnasnnimportnumpya
C++ 与机器学习：构建高效推理引擎的秘诀 salsm C++编程魔法师 c++机器学习开发语言
随着深度学习模型逐渐从研究走向生产环境，推理能力成为部署中的关键环节。模型的推理引擎需要以极低的延迟快速处理输入数据，同时最大化地利用硬件资源。虽然Python被广泛用于模型的训练和开发，但C++却在推理领域独占鳌头，其性能优势和硬件控制能力无可替代。在这篇文章中，我们将从为什么选择C++、构建高效推理引擎的细节，以及相似的开源项目三个方面深入探讨如何利用C++打造高效的机器学习推理引擎。目录为什
《动手学深度学习》(PyTorch版) chaser&upper 深度学习 pytorch 深度学习 python
《动手学深度学习》PyTorch版前言简介面向人群食用方法方法一方法二方法三目录原书地址引用阅读指南前言读书啦！！！本项目将《动手学深度学习》原书中MXNet代码实现改为PyTorch实现。原书作者：阿斯顿·张、李沐、扎卡里C.立顿、亚历山大J.斯莫拉以及其他社区贡献者，GitHub地址：https://github.com/d2l-ai/d2l-zh此书的中英版本存在一些不同，针对此书英文版的P
从简单到深刻的认知发展 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知发展，人工智能，深度学习，神经网络，机器学习，自然语言处理，计算机视觉1.背景介绍认知发展是人类从简单到复杂的思维方式演进的过程，它涉及感知、记忆、语言、推理和决策等多个方面。随着人工智能技术的飞速发展，我们开始尝试用计算机模拟人类的认知能力，构建能够学习、理解和解决复杂问题的智能系统。从早期的符号逻辑到如今的深度学习，人工智能的发展经历了多个阶段。早期的人工智能研究主要集中在规则和逻辑推理上
使用onnxruntime-web 运行yolov8-nano推理 CHEN_RUI_2200 机器学习 YOLO
ONNX（OpenNeuralNetworkExchange）模型具有以下两个特点促成了我们可以使用onnxruntime-web直接在web端上运行推理模型，为了让这个推理更直观，我选择了试验下yolov8识别预览图片：1.跨平台兼容性ONNX是一种开放的格式，可以在不同的深度学习框架之间共享模型，如PyTorch、TensorFlow、MXNet和Caffe2。这使得用户可以在一个框架中训练模
人工智能学习框架：深入解析与实战指南一ge科研小菜鸡人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着人工智能（AI）技术的飞速发展，深度学习、强化学习和自然语言处理等领域的应用愈加广泛。掌握人工智能学习框架（如TensorFlow、PyTorch、Keras等）已成为开发智能系统、研究前沿技术的必备技能。本指南将全面介绍人工智能主流学习框架的特点、安装方法、核心功能，以及通过实践案例展示如何使用这些框架进行AI模型开发、训练与优化。1.
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，深度学习作为其主要驱动力之一，已经在各个领域取得了显著的成果。然而，随着模型规模的不断扩大，如何高效地搭建、训练和部署深度学习模型，成为一个亟待解决的问题。传统的单机训练方式在计算资源有限的情况
# 第一章：认识chatgpt 出门喝奶茶 chatgpt chatgpt
chatgpt发展背景详细介绍一、基础理论背景人工智能和自然语言处理的兴起早期理论:20世纪中期，人工智能（AI）初见端倪，目标是模拟人类智能。自然语言处理作为AI的重要分支，致力于让机器理解和生成人类语言。关键里程碑:1980年代的统计方法和2000年代的神经网络技术，使NLP实现了从规则驱动到数据驱动的转变。神经网络与深度学习2010年代，深度学习的兴起极大推动了NLP的发展。基于大规模语料库
机器学习&深度学习目录 UQI-LIUWJ 各专栏目录深度学习人工智能 1024程序员节
机器学习模型机器学习笔记：Transformer_刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ViT（论文AnImageIsWorth16X16Words:TransformersforImageRecognitionatScale）_UQ
使用Python调用OpenCV中的solvePnP函数 WzisTypescript python opencv 开发语言 OpenCV
OpenCV是一个广泛使用的计算机视觉库，它提供了许多用于处理图像和视频的功能。其中一个重要的功能是解决透视投影问题，也就是通过已知的3D点和对应的2D图像点来计算相机的位姿。在OpenCV中，solvePnP函数就是用于解决这个问题的。solvePnP函数使用了一种称为Perspective-n-Point（PnP）问题的算法，它可以估计相机的旋转和平移向量，从而确定相机在3D空间中的位置。这对
遥感深度学习过程中图像分割的尺寸对模型训练结果的影响司南锤深度学习遥感深度学习人工智能
1.计算资源与显存占用大尺寸图像：需要更高的显存和计算资源，可能限制训练时的批大小（batchsize），甚至导致无法训练。解决方案：通常将大图裁剪为小尺寸的补丁（patches），例如256x256或512x512。小尺寸图像：显存占用低，但可能丢失全局上下文信息（如大面积地物分布），影响模型对复杂场景的理解。2.模型感受野与上下文信息小尺寸输入：模型感受野受限，可能无法捕捉大范围地物（如河流、
cv python_python里面cv是什么意思 weixin_40004659 cv python
OpenCV(OpenSourceComputerVisionLibrary)开放源代码计算机视觉库，主要算法涉及图像处理、计算机视觉和机器学习相关方法。OpenCV其实就是一堆C和C++语言的源代码文件，这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV由一系列C函数和C++类构成，它有C，C++，Python和java接口，当前SDK(SoftwareDevelopmentKit软件
#深度学习：从基础到实践 single_ffish 深度学习 gpt 神经网络生成对抗网络 1024程序员节
深度学习是人工智能领域近年来最为火热的技术之一。它通过构建由多个隐藏层组成的神经网络模型，能够从海量数据中自动学习特征和表征,在图像识别、自然语言处理、语音识别等领域取得了突破性进展。本文将全面介绍深度学习的基础知识、主要算法和实践应用,帮助您快速掌握这一前沿技术。1.深度学习的基础1.1人工神经网络深度学习是基于人工神经网络(ArtificialNeuralNetwork,ANN)的一种机器学习
【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析 985小水博一枚呀深度学习地学应用深度学习人工智能
【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析文章目录【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析前言一、使用高分6号遥感影像结合深度学习对梦柯冰川的研究方向1.冰川边界自动化提取2.冰川变化动态监测3.冰川分类与分布特征分析二、梦柯冰川（MunkuGlacier）的
基于R-CNN深度学习的无人机目标检测系统：数据集、模型和UI界面的完整实现 2025年数学建模美赛 R-CNN检测系统深度学习 cnn 无人机计算机视觉目标检测人工智能
摘要随着无人机技术的迅猛发展，无人机在军事、农业、环境监测等多个领域的应用日益广泛。无人机目标检测系统的建设成为提升无人机自主飞行和环境感知能力的重要环节。本文将详细介绍如何构建一个基于深度学习的无人机目标检测系统，采用R-CNN（区域卷积神经网络）算法，通过用户界面设计和数据集处理，实现高效的目标检测功能。通过本项目，旨在为无人机目标检测提供一种可行的解决方案，并提高其在复杂环境下的工作效率。目
【Python】已解决：error: subprocess-exited-with-error 屿小夏 python 开发语言 linux
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
探索人工智能在计算机视觉领域的创新应用与挑战戒了9 人工智能学习方法
一、引言1.1研究背景与意义在科技飞速发展的当下，人工智能（ArtificialIntelligence,AI）已然成为引领新一轮科技革命和产业变革的重要驱动力。作为AI领域的关键分支，计算机视觉（ComputerVision,CV）致力于让计算机具备像人类一样理解和解析图像、视频等视觉信息的能力，近年来取得了令人瞩目的进展。二者的深度融合，更是为众多领域带来了前所未有的变革与机遇。从技术发展历程
AI在电商平台商品描述生成中的应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI在电商平台商品描述生成中的应用关键词：人工智能、电商平台、商品描述、自然语言处理、机器学习、深度学习摘要：本文深入探讨了人工智能在电商平台商品描述生成中的应用。首先，我们回顾了人工智能的概述和电商平台的发展背景。随后，分析了商品描述在电商平台中的重要性以及存在的问题。接下来，我们重点介绍了AI在商品描述生成中的应用技术，包括自然语言处理、机器学习和深度学习等。文章还通过实战案例展示了AI商品描
【Python】已解决：（cmd进入Python环境报错）No Python at ‘C:\Users…\Python\Python39\python.exe’ 屿小夏 python linux 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习之基于Django+YOLOv5商标识别 Q1744828575 python plotly python
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在数字化时代，商标作为企业的重要资产，其保护和管理显得尤为重要。然而，传统的商标识别方法往往依赖于人工审查，效率低下且容易出错。随着深度学习技术的不断发展，尤其是目标检测领域的进步，自动化、高精度的商标识别成为可能。本项目旨在利用DjangoWeb框架和YOLO
动手学深度学习-卷积神经网络-3填充和步幅像污秽一样动手学深度学习深度学习 cnn 人工智能神经网络
目录填充步幅小结在上一节的例子（下图）中，输入的高度和宽度都为3，卷积核的高度和宽度都为2，生成的输出表征的维数为2×2。正如我们在上一节中所概括的那样，假设输入形状为nh×nw，卷积核形状为kh×kw，那么输出形状将是(nh−kh+1)×(nw−kw+1)。因此，卷积的输出形状取决于输入形状和卷积核的形状。还有什么因素会影响输出的大小呢？本节我们将介绍填充（padding）和步幅（stride）
RTX 4090D和A10和T4显卡差别、价格对比张3蜂软件安装部署开源神经网络人工智能深度学习机器学习
RTX4090D、NVIDIAA10和NVIDIAT4三款显卡在设计用途、性能、功耗、价格等方面都有显著差异，以下是它们的主要区别：1.设计用途：RTX4090D:面向高端消费者市场，主要用于游戏、内容创作和3D渲染，适合需要高图形性能的用户，如游戏玩家和内容创作者。NVIDIAA10:专为数据中心和企业应用设计，优化了AI推理、深度学习、虚拟桌面基础设施(VDI)以及多实例GPU（多用户共享显卡
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

I3D网络主体代码详解

你可能感兴趣的:(计算机视觉,深度学习)