Lzjusc2017

深度学习笔记（二）-计算机视觉SSD

参考资料

SSD（单次多盒检测）用于实时物体检测
SSD 论文阅读笔记
SSD原理解读-从入门到精通
深入理解anchor

目标检测数据集（皮卡丘）

#%%
#In[1]
from mxnet import image,contrib,gluon,nd
#import numpy as np
import d2lzh as d2l
#np.set_printoptions(2)
import os
from mxnet.gluon import utils as gutils

def display_anchors(fmap_w,fmap_h,s):
    fmap = nd.zeros((1,10,fmap_w,fmap_h))   #1x10 x fmap_w x fmap_h
    #第一个参数，输入的特征图，一般形状为(批量大小，通道数，宽和高),框个数显示.
    #第二个参数，要生成的锚框大小比例列表
    #第三个参数,要生成的锚框的宽和高比例列表
    anchors = contrib.nd.MultiBoxPrior(fmap,sizes=s,ratios=[1,2,0.5])   #1x48x4,3个锚框
    bbox_scale = nd.array((w,h,w,h))
    #原文img.asnumpy()报错，改成tolist
    d2l.show_bboxes(d2l.plt.imshow(img.tolist()).axes,anchors[0]*bbox_scale)
display_anchors(fmap_w=2,fmap_h=2,s=[0.4])

#使用开源的皮卡丘3D模型生成1000张不同角度和大小的皮卡丘图像。然后在背景上随机放一张皮卡丘
#使用im2rec将图像转成二进制的RecordIO格式
#获取数据集
def _download_pikachu(data_dir):
    root_url = ('https://apache-mxnet.s3-accelerate.amazonaws.com/'
                'gluon/dataset/pikachu/')
    dataset = {'train.rec':'e6bcb6ffba1ac04ff8a9b1115e650af56ee969c8',
               'train.idx': 'dcf7318b2602c06428b9988470c731621716c393',
               'val.rec': 'd6c33f799b4d058e82f2cb5bd9a976f69d72d520'}
    for k,v in dataset.items():
        print(k,v)
        gutils.download(root_url+k,os.path.join(data_dir,k),sha1_hash=v)
        
# 创建ImageDetIter读取数据集。格式RecordIO,需要提供索引文件train.idx随机读取小批量到内存
# 随机裁剪95%
def load_data_pikachu(batch_size,edge_size=256):    #edge_size:输出图像的宽和高
    data_dir = '../data/pikachu'
    _download_pikachu(data_dir)
    #图像数据迭代器
    train_iter = image.ImageDetIter(
        path_imgrec=os.path.join(data_dir,'train.rec'), #记录的文件
        path_imgidx = os.path.join(data_dir,'train.idx'),#索引
        batch_size=batch_size,  #读取数据大小到内存
        data_shape=(3,edge_size,edge_size), #输出形状
        shuffle=True,    #随机读取
        rand_crop = 1,   #随机裁剪
        min_object_covered = 0.95,max_attempts=200  #覆盖概率95%，尝试200此
    )
    val_iter = image.ImageDetIter(
        path_imgrec=os.path.join(data_dir,'val.rec'),batch_size=batch_size,
        data_shape=(3,edge_size,edge_size),shuffle=False
    )
    return train_iter,val_iter

#读取小批量并打印图像和标签的形状。（批量大小，通道数，高和宽）
#标签形状使(批量大小,m,5).m等于数据集中单个图像最多含有的边界框数A
batch_size,edge_size = 32,256
train_iter,_ = load_data_pikachu(batch_size,edge_size)
batch = train_iter.next()   #返回下次读取的数据
batch.data[0].shape,batch.label[0].shape
#(32, 3, 256, 256),(32, 1, 5))
# print(batch.data[0][0:10]) 10x3x256x256
#transpose转换维度
imgs = (batch.data[0][0:10].transpose((0,2,3,1)))/255   #每个像素在0-1之间
#imshow显示的要求范围在0-1之间.
axes = d2l.show_images(imgs,2,5).flatten()  #按行方式降维.2行5列
for ax,label in zip(axes,batch.label[0][0:10]):
    # print(label) 皮卡丘的位置.
    d2l.show_bboxes(ax,[label[0][1:5]*edge_size],colors=['w'])

单发多框检测SSD

单发多框检测模型，主要由一个基础的网络块和若干个多尺度特征块串联而成。基础网络块从原始图像中抽取特征，一般选用深度卷积神经网络（我们这里构造一个小的基础网络，串联3个高和宽减半块，并逐步将通道数翻倍，例如原始图像的形状为256x256，基础网络块输出特征图形状为32x32）

类别预测层

设目标的类别个数为q。每个锚框的类别个数就是q+1，0代表锚框只包含背景。若特征图的高和宽分别为h和w，每个单元为中心生成a个锚框，需要对hwa个锚框进行分类。具体来说，使用一个保持输入高和宽的卷积层，输出和输入在特征图宽和高是一一对应的。每一个坐标都会生成所有锚框的类别预测，因此输出通道是a(q+1)

边界框预测层

边界框预测层的设计与类别预测层的设计类似。不同的是，需要为每个锚框预测4个偏移量

高和宽减半块

为了在多尺度检测目标，下面定义高和宽减半块down_sample_blk。它串联了两个填充为1的3x3卷积层和步幅为2的2x2最大池化层。高和宽减半块使输出的特征图每个单元的感受野变得广阔

基础网络块

我们这里构造一个小的基础网络，串联3个高和宽减半块，并逐步将通道数翻倍，例如原始图像的形状为256x256，基础网络块输出特征图形状为32x32

完整的模型

单发多框检测模型一共包含5个模块，每个模块输出的特征图既用来生成锚框，又用来预测锚框的类别和偏移量。第一个模块使基础网络块，第二到第四模块是高和宽减半块，第五个是全局最大池化层将高和宽降到1.

完整的代码

#%%
#In[1]
from mxnet import image,contrib,gluon,nd,init,contrib,autograd
#import numpy as np
import d2lzh as d2l
#np.set_printoptions(2)
import os
from mxnet.gluon import utils as gutils,nn
from mxnet.gluon import loss as gloss
import time
#类别预测层
def cls_predictor(num_anchors,num_classes):
    return nn.Conv2D(num_anchors*(num_classes+1),kernel_size=3,padding=1)
    #保持输入和输出形状不变,每个锚框类别数q+1,中心生成a个锚框

#边界框预测层
def bbox_predictor(num_anchors):
    return nn.Conv2D(num_anchors*4,kernel_size=3,padding=1)
    #为每个锚框设置4个偏移量

def forward(x,block):
    block.initialize()
    return block(x)
Y1 = forward(nd.ones((2,8,20,20)),cls_predictor(5,10))
Y2 = forward(nd.ones((2,16,10,10)),cls_predictor(3,10))
(Y1.shape,Y2.shape)

def flatten_pred(pred):
    return pred.transpose((0,2,3,1)).flatten()
def concat_pred(preds):
    return nd.concat(*[flatten_pred(p) for p in preds],dim=1)   #dim=1,二维，按行
concat_pred([Y1,Y2]).shape  #(2, 25300),22000+3300=25300
#flatten_pred(Y1)    #2x22000
#flatten_pred(Y2)    #2x3300

# 高和宽减半块
# 串联两个填充为1的3x3卷积层和步幅为2的2x2最大池化层
def down_sample_blk(num_channels):
    blk = nn.Sequential()
    for _ in range(2):
        blk.add(nn.Conv2D(num_channels,kernel_size=3,padding=1),
                nn.BatchNorm(in_channels=num_channels),
                nn.Activation('relu'))
    blk.add(nn.MaxPool2D(2))
    return blk
#测试高和宽减半的前向计算
forward(nd.zeros((2,3,20,20)),down_sample_blk(10)).shape    # 2x10x10x10
#基础网络块
def base_net():
    blk = nn.Sequential()
    for num_filters in [16,32,64]:
        blk.add(down_sample_blk(num_filters))
    return blk
forward(nd.zeros((2,3,256,256)),base_net()).shape   # 2x64x32x32
#完整的模型
def get_blk(i):
    if i==0:
        blk = base_net()    #基础网络块
    elif i==4:
        blk = nn.GlobalMaxPool2D()  #将高和宽降为1
    else:
        blk = down_sample_blk(128)  #高和宽减半块
    return blk
def blk_forward(X,blk,size,ratio,cls_predictor,bbox_predictor):
    Y = blk(X)
    anchors = contrib.ndarray.MultiBoxPrior(Y,sizes=size,ratios=ratio)
    cls_preds = cls_predictor(Y)
    bbox_preds = bbox_predictor(Y)
    return (Y,anchors,cls_preds,bbox_preds)
sizes = [[0.2,0.272],[0.37,0.447],[0.54,0.619],[0.71,0.79],[0.88,0.961]]
ratios = [[1,2,0.5]]*5
num_anchors = len(sizes[0])+len(ratios[0])-1    # 2 + 3 -1 = 4

class TinySSD(nn.Block):
    def __init__(self,num_classes,**kwargs):
        super(TinySSD,self).__init__(**kwargs)
        self.num_classes = num_classes  #1
        for i in range(5):
            # 赋值语句self.blk_i = get_blk(i)
            #设置属性值,如blk_0 = get_blk(0)
            setattr(self,'blk_%d'%i,get_blk(i)) #完整的模型
            #类别预测层.num_anchors=4,num_classes=1，通道数为8
            setattr(self,'cls_%d'%i,cls_predictor(num_anchors,num_classes))
            #边界预测层,num_anchors=4,通道数为16
            setattr(self,'bbox_%d'%i,bbox_predictor(num_anchors))
    def forward(self,X):
        #[None,None,None,None,None]
        anchors,cls_preds,bbox_preds = [None]*5,[None]*5,[None]*5
        for i in range(5):
            # getattr(self,'blk_%d'%i)访问self.blk_i
            
            X,anchors[i],cls_preds[i],bbox_preds[i] = blk_forward(
                X,getattr(self,'blk_%d'%i),sizes[i],ratios[i],
                getattr(self,'cls_%d'%i),getattr(self,'bbox_%d'%i)
            )
        #reshape函数中的0表示批量大小不变
        return (nd.concat(*anchors,dim=1),
                concat_pred(cls_preds).reshape( 
                    (0,-1,self.num_classes+1)
                ),concat_pred(bbox_preds))
    
net = TinySSD(num_classes=1)
net.initialize()
X = nd.zeros((32,3,256,256))
anchors,cls_preds,bbox_preds = net(X)
print('output anchors:',anchors.shape)          #(1, 5444, 4)
print('output class preds:',cls_preds.shape)    #(32,5444,2)
print('output bbox preds:',bbox_preds.shape)    #(32,21776)

#训练模型
batch_size = 32
train_iter,_ = d2l.load_data_pikachu(batch_size)
ctx,net = d2l.try_gpu(),TinySSD(num_classes=1)
net.initialize(init=init.Xavier(),ctx=ctx)
trainer = gluon.Trainer(net.collect_params(),'sgd',{'learning_rate':0.2,'wd':5e-4})

# 定义损失函数和评价函数
cls_loss = gloss.SoftmaxCrossEntropyLoss()
bbox_loss = gloss.L1Loss()  #平均绝对误差
def calc_loss(cls_preds,cls_labels,bbox_preds,bbox_labels,bbox_masks):
    #cls_preds是预测分类标签
    #cls_labels分类结果标签.
    cls = cls_loss(cls_preds,cls_labels)
    bbox = bbox_loss(bbox_preds*bbox_masks,bbox_labels*bbox_masks)
    return cls+bbox

def cls_eval(cls_preds,cls_labels):
    #类别预测结果放在最后一维,argmax指定最后一维,取预测类别最大的比较.
    #最后一维是预测概率。最大的比较
    return (cls_preds.argmax(axis=-1)==cls_labels).sum().asscalar()
def bbox_eval(bbox_preds,bbox_labels,bbox_masks):
    return ((bbox_labels-bbox_preds)*bbox_masks).abs().sum().asscalar()

train_iter.reset()  # 从头读取数据

for epoch in range(10):
    acc_sum, mae_sum, n, m = 0.0, 0.0, 0, 0
    train_iter.reset()  # 从头读取数据
    start = time.time() 
    for batch in train_iter:
        X = batch.data[0].as_in_context(ctx)
        Y = batch.label[0].as_in_context(ctx)
        with autograd.record():
            # 生成多尺度的锚框，为每个锚框预测类别和偏移量
            anchors, cls_preds, bbox_preds = net(X)
            # 为每个锚框标注类别和偏移量
            bbox_labels, bbox_masks, cls_labels = contrib.nd.MultiBoxTarget(
                anchors, Y, cls_preds.transpose((0, 2, 1)))
            #应该有采样的默认阈值，比如交并比大于多少，更新标签类别。
            #标注类别和偏移量
            #锚框形状输入，一共有5444个锚框作为输入，真实标签，预测分类,32x2x5444
            #返回标签类别,掩码和偏移量
            #正类锚框坐标对应的掩码均为1，形状为（批量大小，锚框总数*4）
            #根据类别和偏移量的预测和标注值计算损失函数
            # 根据类别和偏移量的预测和标注值计算损失函数
            l = calc_loss(cls_preds, cls_labels, bbox_preds, bbox_labels,
                          bbox_masks)
        l.backward()        #反向传播
        trainer.step(batch_size)    #开始执行
        acc_sum += cls_eval(cls_preds, cls_labels)  #准确数
        n += cls_labels.size            #数目
        mae_sum += bbox_eval(bbox_preds, bbox_labels, bbox_masks)   #边框
        m += bbox_labels.size
    if (epoch + 1) % 2 == 0:
        print('epoch %2d, class err %.2e, bbox mae %.2e, time %.1f sec' % (
            epoch + 1, 1 - acc_sum / n, mae_sum / m, time.time() - start))
print(cls_labels)
print(cls_preds)
print(cls_preds.argmax(axis=-1))
print((cls_preds.argmax(axis=-1)==cls_labels).sum().asscalar())

#载入预测图片
img = image.imread('img/pikachu.jpg')                       #512x512x3
feature = image.imresize(img, 256, 256).astype('float32')   #256x256x3
X = feature.transpose((2, 0, 1)).expand_dims(axis=0)        #1x3x256x256
#卷积层需要输入四维的格式.
def predict(X):
    anchors, cls_preds, bbox_preds = net(X.as_in_context(ctx))
    cls_probs = cls_preds.softmax().transpose((0, 2, 1))
    #非极大值抑制，第一个元素是预测的锚框概率，需要经过softmax运算,形状是批量大小，类别数+1，锚框总数
    #预测锚框的偏移量,生成的默认锚框,一般形状是1，锚框总数，4
    output = contrib.nd.MultiBoxDetection(cls_probs, bbox_preds, anchors)
    print(output[0])    #5444x6的数组
    idx = [i for i, row in enumerate(output[0]) if row[0].asscalar() != -1]
    #idx返回的是列表,只要不是-1就返回,-1表示被移除
    return output[0, idx]   #返回列表数组

output = predict(X) #预测
d2l.set_figsize((5, 5))

def display(img, output, threshold):
    fig = d2l.plt.imshow(img.asnumpy())
    for row in output:
        score = row[1].asscalar()   #row[1]是预测概率，置信度
        if score < threshold:       #小于阈值，下一个
            continue
        h, w = img.shape[0:2]       #形状
        bbox = [row[2:6] * nd.array((w, h, w, h), ctx=row.context)]
        d2l.show_bboxes(fig.axes, bbox, '%.2f' % score, 'w')

display(img, output, threshold=0.3)

原始图像

训练轮数为10

训练轮数为14

训练轮数为20

训练轮数为0

小结

关于参数更新,其实就是卷积神经网络的的应用。单发多框检测论文中选用了在分类层之前截断的VGG，现在也常用ResNet来代替。我们可以设计基础网络，使它输出的高和宽较大。这样一来，基于改特征图生成的锚框数量较多，可以用来检测尺寸较小的目标。
如何知道要训练的是皮卡丘。在一开始中，我们从开源的3D皮卡丘模型生成1000张不同角度大小的皮卡丘图像，在每一个背景图像上随机放一张皮卡丘图像。load_data_pikachu方法我们做的就是这些。我们可以调用它的返回结果和方法next一次读取batch_size批量的数据。其中，返回结果是图像的像素集和皮卡丘的位置（左上角xy，右下角xy）。也就是说，我们的训练集含有原始图像和真实标签（只是从原来的类别，如0，1转变成位置坐标）。
在训练模型中，我们每次读取训练集中的batch_size大小（32）的数据，进行训练。关注方法MultiBoxTarget，第一个参数是anchors，形状是32x5444x4，表示锚框总数和锚框的坐标(锚框总数是根据我们5层模型算出），在训练中保持不变；第二个参数是Y，真实标签，形状是32x1x5，最后一维是类别标签+四个坐标值；第三个参数是预测类别分数，形状一般为（批量大小，预测的总类别数+1，锚框总数(即锚框总数个分类结果)。先迭代模型，得到预测框，调用MultiBoxTarget，让预测框与真实框做对比，比如预测框分类为0，真实框分类为1，交并比大于阈值（假设0.5），那么返回分类结果1。接着我们可以调用损失函数来更新权重。
这是的损失函数使用交叉熵和L1范数损失。
关于TinySSD中的返回结果
- 第一个参数是锚框，形状是1，锚框总数，锚框位置坐标。
- 第二个参数先是批量大小，（锚框类别数+1）x通道数，这里是8，特征图大小，如32x32，然后形状转换成批量大小，锚框总数，预测类别个数。
- 第三个参数是批量大小，锚框数x4
关于准确率的评估。argmax返回的是索引下标，我们知道，神经网络返回的第二个参数的预测分类信息。其中，最后一维就是分类的类别。我们将该属性跟MultiBoxTarget预测判断得到准确率的评估。

图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
PyTorch 深度学习博客 Zoro｜ PyTorch Deep Learning 人工智能
PyTorch深度学习博客欢迎来到我的PyTorch深度学习博客！在这里，我将分享使用PyTorch学习和实践深度学习项目的点滴经验。本博客适用于初学者和有一定基础的开发者，旨在帮助大家快速搭建环境、掌握核心概念，并通过实例了解实际应用。环境配置为了确保项目的稳定性和兼容性，我选择了Python3.9环境，并在conda创建的虚拟环境中运行最新且稳定的PyTorch版本2.6.0。1.创建Pyth
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析深度学习
卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的
算力技术创新驱动多场景应用演进智能计算研究中心其他
内容概要算力技术创新正成为数字经济时代的基础性驱动力，从异构计算架构的多元融合到量子计算的颠覆性突破，技术演进不断突破物理与算法的双重边界。在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序、气候模拟等复杂任务的效率提升至新量级。值得注意的
AI模型技术前沿与跨场景应用实践智能计算研究中心其他
内容概要当前AI模型技术正呈现多维度突破与跨领域融合的特征。从技术演进角度看，可解释性模型与量子计算框架的协同发展正在突破传统黑箱限制，而联邦学习、自适应优化等技术则为复杂场景建模提供了新的方法论支撑。应用层面，TensorFlow与PyTorch框架在医疗影像诊断、金融时序预测等领域的实战案例，验证了深度学习模型在垂直行业的泛化能力。值得关注的是，工具链整合已成为技术落地的关键环节，MXNet与
融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践
在深度学习的背景下，NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群，实现对所有可用GPU资源的充分调度，不受制于供应商限制。本文将深入探讨如何混合AMD/NVIDIAGPU集群以支持PyTorch分布式训
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
深度学习框架PyTorch——从入门到精通（5）构建神经网络 Fansv587 Torch框架学习深度学习 pytorch 神经网络经验分享
构建神经网络获取训练设备定义类模型层nn.Flattennn.Linearnn.ReLUnn.Sequentialnn.Softmax模型参数补充说明argmax神经网络是由一些层或者模块组成的，这些层和模块会对数据进行各种操作。在PyTorch里，torch.nn这个命名空间提供了你搭建自己神经网络所需要的所有基础组件。PyTorch里的每一个模块都是nn.Module类的子类。一个神经网络本身
深度学习框架PyTorch——从入门到精通（5）自动微分 Fansv587 深度学习 pytorch 人工智能
使用torch.autograd自动微分张量、函数和计算图计算梯度禁用梯度追踪关于计算图的更多信息张量梯度和雅可比乘积在训练神经网络时，最常用的算法是反向传播。在该算法中，参数（模型权重）根据损失函数的梯度相对于给定参数进行调整。为了计算这些梯度，PyTorch有一个内置的微分引擎，名为torch.autograd。它支持为任何计算图自动计算梯度。考虑最简单的一层神经网络，具有输入x、参数w和b以
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
数据集格式转换——json2txt、xml2txt、txt2json【复制就能用】 kay_545 YOLO11改进有效涨点 python 人工智能机器学习
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转本专栏所有程序均经过测试，可成功执行专栏地址：YOLO11入门+改进涨点——点击即可跳转欢迎订阅目录json2txt脚本xml2txttxt2json
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
还在为找图发愁？图生生AI以图生图，一键生成专属风格！图生生人工智能 ai AI作画图生生
你是否也遇到过这样的烦恼：想为文章配图，却找不到风格合适的图片？设计海报时，灵感枯竭，不知从何下手？看到喜欢的图片风格，却无法应用到自己的作品中？别担心，图生生AI生图来帮你！只需上传一张图片，AI就能自动生成相似风格的图片，让你轻松拥有专属图库！图生生AI生图是一款基于人工智能技术的图片生成工具，它能够深度学习和理解图片的风格、色彩、构图等元素，并以此为基础生成全新的图片。无论你是设计师、自媒体
深度学习中的Channel，通道数是什么？ %KT% 深度学习深度学习人工智能
参考文章：直观理解深度学习的卷积操作，超赞！-CSDN博客如何理解卷积神经网络中的通道（channel）_神经网络通道数-CSDN博客深度学习-卷积神经网络—卷积操作详细介绍_深度卷积的作用-CSDN博客正文：在跑深度学习代码的过程中，经常遇到的一个报错是：模型尺寸不匹配的问题。一般pytorch中尺寸/张量的表现方式是：torch.size([16,3,24,24])。这四个参数的含义如下：16
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
远程调试Python脚本之ptvsd 工头阿乐 PyTorch 深度学习 python 开发语言
深度学习文章目录深度学习前言前言有时候需要远程调试Python脚本，怎么办呢…以下这段代码用于远程调试Python脚本，特别是通过VisualStudioCode（VSCode）的远程调试功能。它会在指定的服务器IP和端口上等待调试器的连接。#检查是否提供了服务器IP和端口ifargs.server_ipandargs.server_port:#远程调试-参见https://code.visual
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本