EdenJin

2.1【Pytorch版(torch-cuda版 ) Mask-RCNN 训练自己的数据集】

写在前面：由于课程试验要求，需要基于pytorch实现maskrcnn，so最近又跑了一下pytorch版的maskrcnn，官方已经给出了详细的教程，虽然说支持cpu推理，但是不支持cpu训练啊，奈何手头上只有一个cpu本，也没有nvida显卡，只有intel的集显，so整理一波本次训练maskrcnn的过程。

这篇blog是按照常规的torch版的maskrcnn的训练教程写的，理论上，所依赖的是torch-cuda版本，后续还有一篇是基于torch-cpu版本的。因为在试验过程中先踩了这部分的坑，所以写在前面。（再次提醒，如果电脑和本人一样只有intel集显的话，下面的一系列步骤对成功在电脑上跑通maskrcnn没有任何帮助，本人的下一篇blog会提到如何不用cuda在cpu本下跑maskrcnn。这篇blog仅仅是为了方便疫情过后可以回到实验室继续搞，提前做好记录。）

环境：

Ubuntu16.04

torch == 1.5.0+cu92

torchvision == 0.6.0+cu92

这里要注意，torch版本>=0.3.0即可，使用的torch和torchvision是匹配的，且都是cuda版本，如何选择这两个的匹配版本，请看：https://pytorch.org/
具体操作流程见我的另一篇blog,里面有提到：
【YoloV3–pytorch】Part One：基于Pytorch的YoloV3训练自己的数据集----准备数据集、配置文件并下载预训练权重文件

一、下载官方demo并配置环境

先去官网将代码下载下来 https://github.com/facebookresearch/maskrcnn-benchmark

cd maskrcnn-benchmark-master
sudo python3 setup.py build develop

笔者现有打包好的pycharm虚拟环境中包含了大部分需要配置安装的模块，so最初笔者是缺什么模块补什么模块，折腾了一番还是有问题，最终屈服了，直接运行上述命令，bingo。

安装好setup中要求的环境之后，可以根据官网的教程进行测试。

cd demo
# by default, it runs on the GPU
# for best results, use min-image-size 800
python webcam.py --min-image-size 800
# can also run it on the CPU
python webcam.py --min-image-size 300 MODEL.DEVICE cpu
# or change the model that you want to use
python webcam.py --config-file ../configs/caffe2/e2e_mask_rcnn_R_101_FPN_1x_caffe2.yaml --min-image-size 300 MODEL.DEVICE cpu
# in order to see the probability heatmaps, pass --show-mask-heatmaps
python webcam.py --min-image-size 300 --show-mask-heatmaps MODEL.DEVICE cpu
# for the keypoint demo
python webcam.py --config-file ../configs/caffe2/e2e_keypoint_rcnn_R_50_FPN_1x_caffe2.yaml --min-image-size 300 MODEL.DEVICE cpu

简单的用前两种测试一下就可以了，在测试过程中可能会提示你缺少某些模块，对应安装就可以了。（如何解决python安装模块慢的问题，可以参看我的另一篇blog，解决Ubuntu下python安装模块速度慢的问题,不得不说，工具选得好，效率刷刷得往上彪）

至此，倘若还缺少apex库，建议通过github下载，然后再进行安装，因为本人直接通过pip安装后，后续运行demo的时候还会报错，保险起见，采用前者。
https://github.com/NVIDIA/apex

cd apex-master
sudo python3 setup.py install

解决方式参考blog

二、数据准备及模型配置

Step1：转换数据格式

笔者是采用labelme来标注的，需要对格式进行转换，转为coco格式，转换代码如下：

# -*- coding:utf-8 -*-
# !/usr/bin/env python

import argparse
import json
import matplotlib.pyplot as plt
from labelme import utils
import skimage.io as io
import sys
sys.path.remove('/opt/ros/kinetic/lib/python2.7/dist-packages')

import cv2
import numpy as np
import glob
import PIL.Image
from shapely.geometry import Polygon#https://shapely.readthedocs.io/en/latest/manual.html#geometric-objects

class labelme2coco(object):
    def __init__(self,labelme_json=[],save_json_path='/home/eden/Downloads/maskrcnn-benchmark/datasets/val2020.json'):
        '''
        :param labelme_json: 所有labelme的json文件路径组成的列表
        :param save_json_path: json保存位置
        '''
        self.labelme_json=labelme_json#所有的json文件
        self.save_json_path=save_json_path#输出文件new.json的路径
        self.images=[]
        self.categories=[]
        self.annotations=[]
        # self.data_coco = {}
        self.label=[]
        self.annID=1
        self.height=0
        self.width=0

        self.save_json()

#我的数据用label标注的名称格式是：000001.jpg、000002.jpg....
    def data_transfer(self):
        for num,json_file in enumerate(self.labelme_json):
            with open(json_file,'r') as fp:
                data = json.load(fp)  # 加载json文件
                self.images.append(self.image(data,num))
                for shapes in data['shapes']:
                    label=shapes['label'].split('_')
                    if label[0] not in self.label:
                        self.categories.append(self.categorie(label))
                        self.label.append(label[0])
                    points=shapes['points']
                    self.annotations.append(self.annotation(points,label,num))
                    self.annID+=1
    
    def image(self,data,num):
        image={}
        img = utils.img_b64_to_arr(data['imageData'])  # 解析原图片数据
        # img=io.imread(data['imagePath']) # 通过图片路径打开图片
        # img = cv2.imread(data['imagePath'], 0)
        height, width = img.shape[:2]
        img = None
        image['height']=height
        image['width'] = width
        image['id']=num+1
        image['file_name'] = data['imagePath'].split('/')[-1]

        self.height=height
        self.width=width

        return image

    def categorie(self,label):
        categorie={}
        categorie['supercategory'] = label[0]
        categorie['id']=len(self.label)+1 # 0 默认为背景
        categorie['name'] = label[0]
        return categorie

    def annotation(self,points,label,num):
        annotation={}
        annotation['segmentation']=[list(np.asarray(points).flatten())]
        poly = Polygon(points)
        annotation['iscrowd'] = 0
        annotation['image_id'] = num+1
        area_ = round(poly.area,6)
        annotation['area'] = area_

        # annotation['bbox'] = str(self.getbbox(points)) # 使用list保存json文件时报错（不知道为什么）
        # list(map(int,a[1:-1].split(','))) a=annotation['bbox'] 使用该方式转成list
        annotation['bbox'] = list(map(float,self.getbbox(points)))

        annotation['category_id'] = self.getcatid(label)
        annotation['id'] = self.annID
        return annotation

    def getcatid(self,label):
        for categorie in self.categories:
            if label==categorie['name']:
                return categorie['id']
        return -1

    def getbbox(self,points):
        # img = np.zeros([self.height,self.width],np.uint8)
        # cv2.polylines(img, [np.asarray(points)], True, 1, lineType=cv2.LINE_AA)  # 画边界线
        # cv2.fillPoly(img, [np.asarray(points)], 1)  # 画多边形 内部像素值为1
        polygons = points
        mask = self.polygons_to_mask([self.height,self.width], polygons)
        return self.mask2box(mask)

    def mask2box(self, mask):
        '''从mask反算出其边框
        mask：[h,w]  0、1组成的图片
        1对应对象，只需计算1对应的行列号（左上角行列号，右下角行列号，就可以算出其边框）
        '''
        # np.where(mask==1)
        index = np.argwhere(mask == 1)
        rows = index[:, 0]
        clos = index[:, 1]
        # 解析左上角行列号
        left_top_r = np.min(rows)  # y
        left_top_c = np.min(clos)  # x

        # 解析右下角行列号
        right_bottom_r = np.max(rows)
        right_bottom_c = np.max(clos)
        return [left_top_c, left_top_r, right_bottom_c-left_top_c, right_bottom_r-left_top_r]  # [x1,y1,w,h] 对应COCO的bbox格式

    def polygons_to_mask(self,img_shape, polygons):
        mask = np.zeros(img_shape, dtype=np.uint8)
        mask = PIL.Image.fromarray(mask)
        xy = list(map(tuple, polygons))
        PIL.ImageDraw.Draw(mask).polygon(xy=xy, outline=1, fill=1)
        mask = np.array(mask, dtype=bool)
        return mask

    def data2coco(self):
        data_coco={}
        data_coco['images']=self.images
        data_coco['categories']=self.categories
        data_coco['annotations']=self.annotations
        return data_coco

    def save_json(self):
        self.data_transfer()
        self.data_coco = self.data2coco()
        # 保存json文件
        json.dump(self.data_coco, open(self.save_json_path, 'w'), indent=4)  # indent=4 更加美观显示

labelme_json=[]
for i in range(1,71):#遍历所有的labelme 标准的json，载入并转换

    ind='/home/eden/Mask_RCNN-master/data/train_data/json/'+str(i).zfill(6)+'.json'

    labelme_json.append(ind)

lab = labelme2coco(labelme_json)#调用labelme2coco类
print('Saved to :',lab.save_json_path)#保存

我的数据的名称格式是：000001.jpg、000002.jpg…。一般的数据格式是父类_子类_***.jpg，倘若你的数据格式是这样的，主要修改这个函数的代码。

def data_transfer(self):

主要用来修改label的截断以符合自己的数据格式，同时还要注意对应修改该函数下的label

def categorie(self,label):

转换为之后会在当前目录下生成一个新的json文件，该json文件满足coco格式（注：上述代码生成的coco json文件并不包含area参数，实验说明即使json文件中没有area参数也不影响后续正常训练。）

关于coco数据格式的一些资料：

参考blog1：该blog有包含area的demo

对coco数据集的详细解读：

参考blog2

参考blog3

参考blog4

Step2：配置数据格式

接下来进入到maskrcnn-benchmark-master下的maskrcnn_benchmark文件夹，新建 $\color{red}{datasets}$ 、 $\color{red}{myconfig}$ 文件夹，
在datasets文件夹下继续新建一个名为coco的文件夹，在coco文件夹下新建三个文件夹，名称分别为 $\color{red}{annotations}$ 、 $\color{red}{train2020}$ 、 $\color{red}{val2020}$ ，
(其实没有必要严格的按照这个格式来，实际上只是为了和目前的一些数据格式保持一致，只要后面对数据集路径的修改都严格的改成自己的路径就可以了。)
annotations文件夹下存放两个json文件，分别为train2020.json和val2020.json（这两个文件就是经过上述格式转换demo得到的，其中所对应的图片是train2020和val2020文件夹下的图片）
图片数据整理好了之后，接下里就是配置模型文件了。

插入一个常识：有时在训练时为了方便，直接将训练集和验证集使用同一个数据集，这样做并不可取。理由见该博文：
验证集和训练集为什么要不一致

Step3：配置模型文件

1. 在新建的myconfig文件下将./maskrcnn-benchmark-master/configs里想要训练的.yaml配置文件复制过去，把并且把
./maskrcnn-benchmark-master/maskrcnn_benchmark/
config文件夹下的__pycache__和paths_catalogs.py复制到到myconfig文件夹下，本文使用的是e2e_mask_rcnn_fbnet.yaml。
2. 修改maskrcnn_benchmark/utils下的checkpoint.py，注释65和68两行（self.optimizer.load_state…和self.scheduler.load_…）
3. 修改paths_catalogs.py文件，将训练样本和验证样本的路径修改为自己的数据路径：
接下来修改.yaml模型配置参数，主要修改NUM_CLASSES，DATASETS中的train和test ，模型保存文件OUTPUT_DIR以及PATHS_CATALOG
我的训练类别只有一类，所以NUM_CLASSES=2

DATASETS如上，这里要注意的时，即使你的训练或测试只有一个数据样本，后面的逗号也不可以去掉。
最后加上OUTPUT_DIR和PATHS_CATALOG。其他的关于batch size、学习率等等，依照个人实际情况进行配置即可。

三、训练

戏剧性的转折来了，理论上来说到此为止，只要在文件跟目录下运行：

python3 tools/train_net.py --config-file=.yaml文件的路径

这个时候就已经开始训练了，但无奈的是，本人安装的是torch-cpu版本，所以会显示如下错误，
这是因为apex依赖于cuda，本人电脑也没有nvida显卡，所以也没有安装cuda版本的torch，通过一番搜寻发现，有网友说即便如此，只要安装cuda版本的torch和torchvision也是可以正常运行的，由于时间关系，重新搭建一个虚拟环境再下载一大堆的安装包时间很长（主要是本人硬件垃圾，而且网速也差劲），这一方法就没有尝试，待疫情过后到实验室再尝试吧。如果你的电脑可安装cuda，那么可继续按照下面的来，如果像我一样，只有intel集显的话，请看下一篇blog中提到的一种在cpu下训练maskrcnn的方法。

本篇blog主要参考资料：

参考blog1

参考blog2

参考blog3

参考blog4

你可能感兴趣的:(图像分割)

“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
【图像分割】基于模糊聚类FCM和改进的模糊聚类算法实现CT图像分割matlab代码天天Matlab科研工作室图像处理 Matlab各类代码算法聚类 matlab
1简介医学影像分割的基本目标是将图像分割成不同的解剖组织，从而可以从背景中提取出感兴趣区域。因为图像的低分辨率和弱对比度，实现医学影像分割是一件具有挑战的任务。而且，这个任务由于噪声和伪阴影变得更加困难，这些干扰项可能是因器材限制、重建算法和患者移动等原因造成的。目前还没有通用的医学图像分割算法，算法的优点和缺点经常根据所研究的问题而变化。将分割概念具体到颅内出血CT图像上，就是将颅腔中的出血病灶
Unet源码实现（pytorch） wyn20001128 pytorch 人工智能 python
U-Net是一种用于生物医学图像分割的卷积神经网络架构。它通过引入一种新颖的网络结构和训练策略解决了传统方法在数据量不足时面临的挑战。U-Net的主要思想是利用数据增强技术来高效利用有限的标注样本，并通过独特的网络设计来提高分割精度。主要贡献U-Net的主要贡献包括：1、数据增强策略：使用随机弹性变形和其他形式的数据增强来增加训练数据的多样性，从而在有限的数据集上训练出更强大的模型。2、U形网络结
051-OpenCV GrabCut图像分割算法
话不多说，上代码，看结果。importcv2#导入库importnumpyasnp'''cv2.imread(filename,flags)#filename为文件名，图片与.py文件在一个文件夹时输入文件名即可#不在一个文件夹时输入图片的路径和名字#flags为图片的颜色类型，默认为1，灰度图像为0'''img=cv2.imread('89.jpg')mask=np.zeros(img.shap
数据科学简讯 2023-04-07 数科每日
image.png头条SegmentAnything图像分割的重大进步图像分割是提取图像中代表特定对象（例如人或桌子）的所有像素的过程。由于几个原因，这是一项艰巨的任务，通常它要么需要大量预定义对象的数据集，要么需要一些的初级监督数据。Meta的这个全新的、完全开源的模型感觉就像是功能上的飞跃。他们收集了大量数据集，简化了注释功能，并创建了一个可以在浏览器中实时运行的模型。并提供演示、代码和论文。
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
Halcon学习之select_shape（）算子参数介绍
一、算子介绍select_shape()是HALCON中用于基于形状特征筛选区域的关键算子，广泛应用于图像分割、目标检测和工业质检等领域。它允许用户根据指定的几何特征从输入区域集合中选择符合条件的区域。至于为什么单独介绍这个算子呢，因为他筛选特征的方式有太多种了，如果可以熟练的掌握这些特征，那在后面的例程学习以及实际应用中，可谓是得心应手了。二、算子参数select_shape(Regions:S
图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
SAM 图像分割算法计算物体表面积 loong_XL 深度学习图像CV 算法 SAM 图像面积计算图像算法 cv 图像分割
参考：https://enpeicv.com/forum.php?mod=viewthread&tid=90&extra=page%3D1使用SAM算法进行图像分割，计算出分割图像有多少像素，然后根据像素数量计算实际面积局限：此方法适用于物体与参考物体一个平面内，如果物体在参考物体的前后立体位置，准确性可能不大好SAM安装及模型下载：https://github.com/facebookresea
OpenCV图像边缘检测慕婉0307 opencv基础 opencv 人工智能计算机视觉
一、边缘检测基础概念边缘检测是图像处理中最基本也是最重要的操作之一，它能识别图像中亮度或颜色急剧变化的区域，这些区域通常对应物体的边界。OpenCV提供了多种边缘检测方法，从传统的算子到基于深度学习的现代方法。1.1为什么需要边缘检测？数据降维：将图像转换为边缘表示可大幅减少数据量特征提取：边缘是图像最重要的视觉特征之一预处理步骤：为物体识别、图像分割等高级任务做准备噪声抑制：某些边缘检测方法具有
CVPR2024 分割Segmentation相关论文37篇速览木木阳 CVPR2024 Segmentation 分割论文
Paper1MFP:MakingFullUseofProbabilityMapsforInteractiveImageSegmentation摘要小结:最近的交互式分割算法中，将先前的概率图作为网络输入，以帮助当前分割轮次的预测。然而，尽管使用了先前的掩膜，概率图中包含的有用信息并没有很好地传播到当前预测中。在本文中，为了克服这一局限性，我们提出了一种新颖有效的基于点击的交互式图像分割算法MFP，
【EI会议征稿】东北大学主办第三届机器视觉、图像处理与影像技术国际会议（MVIPIT 2025）诗远Yolanda 图像处理计算机视觉考研视频机器学习论文阅读
一、会议信息大会官网：www.mvipit.org官方邮箱：[email protected]会议地点：辽宁沈阳主办单位：东北大学会议时间：2025年9月27日-9月29日二、征稿主题集中但不限于“机器视觉、图像处理与影像技术”等其他相关主题。机器视觉：视觉中的统计机器学习；立体视觉标定；几何建模与处理；人脸识别与手势识别；早期视觉和生物学启发的视觉；光流法和运动追踪；图像分割和图像分类；基于模型的视觉
遥感影像数据处理-大图滑窗切分为小图 GIS潮流遥感语义分割
功能需求据所周知，遥感影像的尺寸有大有小，大的达到几万x几万像素，而图像分割算法模型在训练中尺寸适中，比如256x256，512x512，1024x1024等等，如果直接将遥感影像的原图输入模型中进行训练，大概率会提示内存和显存不足，因此针对遥感影像的模型训练，一般都需要将影像裁剪为小图。裁剪后的效果图如下：解决思路基于上面的需求，写了一套裁剪算法流程。主要考虑的是在裁剪过程中，从左往右、从上到下
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
用OpenCV实现图像分割：提取Logo中的特定元素并重新着色 Wave还没秃 opencv 人工智能计算机视觉
用OpenCV实现图像分割：提取Logo中的特定元素并重新着色任务：将图片中三个圆形图案以及字母（共四个）单独取出，分别保存为四个新图片，图片大小与原图一致，图案尽量位于图片中心。三个圆形图案在新图片中改成不与于原来的填充色。步骤总览1.读取图片2.预处理：二值化或色彩分割找目标区域3.提取每个圆形图案（红、绿、蓝）和文字区域的掩膜4.将掩膜区域提取出来并改变颜色（对圆形）5.让内容居中对齐，保存
CVPR 2024 图像处理方向总汇（图像去噪、图像增强、图像分割和图像恢复等）点云SLAM 图形图像处理深度学习计算机视觉图像分割图像增强 CVPR2024 人工智能
1、ImageProgress(图像处理)去鬼影GeneratingContentforHDRDeghostingfromFrequencyView去阴影HomoFormer:HomogenizedTransformerforImageShadowRemoval去模糊UnsupervisedBlindImageDeblurringBasedonSelf-EnhancementLatencyCorr
UNet改进（5）：线性注意力机制（Linear Attention）-原理详解与代码实现摸鱼许可证人工智能计算机视觉
引言在计算机视觉领域，UNet架构因其在图像分割任务中的卓越表现而广受欢迎。近年来，注意力机制的引入进一步提升了UNet的性能。本文将深入分析一个结合了线性注意力机制的UNet实现，探讨其设计原理、代码实现以及在医学图像分割等任务中的应用潜力。UNet架构概述UNet最初由Ronneberger等人提出，主要用于生物医学图像分割。其独特的U形结构由编码器（下采样路径）和解码器（上采样路径）组成，通
OpenCV C++ 边缘检测与图像分割 achene_ql opencv c++计算机视觉人工智能
一、边缘检测在数字图像处理领域，边缘检测是一项至关重要的基础技术。它如同为图像赋予“骨架”，帮助计算机快速识别图像中的物体轮廓、形状与结构，广泛应用于目标识别、图像分割、图像配准等多个领域。1.1概念边缘检测的核心目标是找出图像中像素灰度发生剧烈变化的区域边界。这些边界往往对应着图像中物体的轮廓、不同物体的交界处或纹理变化明显的地方。通过提取这些边缘信息，可以有效减少图像数据量，同时保留图像中最关
【GitHub项目实战】Roboflow Sports 实战解析：构建多场景运动视觉系统的开源工具集与工程落地路径观熵 GitHub开源项目实战 github 开源人工智能
RoboflowSports实战解析：构建多场景运动视觉系统的开源工具集与工程落地路径关键词RoboflowSports、计算机视觉、体育目标检测、关键点识别、球体追踪、OpenCV、YOLOv8、图像分割、PoseEstimation、数据集标注与训练摘要RoboflowSports是由Roboflow团队推出的面向体育分析场景的开源视觉工具集，涵盖目标检测、图像分割、关键点检测等常用任务，支持
Matlab | matlab中的图像处理详解北斗猿程序语言设计（C语言 C++Matlab Python等）matlab 算法图像处理
MATLAB图像处理详解这里写目录标题图像处理MATLAB图像处理详解一、图像基础操作1.图像读写与显示2.图像信息获取3.图像类型转换二、图像增强技术1.对比度调整2.去噪处理3.锐化处理三、图像变换1.几何变换2.频域变换四、图像分割1.阈值分割2.边缘检测3.区域分割五、形态学操作1.基本操作2.高级形态学六、特征提取与分析1.区域属性2.纹理特征七、彩色图像处理1.色彩空间转换2.彩色分割
医图论文 AAAI‘25 | VOILA: 基于体素与语言交互的复杂度感知CT图像通用分割方法小白学视觉医学图像处理论文解读人工智能计算机视觉医学图像处理论文解读深度学习 AAAI
论文信息题目：VOILA:Complexity-AwareUniversalSegmentationofCTimagesbyVoxelInteractingwithLanguageVOILA:基于体素与语言交互的复杂度感知CT图像通用分割方法作者：ZishuoWan,YuGao,WanyuanPang,DaweiDing论文创新点引入体素级对比学习：本文首次将体素级对比学习引入医学图像分割任务。通
OpenCV C++ 图像处理教程：灰度变换与直方图分析 achene_ql opencv c++图像处理计算机视觉人工智能
在数字图像处理领域，灰度变换与直方图分析是最基础且核心的技术，它们如同“图像的化妆师”，能够通过调整像素灰度分布显著改善图像视觉效果，为后续的目标检测、图像分割等高级任务奠定基础。无论是校正图像的亮度与对比度，还是从低质量图像中提取有效信息，掌握这些技术都是图像处理从业者的必备技能。一、点运算（PointOperation）1.概念点运算是图像处理中最基础的操作之一，指对图像中每个像素点的灰度值进
基于深度学习的智能图像分割系统：技术与实践 Blossom.118 机器学习与人工智能深度学习人工智能 python 机器学习 tensorflow 神经网络 sklearn
前言图像分割是计算机视觉领域中的一个核心任务，其目标是将图像划分为多个有意义的区域或对象。图像分割在医学影像分析、自动驾驶、安防监控等多个领域有着广泛的应用。近年来，深度学习技术，尤其是卷积神经网络（CNN）及其变体，为图像分割带来了显著的改进。本文将详细介绍基于深度学习的智能图像分割系统的原理、实现方法以及实际应用案例。一、图像分割的基本概念1.1什么是图像分割？图像分割是一种将图像划分为多个互
图像的形态学操作 Suniaun原型机 OpenCV入门 opencv 计算机视觉 c++
OpenCV中的形态学操作图像的形态学操作（MorphologicalOperations）是一种基于图像形状的处理方法，通常用于二值图像的分析和处理。形态学操作通过对图像中各个区域的结构进行改变或分析，来提取或增强图像中的形态特征（如边缘、物体、空洞等）。这些操作在许多计算机视觉任务中非常常见，例如噪声去除、边缘检测、图像分割、物体识别等。它们主要基于图像的几何形状进行分析，通过设置形态学核（通
医图论文 Arxiv‘24 | SEG-SAM：用于统一医学图像分割的语义引导SAM 小白学视觉医学图像处理论文解读医学图像处理医学图像顶会 Arxiv 论文解读深度学习
论文信息题目：SEG-SAM:Semantic-GuidedSAMforUnifiedMedicalImageSegmentationSEG-SAM：用于统一医学图像分割的语义引导SAM作者：ShuangpingHuang,HaoLiang,QingfengWang,ChulongZhong,ZijianZhou,MiaojingShi论文创新点语义感知解码器：作者提出了一个独立的语义感知解码器（
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他