limmmy

SITF特征原理描述及其匹配处理（一）

自1977年Moravec提出Moravec角点检测算子，接下来的一段时间内，就有各种改进的角点检测算子，如Harris角点检测算子、Shi-Tomasi角点检测算子，但是这些都是单维度的角点，直到1999年David G.Lowe提出了一种基于尺度空间的，对图像缩放、旋转、甚至仿射变换保持不变性的图像局部特征描述算子——SIFT（尺度不变特征变换），用多维向量来描述一个特征点，是过去十年中最成功的图像据不描述子之一。

SITF特征原理描述

1.SIFT是什么

SIFT特征提取算法的实质是在不同的尺度空间上查找关键点（特征点），计算关键点的大小、方向、尺度信息，利用这些信息组成关键点对特征点进行描述的问题。SIFT的不变形体现在：尺度、方向、位移和光照。它所查找的关键点都是一些十分突出，不会因光照，仿射便函和噪声等因素而变换的“稳定”特征点，如角点、边缘点、暗区的亮点以及亮区的暗点等。

2.SIFT的流程

2.1构建尺度空间和高斯差分金字塔

SIFT算法在多尺度空间进行特征点的检测和提取，保证了特征具有尺度不变性。尺度空间理论目的的是模拟图像数据的多尺度特征，通过输入的图像和不同的高斯核作卷积得到的二维图像的高斯尺度空间：

其中，是尺度空间因子σ，其大小决定图像的平滑程度，大尺度对应图像的概貌特征，小尺度对应图像的细节特征。*代表卷积，F(x,y)是输入图像，G(x,y,σ)是尺度可变高斯函数：

二维图像的尺度空间图像如下：

2.1 空间极值点初步检测

为了计算尺度空间极值点，需要将尺度空间上的每一个像素点与其3×3邻域的和这一像素点相邻的８个点及上下两层金字塔相对应的9×2共26个相邻点进行一一比较，只有当这个点是这26个点中的最大点或者最小点时，如此可以保证检测到的关键点在尺度空间和二维图像空间上都是局部极值点。

利用上述方法检测出的候选极值点中包含很多低对比度的点和部分 DOG算子产生的边缘响应点，需要进行过滤以精确特征点的位置，提高SIFT算法的抗噪性。于是需要下一步稳定关键点的精确定位。

2.2 稳定关键点的精确定位

在已经检测到的特征点中要去掉低对比度的特征点和不稳定的边缘响应点。

去除对比度低的特征点

去除不稳定的边缘响应点

2.4 稳定关键点方向信息分配

稳定的极值点是在不同尺度空间下提取的，这保证了关键点的尺度不变性。为关键点分配方向信息所要解决的问题是使得关键点对图像角度和旋转具有不变性。方向的分配是通过求每个极值点的梯度来实现的。对于任一关键点，其梯度模值表述为：
至此，图像的关键点以检测完毕，每个关键点有三个信息：位置、所处尺度、方向。由此可以确定一个SIFT特征区域。利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备旋转不变性。

按照梯度方向直方图的方式分配关键点的方向：以关键点为中心的领域窗口内采样，并用直方图统计邻域像素的梯度方向。梯度直方图的范围是0～360度，其中每10度一个柱，总共36个柱。随着距中心点越远的邻域其对直方图的贡献也响应减小。Lowe论文中还提到要使用高斯函数对直方图进行平滑，减少突变的影响。

2.5 关键点描述

在以关键点为中心的邻域窗口内采样，并用直方图统计邻域像素的梯度方向。直方图的峰值则代表了该特征点处邻域梯度的主方向，将坐标轴旋转为关键点的方向，以确保旋转不变性。通过确定关键点邻域所在尺度空间的16×16像素大小的邻域，再将此邻域均匀地分为4×4个窗口，对每个窗口计算8个方向分量值，根据位置依次排序，得到128维的SIFT 特征向量。将这个向量归一化之后，就进一步去除了光照的影响。

David G.Lowed的实验结果表明：对每个关键点，采用448共128维向量的描述子进项关键点表征，综合效果最佳：

一个4×4的计算出一个直方图，每个直方图有8个方向，4×4×8=128维

在求出4 * 4 * 8的128维特征向量后，此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响。而图像的对比度变化相当于每个像素点乘上一个因子，光照变化是每个像素点加上一个值，但这些对图像归一化的梯度没有影响。因此将特征向量的长度归一化，则可以进一步去除光照变化的影响。

对于一些非线性的光照变化，SIFT并不具备不变性，但由于这类变化影响的主要是梯度的幅值变化，对梯度的方向影响较小，因此作者通过限制梯度幅值的值来减少这类变化造成的影响。

2.2 特征点匹配

特征点的匹配是通过计算两组特征点的128维的关键点的欧式距离实现的。欧式距离越小，则相似度越高，当欧式距离小于设定的阈值时，可以判定为匹配成功。欧式距离的公式为：
选择SIFT算法进行分析，是因为该算法不但对于旋转、尺度缩放、亮度变化保持不变性，而且对视角变化、仿射变换、噪声也保持一定程度的稳定性。且该方法对特征点的个数和有效点的比例没有要求。当特征点不是很多时，经优化的SIFT匹配算法甚至可以达到实时的要求。而且可以很方便的与其他形式的特征向量进行联合。

3.SIFT与Harris的匹配效果比对

根据SIFT可以解决的问题
• 目标的旋转、缩放、平移（RST）
• 图像仿射/投影变换（视点viewpoint）
• 弱光照影响（illumination）
• 部分目标遮挡（occlusion）
• 杂物场景（clutter）
• 噪声

我选择了几组图像与Harris的处理结果进行比对
Ps:彩色的是SIFT效果，黑白的是HARRIS，下面不做备注了

（1）第一组（弱光照且图片纹理相似）

SIFT特征匹配处理效果

Harris特征匹配处理效果

实验结果及其分析：第一组图像的特征是光线较弱且建筑物纹理较相似
Harris找到的特征点明显多于SIFT找到的，而且因为我选择比对的两张原图拍摄角度近似水平的，所以特征点相连的线应该是平行线结果才比较准确，Harris的图像可以看出有交叉线，那几条连线明显属于错误匹配的。
说明:在弱光线的情况下，SIFT的匹配效果优于Harris

（2）第二组（旋转）

实验结果及其分析：第二组图像的特征是两张图片旋转一定角度
SIFT找到的关键点大都是花瓣的边缘（角点）或者花蕊（颜色较周围差异较大的点），Harris在草的部分也标注为关键点并进行匹配，效果不准确，那些点是无效点。
说明：在旋转（一定的角度，太大可能也匹配不出来，还没测试过）的情况下，SIFT的匹配效果优于Harris

（3）第三组（缩放）

实验结果及其分析：第三组图像的特征是同一建筑物同一视角，镜头远近不同（图片的缩放）
第一张图较近，第二张图较远，所以SIFT的连接线呈现的形状符合规律，Harris则杂乱无章。
说明：在缩放的情况下，SIFT的匹配效果优于Harris

（4）第四组（平移）

实验结果及其分析：第四组图像的特征是平移镜头的建筑物
SIFT和Harris找到的关键点大都准确且连线都近乎平行，处了Harris有几条匹配错误。
说明：在平移的情况下，SIFT的匹配效果与Harris相近。

（5）运行时间的比对

sift运行时间：

Harris运行时间：

sift运行时间：

Harris运行时间：

实验结果及其分析：
SIFT的总运行时间总是少于Harris的。
原因应该在找特征点上以及特征点的匹配上。Harris总是找到一些不稳定点，匹配的时候时间花费的也比较多。

总结

就上面几种情况来说，SIFT是优于Harris的。其他的情况还未测试。

以下是Harris.py的代码

# -*- coding: utf-8 -*-
from pylab import *
from numpy import *
from PIL import Image
from scipy.ndimage import filters
from PCV.tools.imtools import imresize

import time

#harris.py

#返回像素值为Harris响应函数值的一幅图像
def compute_harris_response(im,sigma=3):
    """ Compute the Harris corner detector response function 
        for each pixel in a graylevel image. """
    
    # derivatives 计算导数
    imx = zeros(im.shape)
    filters.gaussian_filter(im, (sigma,sigma), (0,1), imx)
    imy = zeros(im.shape)
    filters.gaussian_filter(im, (sigma,sigma), (1,0), imy)
    
    # compute components of the Harris matrix  计算Harris矩阵的分量
    Wxx = filters.gaussian_filter(imx*imx,sigma)
    Wxy = filters.gaussian_filter(imx*imy,sigma)
    Wyy = filters.gaussian_filter(imy*imy,sigma)
    
    # determinant and trace  计算特征值和迹
    Wdet = Wxx*Wyy - Wxy**2
    Wtr = Wxx + Wyy
    
    return Wdet / Wtr
   
#从Harris响应图像中返回角点  
def get_harris_points(harrisim,min_dist=10,threshold=0.1):
    """ Return corners from a Harris response image
        min_dist is the minimum number of pixels separating 
        corners and image boundary. """
    
    # find top corner candidates above a threshold 高于阈值的候选角点
    corner_threshold = harrisim.max() * threshold
    harrisim_t = (harrisim > corner_threshold) * 1
    
    # get coordinates of candidates 得到候选坐标
    coords = array(harrisim_t.nonzero()).T
    
    # ...and their values 以及他们的响应值
    candidate_values = [harrisim[c[0],c[1]] for c in coords]
    
    # sort candidates (reverse to get descending order)对候选点按照Harris响应值进行排序
    index = argsort(candidate_values)[::-1]
    
    # store allowed point locations in array将可行点保存数组
    allowed_locations = zeros(harrisim.shape)
    allowed_locations[min_dist:-min_dist,min_dist:-min_dist] = 1
    
    # select the best points taking min_distance into account按照min_distance原则，选择最佳Harris点
    filtered_coords = []
    for i in index:
        if allowed_locations[coords[i,0],coords[i,1]] == 1:
            filtered_coords.append(coords[i])
            allowed_locations[(coords[i,0]-min_dist):(coords[i,0]+min_dist), 
                        (coords[i,1]-min_dist):(coords[i,1]+min_dist)] = 0
    
    return filtered_coords
    
#绘制图像中检测到的角点   
def plot_harris_points(image,filtered_coords):
    """ Plots corners found in image. """
    
    figure()
    gray()
    imshow(image)
    plot([p[1] for p in filtered_coords],
                [p[0] for p in filtered_coords],'*')
    axis('off')
    show()
   
#返回点周围2*wid+1个像素的值（假设选组点的min_distance>wid）
def get_descriptors(image,filtered_coords,wid=5):
    """ For each point return pixel values around the point
        using a neighbourhood of width 2*wid+1. (Assume points are 
        extracted with min_distance > wid). """
    
    desc = []
    for coords in filtered_coords:
        patch = image[coords[0]-wid:coords[0]+wid+1,
                            coords[1]-wid:coords[1]+wid+1].flatten()
        desc.append(patch)
    
    return desc

#对于第一幅图像中的每个角点描述子，使用归一化互相关，选取他在第二幅图像中的匹配角点
def match(desc1,desc2,threshold=0.5):
    """ For each corner point descriptor in the first image, 
        select its match to second image using
        normalized cross correlation. """
    
    n = len(desc1[0])
    
    # pair-wise distances
    d = -ones((len(desc1),len(desc2)))
    for i in range(len(desc1)):
        for j in range(len(desc2)):
            d1 = (desc1[i] - mean(desc1[i])) / std(desc1[i])
            d2 = (desc2[j] - mean(desc2[j])) / std(desc2[j])
            ncc_value = sum(d1 * d2) / (n-1) 
            if ncc_value > threshold:
                d[i,j] = ncc_value
            
    ndx = argsort(-d)
    matchscores = ndx[:,0]
    
    return matchscores

#从第二幅向第一幅图像匹配，然后过滤掉两种方法中都是最好的匹配
def match_twosided(desc1,desc2,threshold=0.5):
    """ Two-sided symmetric version of match(). """
    
    matches_12 = match(desc1,desc2,threshold)
    matches_21 = match(desc2,desc1,threshold)
    
    ndx_12 = where(matches_12 >= 0)[0]
    
    # remove matches that are not symmetric去除非对称匹配
    for n in ndx_12:
        if matches_21[matches_12[n]] != n:
            matches_12[n] = -1
    
    return matches_12

#分别在两边绘制出图像，使用线段链接匹的像素点可视化
def appendimages(im1,im2):
    """ Return a new image that appends the two images side-by-side. """
    
    # select the image with the fewest rows and fill in enough empty rows
    rows1 = im1.shape[0]    
    rows2 = im2.shape[0]
    
    if rows1 < rows2:
        im1 = concatenate((im1,zeros((rows2-rows1,im1.shape[1]))),axis=0)
    elif rows1 > rows2:
        im2 = concatenate((im2,zeros((rows1-rows2,im2.shape[1]))),axis=0)
    # if none of these cases they are equal, no filling needed.
    
    return concatenate((im1,im2), axis=1)
    
def plot_matches(im1,im2,locs1,locs2,matchscores,show_below=True):
    """ Show a figure with lines joining the accepted matches 
        input: im1,im2 (images as arrays), locs1,locs2 (feature locations), 
        matchscores (as output from 'match()'), 
        show_below (if images should be shown below matches). """
    
    im3 = appendimages(im1,im2)
    if show_below:
        im3 = vstack((im3,im3))
    
    imshow(im3)
    
    cols1 = im1.shape[1]
    for i,m in enumerate(matchscores):
        if m>0:
            plot([locs1[i][1],locs2[m][1]+cols1],[locs1[i][0],locs2[m][0]],'c')
    axis('off')

start=time.clock()

im1 = array(Image.open("a.jpg").convert("L"))
im2 = array(Image.open("b.jpg").convert("L"))
# resize to make matching faster
im1 = imresize(im1,(im1.shape[1]/2,im1.shape[0]/2))
im2 = imresize(im2,(im2.shape[1]/2,im2.shape[0]/2))

wid = 5
harrisim = compute_harris_response(im1,5) 
filtered_coords1 = get_harris_points(harrisim,wid+1) 
d1 = get_descriptors(im1,filtered_coords1,wid)

harrisim = compute_harris_response(im2,5) 
filtered_coords2 = get_harris_points(harrisim,wid+1) 
d2 = get_descriptors(im2,filtered_coords2,wid)

print 'starting matching'
matches = match_twosided(d1,d2)

figure()
gray() 
plot_matches(im1,im2,filtered_coords1,filtered_coords2,matches) 
show()


end = time.clock()
print('Running time: %s Seconds'%(end-start))

以下是SIFT.py的代码

from pylab import *
from numpy import *
from PIL import Image
from PCV.localdescriptors import sift

from PIL import Image
from numpy import *
from pylab import *
import os

def process_image(imagename,resultname,params="--edge-thresh 10 --peak-thresh 5"):
    """ Process an image and save the results in a file. """

    if imagename[-3:] != 'pgm':
        # create a pgm file
        im = Image.open(imagename).convert('L')
        im.save('tmp.pgm')
        imagename = 'tmp.pgm'

    cmmd = str("C:\\Users\\asus-pc\\Desktop\\PCV_work\\win64vlfeat\\sift.exe "+imagename+" --output="+resultname+
                " "+params)
    os.system(cmmd)
    print 'processed', imagename, 'to', resultname


def read_features_from_file(filename):
    """ Read feature properties and return in matrix form. """
    
    f = loadtxt(filename)
    return f[:,:4],f[:,4:] # feature locations, descriptors


def write_features_to_file(filename,locs,desc):
    """ Save feature location and descriptor to file. """
    savetxt(filename,hstack((locs,desc)))
    

def plot_features(im,locs,circle=False):
    """ Show image with features. input: im (image as array), 
        locs (row, col, scale, orientation of each feature). """

    def draw_circle(c,r):
        t = arange(0,1.01,.01)*2*pi
        x = r*cos(t) + c[0]
        y = r*sin(t) + c[1]
        plot(x,y,'b',linewidth=2)

    imshow(im)
    if circle:
        for p in locs:
            draw_circle(p[:2],p[2]) 
    else:
        plot(locs[:,0],locs[:,1],'ob')
    axis('off')


def match(desc1,desc2):
    """ For each descriptor in the first image, 
        select its match in the second image.
        input: desc1 (descriptors for the first image), 
        desc2 (same for second image). """
    
    desc1 = array([d/linalg.norm(d) for d in desc1])
    desc2 = array([d/linalg.norm(d) for d in desc2])
    
    dist_ratio = 0.6
    desc1_size = desc1.shape
    
    matchscores = zeros((desc1_size[0]),'int')
    desc2t = desc2.T # precompute matrix transpose
    for i in range(desc1_size[0]):
        dotprods = dot(desc1[i,:],desc2t) # vector of dot products
        dotprods = 0.9999*dotprods
        # inverse cosine and sort, return index for features in second image
        indx = argsort(arccos(dotprods))
        
        # check if nearest neighbor has angle less than dist_ratio times 2nd
        if arccos(dotprods)[indx[0]] < dist_ratio * arccos(dotprods)[indx[1]]:
            matchscores[i] = int(indx[0])
    
    return matchscores


def appendimages(im1,im2):
    """ Return a new image that appends the two images side-by-side. """
    
    # select the image with the fewest rows and fill in enough empty rows
    rows1 = im1.shape[0]    
    rows2 = im2.shape[0]
    
    if rows1 < rows2:
        im1 = concatenate((im1,zeros((rows2-rows1,im1.shape[1]))), axis=0)
    elif rows1 > rows2:
        im2 = concatenate((im2,zeros((rows1-rows2,im2.shape[1]))), axis=0)
    # if none of these cases they are equal, no filling needed.
    
    return concatenate((im1,im2), axis=1)


def plot_matches(im1,im2,locs1,locs2,matchscores,show_below=True):
    """ Show a figure with lines joining the accepted matches
        input: im1,im2 (images as arrays), locs1,locs2 (location of features), 
        matchscores (as output from 'match'), show_below (if images should be shown below). """
    
    im3 = appendimages(im1,im2)
    if show_below:
        im3 = vstack((im3,im3))
    
    # show image
    imshow(im3)
    
    # draw lines for matches
    cols1 = im1.shape[1]
    for i,m in enumerate(matchscores):
        if m>0:
            plot([locs1[i][0],locs2[m][0]+cols1],[locs1[i][1],locs2[m][1]],'c')
    axis('off')


def match_twosided(desc1,desc2):
    """ Two-sided symmetric version of match(). """
    
    matches_12 = match(desc1,desc2)
    matches_21 = match(desc2,desc1)
    
    ndx_12 = matches_12.nonzero()[0]
    
    # remove matches that are not symmetric
    for n in ndx_12:
        if matches_21[int(matches_12[n])] != n:
            matches_12[n] = 0
    
    return matches_12

import time
start =time.clock()

imname1 = 'a.jpg'
imname2 = 'b.jpg'

# process and save features to file
process_image(imname1, imname1+'.sift')
process_image(imname2, imname2+'.sift')

# read features and match
l1,d1 = read_features_from_file(imname1+'.sift')
l2,d2 = read_features_from_file(imname2+'.sift')
matchscores = match_twosided(d1, d2)

# load images and plot
im1 = array(Image.open(imname1))
im2 = array(Image.open(imname2))

plot_matches(im1,im2,l1,l2,matchscores,show_below=True)
show()

end = time.clock()
print('Running time: %s Seconds'%(end-start))

目标检测项目 sho_re 神经网络人工智能 pytorch 目标检测
·识别图片中有哪些物体并且找到物体的存在位置多任务：位置+类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰VOC数据集：PASCALVOC挑战赛(ThePASCALVisualObjectClasses)是一个世界级的计算机视觉挑战赛。4大类，20小类VOC2007：9963图片/24640目标VOC2012：23080图片/54900目标·COCO数据集：起源于微软2014
点云语义分割：PointNet++在S3DIS数据集上的训练完美代码 3d neo4j 点云
点云语义分割：PointNet++在S3DIS数据集上的训练点云语义分割是计算机视觉领域的一个重要任务，旨在将点云数据中的每个点分配给其对应的语义类别。PointNet++是一种流行的深度学习方法，可用于处理点云数据，并在各种任务中取得了良好的性能。在本文中，我们将探讨如何使用PointNet++模型在S3DIS数据集上进行训练，并提供相应的源代码。数据集介绍S3DIS数据集是一个常用的用于室内场
基于YOLOv5的烟雾检测系统：从数据集准备到UI界面实现深度学习&目标检测实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言烟雾是火灾发生的一个重要早期信号。烟雾检测能够在火灾初期及时识别并报警，为火灾的扑灭争取宝贵的时间。因此，烟雾检测的研究一直是计算机视觉领域中的一个热点问题。近年来，随着深度学习技术的发展，目标检测算法被广泛应用于烟雾检测，尤其是基于YOLOv5的目标检测模型，由于其较高的精度和较低的计算开销，已经成为许多实时检测系统的首选模型。在这篇博客中，我们将介绍如何使用YOLOv5模型进行烟雾检测
计算机视觉｜3D 点云处理黑科技：PointNet++ 原理剖析与实战指南紫雾凌寒 AI 炼金厂 #深度学习 #计算机视觉深度学习计算机视觉 3d cnn PointNet++3d云 3d云数据
一、引言在当今数字化与智能化快速发展的时代，3D点云处理技术在多个前沿领域中发挥着重要作用。特别是在自动驾驶和机器人视觉等领域，这项技术已成为实现智能化的关键支撑。以自动驾驶为例，车辆需要实时感知周围复杂的环境信息，包括行人、车辆、交通标志和路况等。3D点云数据能够提供高精度的三维空间信息，使自动驾驶车辆更准确地识别和定位周围物体，从而做出安全、合理的行驶决策。在城市街道上，自动驾驶车辆通过3D点
【基于手势识别的音量控制系统】合肥玉安人工智能工作室 Python OpenCV python mediapipe 手势手势控制音量
基于手势识别的音量控制系统github项目效果这是一个结合了计算机视觉和系统控制的实用项目，通过识别手势来实现音量的无接触控制，同时考虑到了用户隐私，加入了实时人脸遮罩功能。核心功能实现1.手势识别与音量映射系统使用MediaPipe框架进行手部关键点检测，通过计算大拇指和食指之间的距离来控制音量：def_process_landmarks(self,hand_landmarks):#获取手指关键
利用CUDA与OpenCV实现高效图像处理：全面指南快撑死的鱼 C++（C语言）算法大揭秘 opencv 图像处理人工智能
利用CUDA与OpenCV实现高效图像处理：全面指南前言在现代计算机视觉领域，图像处理的需求日益增加。无论是自动驾驶、安防监控，还是医疗影像分析，图像处理技术都扮演着至关重要的角色。然而，图像处理的计算量非常大，往往需要强大的计算能力来保证实时性和高效性。幸运的是，CUDA和OpenCV为我们提供了一种高效的图像处理解决方案。本篇文章将详细介绍如何结合CUDA与OpenCV，利用GPU的强大计算能
【无标题】东东就是我 opencv 计算机视觉人工智能
1.计算机视觉与图像处理计算机视觉技术涵盖从图像预处理到目标检测的全流程，是工业视觉系统的核心部分。知识点扩展OpenCV基础cv2.imread()、cv2.imshow()、cv2.imwrite()进行基本图像读取、显示、保存cv2.cvtColor()进行颜色空间转换（RGB↔GRAY，RGB↔HSV）cv2.resize()进行图像缩放cv2.flip()进行图像翻转（水平/垂直）imp
PSPNet在图像超分辨率中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
PSPNet在图像超分辨率中的应用1.背景介绍图像超分辨率(ImageSuper-Resolution,ISR)是计算机视觉领域的一个重要研究方向,旨在从低分辨率图像中重建高分辨率图像。传统的ISR方法主要基于插值算法,如双线性插值、双三次插值等,但这些方法往往无法恢复图像的高频细节信息。近年来,随着深度学习的发展,基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的
多宠识别：基于计算机视觉的智能宠物管理系统架构解析深圳市快瞳科技有限公司计算机视觉宠物系统架构
一、行业痛点与技术方案演进在多宠家庭场景中，传统方案面临三大技术瓶颈：1.生物特征混淆：同品种/毛色宠物识别准确率低于65%2.动态场景适应：进食/奔跑状态下的误检率达30%+3.数据孤岛问题：离线设备无法实现持续学习优化快瞳科技采用**双模态视觉融合架构**，结合轻量化YOLOv7-Tiny模型与CLIP多模态大模型，实现：-98.7%的跨品种宠物识别准确率（CVPR2024最新测试数据）-单次
Training-free Neural Architecture Searchthrough Variance of Knowledge of Deep Network Weights（预览版本）境心镜免训练深度学习人工智能 NAS
代码位置摘要深度学习彻底改变了计算机视觉，但它使用深度网络架构取得了巨大的成功，而这些架构大多是手工制作的，因此可能不是最理想的。神经架构搜索(NAS)旨在通过遵循明确定义的优化范式来弥补这一差距，该范式系统地寻找最佳架构，给定客观标准，例如最大分类准确度。然而，NAS的主要限制是其天文数字般的计算成本，因为它通常需要从头开始训练每个候选网络架构。在本文中，我们旨在通过基于Fisher信息提出一种
构建一个完整的视觉Transformer（ViT）图像分类模型 VIT （vision transformer）图像分类 Jackie_AI transformer 分类深度学习
构建一个完整的视觉Transformer（ViT）图像分类模型VIT（visiontransformer）图像分类根据提供的截图内容，我们可以看到一个名为VitNet的视觉Transformer（VisionTransformer，简称ViT）网络架构的部分代码。下面我将提供完整的VitNet类以及相关的辅助函数和训练流程示例代码。计算机视觉、图像处理、毕业辅导、作业帮助、代码获取，远程协助，代码
【人工智能基础】生成模型：让数据“无中生有”的神奇魔法 roman_日积跬步-终至千里 #人工智能基础知识人工智能
文章目录一、生成模型的发展脉络二、生成模型的基本原理三、主要生成模型及其逻辑1、生成对抗网络（GAN）2、变分自编码器（VAE）3、扩散模型（DPM）4、基于能量的模型（EBM）5、正规化流（NF）四、生成模型对比分析五、生成模型的应用拓展一、生成模型的发展脉络在深度学习尚未兴起的时期，计算机视觉领域的传统图像生成算法主要依赖纹理合成和纹理映射等技术。这些算法基于手工设计的特征进行图像构建，然而，
Imagen原理与代码实例讲解 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Imagen原理与代码实例讲解1.背景介绍在人工智能领域中,图像生成一直是一个具有挑战性的任务。传统的计算机视觉模型通常专注于理解和分析现有图像,而生成全新的高质量图像则需要更高级的技术。随着深度学习技术的不断发展,生成式对抗网络(GenerativeAdversarialNetworks,GAN)等新型模型逐渐展现出了令人惊叹的图像生成能力。谷歌的Imagen就是一种基于大型视觉语言模型的全新图
PyTorch：Python深度学习框架使用详解零度° python python 深度学习 pytorch
PyTorch是一个开源的机器学习库，广泛用于计算机视觉和自然语言处理领域。它由Facebook的AI研究团队开发，因其动态计算图、易用性以及与Python的紧密集成而受到开发者的青睐。PyTorch的主要特点动态计算图：PyTorch的计算图在运行时构建，使得模型的修改和调试更加灵活。自动微分：自动计算梯度，简化了机器学习模型的训练过程。丰富的API：提供了丰富的神经网络层、函数和损失函数。跨平
大规模语言模型构建流程人工智能技术笔记语言模型人工智能自然语言处理
大规模语言模型1.大语言模型大规模语言模型（LargeLanguageModels，LLM），也称大语言模型，是一种由包含数百亿以上参数的深度神经网络构建的语言模型，通常使用自监督学习方法通过大量无标注文本进行训练。2.预训练语言模型受到计算机视觉领域采用ImageNet对模型进行一次预训练，使得模型可以通过海量图像充分学习如何提取特征，然后再根据任务目标进行模型精调的预训练范式影响，自然语言处理
新一代 AI 软件Manus 将重新将AI市场大洗牌 CircuitWizard 人工智能
Manus是一家专注于手部追踪、虚拟现实（VR）和增强现实（AR）技术的公司，其新一代AI软件结合了先进的机器学习和计算机视觉技术，致力于提升人机交互的自然性和效率。以下是关于Manus新一代AI软件的详细介绍及其核心功能：1.核心技术与创新Manus的AI软件基于以下技术突破：高精度手部追踪：通过深度学习算法和摄像头/传感器数据，实时捕捉手部骨骼、关节和肌肉的细微动作，精度可达亚毫米级，支持复杂
在 PiscTrace 上使用 YOLO 进行预测与 MiDaS 景深补偿：体验纯视觉自动驾驶的数据分析那雨倾城 PiscTrace 人工智能计算机视觉图像处理自动驾驶 YOLO 视觉检测
随着自动驾驶技术的不断发展，视觉感知系统逐渐成为车辆感知的核心组件。PiscTrace作为一款支持高效视图处理的桌面应用，集成了先进的计算机视觉工具，如YOLO目标检测模型和MiDaS景深估计模型，能够为纯视觉自动驾驶的实现提供强大的支持。通过这两个模型的结合，PiscTrace可以提供高精度的目标识别与环境感知功能，帮助用户进行实时的驾驶数据分析，为决策系统提供宝贵的数据支持。本文将详细介绍如何
专业英语程序员爱德华英语专业英语
文章目录一、计算机1.计算机基础(1)计算机组成原理(2)计算机网络(3)数据库(4)编译原理(5)离散数学2.软件开发(1)编程词汇(2)开发术语(3)Linux(4)软件3.就业领域(1)职场(2)芯片(3)自动驾驶(4)嵌入式硬件4.深度学习(1)论文(2)深度学习DL(3)计算机视觉CV(4)自然语言处理NLP(5)推荐系统(6)计算机图形学二、数学三、机械、材料四、医药五、英美计量单位一
基于FPGA的图像中值滤波Verilog实现及MATLAB辅助验证 CodeWG fpga开发 matlab 开发语言
基于FPGA的图像中值滤波Verilog实现及MATLAB辅助验证图像处理是计算机视觉和图像识别领域的重要组成部分。其中，中值滤波是一种常用的图像去噪方法，广泛应用于图像增强、边缘检测和特征提取等任务中。本文将介绍基于FPGA的图像中值滤波Verilog实现，并通过MATLAB进行辅助验证。首先，我们需要了解什么是中值滤波。中值滤波是一种非线性滤波器，它的原理是将图像中每个像素的灰度值替换为该像素
基于YOLOv5的无人机农田监测系统实现与UI界面设计深度学习&目标检测实战项目 YOLO 无人机 ui 深度学习分类目标检测
一、引言随着无人机技术和深度学习算法的快速发展，农业领域逐渐引入了智能化监测手段。无人机农田监测结合了无人机的高空拍摄能力和计算机视觉技术，能够实时获取农田的图像数据，并对作物生长状态、病虫害检测、土地使用情况等进行智能分析。深度学习中的目标检测技术，如YOLOv5，能够帮助实现精准的农田监测，提供自动化的解决方案。在这篇博客中，我们将介绍如何利用YOLOv5进行无人机农田监测，如何使用图形用户界
【Hugging Face】datasets 库：加载、处理和分享大规模数据集彬彬侠大模型 datasets Hugging Face
HuggingFaceDatasets库HuggingFace的datasets库是一个轻量级、高性能的库，用于加载、处理和分享大规模数据集，特别适用于自然语言处理（NLP）、计算机视觉（CV）和语音任务。1.为什么使用Datasets？在深度学习中，处理大规模数据集通常面临以下挑战：数据集太大，无法一次性加载到内存不同任务的数据格式不统一数据预处理和转换较慢需要快速流式加载数据datasets库
【Python运维】实现高效的自动化备份与恢复：Python脚本从入门到实践蒙娜丽宁 Python杂谈运维运维 python 自动化
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在信息化时代，数据备份和恢复的有效性对企业和个人来说至关重要。本文将带领读者深入了解如何使用Python编写自动化备份与恢复脚本，确保重要数据的安全。本篇文章涵盖了文件系统的备份、MySQL数据库的备份与恢复、定期任务的自动化调度等内容。我们将通过大量的
目标检测YOLO实战应用案例100讲-TDI线阵相机林聪木数码相机计算机视觉人工智能
目录知识储备图像基础知识分辨率单位及换算算法原理一、TDI基本原理二、信噪比提升机制三、时间同步机制四、TDIvs传统线扫描技术五、TDI的技术挑战六、最新的TDI技术发展知识储备图像基础知识首先什么是机器视觉？计算机视觉就是让计算机去理解获取数字图像与视频中的信息。最终实现一个与人类视觉系统实现相同功能的自动化系统。什么是机器视觉中的图像的前置知识——颜色模型？最为常用的颜色模型，分别是RGB颜
人工智能与深度学习的应用案例：从技术原理到实践创新 accurater 人工智能深度学习科技
第一章引言人工智能（AI）作为21世纪最具变革性的技术之一，正通过深度学习（DeepLearning）等核心技术推动各行业的智能化进程。从计算机视觉到自然语言处理，从医疗诊断到工业制造，深度学习通过模拟人脑神经网络的层次化学习机制，实现了对复杂数据的高效分析与决策。本文结合前沿技术框架与行业应用案例，探讨深度学习的核心原理及其在多个领域的实践路径，并附代码实例以增强技术理解。第二章深度学习的技术基
双目立体视觉（6.1）测距 2501_90596733 双目立体视觉计算机视觉人工智能 opencv
在计算机视觉领域，双目相机测距是一项关键技术，它通过模拟人类双眼的视觉机制，利用两个相机从不同角度拍摄同一场景，进而计算出物体的深度信息。一、双目测距的基本原理1.1视差图（DisparityMap）视差图是一种存储了单视图所有像素的视差值的二维图像。视差值是同一物体在左右两幅图像中的列坐标差，即通过比较左右两幅图像的对应像素差异来计算物体的深度信息。视差图是以图像对中任一幅图像为基准生成的，其大
体育数据分析：竞技表现优化与商业价值挖掘的技术范式 Tina0898 数据分析数据挖掘
体育数据分析作为一门交叉学科，正在重塑现代体育产业的发展轨迹。通过多源数据采集、机器学习建模和商业智能分析，体育数据分析已经形成了完整的技术体系和应用生态。本文将深入探讨体育数据分析的技术架构、应用场景和商业价值。一、数据采集与处理技术架构现代体育数据采集系统采用分布式架构，集成了计算机视觉、惯性测量单元(IMU)和生物电传感器等多模态数据源。计算机视觉系统通过高速摄像机和深度学习算法，可实现运动
新型模型架构（参数化状态空间模型、状态空间模型变种）三月七꧁ ꧂ LLM 语言模型 gpt 文心一言 prompt embedding AIGC agi
文章目录参数化状态空间模型状态空间模型变种 Transformer模型自问世以来，在自然语言处理、计算机视觉等多个领域得到了广泛应用，并展现出卓越的数据表示与建模能力。然而，Transformer的自注意力机制在计算每个词元时都需要利用到序列中所有词元的信息，这导致计算和存储复杂度随输入序列长度的平方级别增长。在处理长序列时，这种复杂性会消耗大量的计算资源与存储空间。为了解决这个问题，研究人
【有啥问啥】深入浅出：大模型应用工具 Ollama 技术详解有啥问啥大模型科普人工智能深度学习
深入浅出：大模型应用工具Ollama技术详解引言近年来，大型模型（LargeModels，LLMs）技术突飞猛进，在自然语言处理、计算机视觉、语音识别等领域展现出强大的能力。然而，部署和运行这些庞大的模型往往面临着环境配置复杂、资源需求高昂等挑战。为了解决这些痛点，Ollama应运而生。本文将深入探讨Ollama，一个旨在简化大模型本地运行和管理的开源工具，帮助读者理解其核心概念、优势以及应用场景
基于YOLOv5深度学习的田间杂草检测系统：UI界面 + YOLOv5 + 数据集详细教程深度学习&目标检测实战项目 YOLO 深度学习 ui YOLOv5 人工智能计算机视觉
引言随着农业科技的进步，智能化农业越来越受到重视，尤其是通过计算机视觉技术对作物进行监测和管理。在农业生产中，杂草的生长对作物的生长产生了负面影响，因此准确地检测和识别田间杂草至关重要。本文将详细介绍如何构建一个基于深度学习的田间杂草检测系统，使用YOLOv5模型进行目标检测，并提供一个用户友好的界面。我们将分步骤进行，包括环境配置、数据集准备、模型训练、实时杂草检测系统的实现等内容。目录引言目录
00计算机视觉学习内容依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉（ComputerVision）开发需要掌握数学基础、编程语言、图像处理、机器学习、深度学习等多个方面的知识。以下是一个系统的学习路线：1️⃣数学基础（核心理论支撑）计算机视觉涉及很多数学概念，以下是必备数学知识：✅线性代数（矩阵运算是计算机视觉的核心）向量、矩阵运算（加减、乘法、转置）特征值与特征向量SVD（奇异值分解），用于图像压缩、降维齐次坐标变换（用于3D计算机视觉）✅概率统计（
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">