Eaton_chen

python计算机视觉——第八章图像内容分类

文章目录

引言
8.1 K邻近分类法
- 8.1.1 一个简单的二维示例
- 8.1.2 用稠密SIFT作为图像特征
- 8.1.3 图像分类：手势识别
8.2 贝叶斯分类器
- 8.2.1 PCA降维
8.3 支持向量机
- 8.3.1 使用LibSVM

引言

本章介绍图像分类和图像内容分类算法，首先介绍一些简单有效的方法及性能最好的分类器，运用它们解决两类和多类分类问题，并展示两个用于手势识别和目标识别的运用实例。

8.1 K邻近分类法

全称为KNN（K-Nearest Neighbor），这种算法把要分类的对象与训练集中已标记的所有对象进行对比，由KNN指派到哪个类别，k值的选择会影响分类的性能，且要求把整个训练集存储起来，存储量会影响搜索的速度。对于大的训练集，采取装箱形式通常会减少对比的次数，在采取距离度量方面是没有限制的，但不是对所有东西的分类性能都很好。

实现KNN的过程要给定训练样本集和对应的标记列表，将定义的类对象添加到knn.py的文件里。

import math
from numpy import *

class KnnClassifier(object):
    def __init__(self,labels,samples):
        '''训练数据初始化分类器'''
        self.labels = labels
        self.samples = samples
        
    def classify(self,point,k = 3):
        '''训练数据上采用k近邻分类，并返回标记'''
        #计算数据点的距离
        dist = array([L2dist(point,s) for s in self.samples])
        # 从小到大排序后输入下标的数组
        ndx = dist.argsort()
        
        #字典形式存储k近邻
        votes = {}
        #三组
        for i in range(k):
            #存储为列表
            labels = self.labels[ndx[i]]
            #令label为查找的键值
            votes.setdefault(label,0)
            votes[label]+=1
        return max(votes)
    
    def L2dist(p1,p2):
        return math.sqrt(sum((p1-p2)**2))

用字典来存储临近标记，可以用文本字符串或数字来表示标记，用欧式距离（L2）度量点与sample里的距离。

8.1.1 一个简单的二维示例

首先建立二维示例数据集说明并可视化分类器的工作原理，下面的脚本将创建两个不同的二维点集，每个点集有两类，用Pickle模块来保存创建的数据：

from numpy.random import randn
import pickle

n = 200
#两个正态分布数据集
class_1 = 0.6*randn(n,2)
class_2 = 1.2*randn(n,2)+array([5,1])
labels = hstack((ones(n),-ones(n)))


#用Pickle模块保存
with open('points_normal.pkl','wb') as f:
    pickle.dump(class_1,f)
    pickle.dump(class_2,f)
    pickle.dump(labels,f)
    
# 正态分布，并使数据成环绕状分布
class_1 = 0.6 * randn(n,2)
r = 0.8 * randn(n,1) + 5
angle = 2*pi * randn(n,1)
class_2 = hstack((r*cos(angle),r*sin(angle)))
labels = hstack((ones(n),-ones(n)))

with open('points_ring.pkl','wb') as f:
    pickle.dump(class_1,f)
    pickle.dump(class_2,f)
    pickle.dump(labels,f)

可以改变文件名，使用一个用来训练，另一个用来测试。

用Knn分类器来完成数据集的分类：

import Knn
import pickle
import imtools


with open('points_normal.pkl', 'rb') as f:
     class_1 = pickle.load(f)
     class_2 = pickle.load(f)
     labels = pickle.load(f)
        
model = Knn.KnnClassifier(labels,vstack((class_1,class_2)))


with open('points_normal_test.pkl', 'rb') as f:
     class_1 = pickle.load(f)
     class_2 = pickle.load(f)
     labels = pickle.load(f)
#第一个数据集上进行测试
print(model.classify(class_1[0]))
>1.0

可视化数据点：

import imtools
# 定义绘图函数
def classify(x,y,model=model):
    return array([model.classify([xx,yy]) for (xx,yy) in zip(x,y)])
# 绘制分类边界
imtools.plot_2D_boundary([-6,6,-6,6],[class_1,class_2],classify,[1,-1])

def plot_2D_boundary(plot_range,points,decisionfcn,labels,values=[0]):
 """Plot_range 为（xmin，xmax，ymin，ymax），points 是类数据点列表，
 decisionfcn 是评估函数，labels 是函数 decidionfcn 关于每个类返回的标记列表 """
 clist = ['b','r','g','k','m','y'] # 不同的类用不同的颜色标识
 
 # 在一个网格上进行评估，并画出决策函数的边界
 x = arange(plot_range[0],plot_range[1],.1)
 y = arange(plot_range[2],plot_range[3],.1)
 xx,yy = meshgrid(x,y)
 xxx,yyy = xx.flatten(),yy.flatten() # 网格中的 x，y 坐标点列表
 zz = array(decisionfcn(xxx,yyy))
 zz = zz.reshape(xx.shape)
 # 以 values 画出边界
 contour(xx,yy,zz,values)
 # 对于每类，用 * 画出分类正确的点，用 o 画出分类不正确的点
 for i in range(len(points)):
 d = decisionfcn(points[i][:,0],points[i][:,1])
 # labels是[1,-1]，比较classify的结果
 correct_ndx = labels[i]==d
 incorrect_ndx = labels[i]!=d
 plot(points[i][correct_ndx,0],points[i][correct_ndx,1],'*',color=clist[i])
 plot(points[i][incorrect_ndx,0],points[i][incorrect_ndx,1],'o',color=clist[i])
 axis('equal')

normal

ring

这个函数需要一个决策函数（分类器），并且用 meshgrid() 函数在一个网格上进行预测。决策函数的等值线可以显示边界的位置，默认边界为零等值线。

8.1.2 用稠密SIFT作为图像特征

本节中，我们使用稠密SIFT作为图像的特征向量，对图像进行分类。利用规则的网格应用SIFT描述子可得到稠密的SIFT特征。

from PIL import Image
import os
from numpy import *
import sift


def process_image_dsift(imagename,resultname,size=20,steps=10,force_orientation=False,resize=None):
   '''size是特征的大小，位置之间的步长是step，描述子方位（False表示所有的方位朝上，resize是调整图像大小的元组）'''

    im = Image.open(imagename).convert('L')
    if resize!=None:
        im = im.resize(resize)
    m,n = im.size
    
    #图像名称后三位
    if imagename[-3:] != 'pgm':
        #create a pgm file
        im.save('tmp.pgm')
        imagename = 'tmp.pgm'

    # create frames and save to temporary file
    scale = size/3.0
    #制作稠密的网格，用linspace也可以
    x,y = meshgrid(range(steps,m,steps),range(steps,n,steps))
    xx,yy = x.flatten(),y.flatten()
    #创建帧
    frame = array([xx,yy,scale*ones(xx.shape[0]),zeros(xx.shape[0])])
    #保存到临时文件
    savetxt('tmp.frame',frame.T,fmt='%03.3f')
    
    if force_orientation:
        cmmd = str("sift "+imagename+" --output="+resultname+
                    " --read-frames=tmp.frame --orientations")
    else:
        cmmd = str("sift "+imagename+" --output="+resultname+
                    " --read-frames=tmp.frame")
    os.system(cmmd)
    print ('processed', imagename, 'to', resultname)

（fmt是什么？）
savetext()的最后一个参数可以在提取描述子之前对图像的大小进行调整；若force_orientation为真，描述子会基于局部主梯度方向进行归一化。

import dsift,sift
dsift.process_image_dsift('pic/empire.jpg','empire.sift',90,40,True)
l,d = sift.read_features_from_file('empire.sift')
im = array(Image.open('pic/empire.jpg'))
sift.plot_features(im,l,True)

如图所示，在整个图像中计算出稠密 SIFT 特征。

8.1.3 图像分类：手势识别

在此应用中，我们会用稠密SIFT描述子来表示这些手势图像，建立简单的手势识别系统，用静态手势和数据库的一些图像进行演示。

import dsift,imtools

imlist = imtools.get_imlist('gesture/train')

for filename in imlist:
    featfile = filename[:-3]+'dsift'
    dsift.process_image_dsift(filename,featfile,10,5,resize=(50,50))

上面的代码对每一副图像创建特征文件，后缀是.dsift，图像分辨率要改成常见的固定大小，因为每幅图像的描述子数量不同，特征向量长度不一样，从而在比较时出错。

定义辅助函数，从文件中读取稠密的SIFT描述子：

import os, sift

def read_gesture_features_labels(path):
 # 对所有以 .dsift 为后缀的文件创建一个列表
    featlist = [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.dsift')]
 # 读取特征
    features = []
    for featfile in featlist:
        l,d = sift.read_features_from_file(featfile)
        #将描述子添加进列表
        features.append(d.flatten())
    features = array(features)

# 创建标记
    labels = [featfile.split('/')[-1][0] for featfile in featlist]
    return features,array(labels)

labels将每个featlist中文件名的首字母作为标记，如A,B,C,F（Five）等。第一个[-1]与[0]效果一致，要把字符串看作一个整体。

imlist = ['gesture/fig8-3/C-uniform01.ppm', 'gesture/fig8-3/B-uniform01.ppm',
          'gesture/fig8-3/A-uniform01.ppm', 'gesture/fig8-3/Five-uniform01.ppm',
          'gesture/fig8-3/Point-uniform01.ppm', 'gesture/fig8-3/V-uniform01.ppm',]

figure()
for im in imlist:
    dsift.process_image_dsift(im, im[:-3] + 'dsift', 10, 5, True, resize=(50,50))
    l, d = sift.read_features_from_file(im[:-3] + 'dsift')
    dirpath, filename = os.path.split(im)
    im = array(Image.open(im))
    # 显示手势含义title
    titlename = filename[0]
    for i in range(len(imlist)):
        sift.plot_features(im, l, True)
        title(titlename)
    show()

部分图像

接着，利用下面的方法读取训练、测试集的特征和标记信息：

import numpy as np

features,labels = read_gesture_features_labels('gesture/train/')

test_features,test_labels = read_gesture_features_labels('gesture/test/')

classnames = np.unique(labels)

unique()函数可得到排序后的类名称列表。

接着，在数据上使用K近邻代码：

注意：return [os.path.join(path, f) for f in os.listdir(path) if f.endswith(’.ppm’)]

# 测试 KNN
import Knn
k = 1
knn_classifier = Knn.KnnClassifier(labels,features)
res = array([knn_classifier.classify(test_features[i],k) for i in
 range(len(test_labels))])
# 准确率
acc = sum(1.0*(res==test_labels)) / len(test_labels)
print ('Accuracy:', acc)

但是它并没有告诉我们哪些手势难以分类，或会犯哪些典型错误。混淆矩阵是一个可以显示每类有多少个样本被分在每一类中的矩阵，它可以显示错误的分布情况，以及哪些类是经常相互“混淆”的。

def print_confusion(res,test_labels,classnames):
    n  = len(classnames)
    class_ind=dict([(classnames[i],i)for i in range(n)])
    confuse = zeros((n,n))
    for i in range(len(test_labels)):
        confuse[class_ind[res[i]],class_ind[test_labels[i]]]+=1
    print('Confusion matrix for')
    print(classnames)
    print(confuse)
print_confusion(res,labels,classnames)

很直观的混淆矩阵，有37.5%的P被误认为了V。

8.2 贝叶斯分类器

贝叶斯分类器是一种基于贝叶斯条件概率定理的概率分布器，假设特征是彼此独立不相关，贝叶斯分类器在实际应用中获得显著成效（过滤垃圾邮件），另一个优点是，一旦学习了这个模型，就没有必要存储训练数据了，只需存储模型的参数。

该分类是通过将各个特征的条件概率相乘得到一个类的总概率，然后选取概率最高的那个类构造出来的。

首先让我们看使用高斯概率分布模型的贝叶斯分类器基本实现，从训练数据计算得到均值和方差对每个特征单独建模:

from numpy import * 


class BayesClassifier(object):
    
    def __init__(self):
        """ Initialize classifier with training data. """
        
        self.labels = []    # class labels
        self.mean = []        # class mean
        self.var = []        # class variances
        self.n = 0            # nbr of classes
        
    def train(self,data,labels=None):
        """ Train on data (list of arrays n*dim). 
            Labels are optional, default is 0...n-1. """
        
        if labels==None:
            labels = range(len(data))
        self.labels = labels
        self.n = len(labels)
                
        for c in data:
            self.mean.append(mean(c,axis=0))
            self.var.append(var(c,axis=0))
        
    def classify(self,points):
        """ Classify the points by computing probabilities 
            for each class and return most probable label. """
        
        # compute probabilities for each class
        est_prob = array([gauss(m,v,points) for m,v in zip(self.mean,self.var)])
                
        print 'est prob',est_prob.shape,self.labels
        # get index of highest probability, this gives class label
        ndx = est_prob.argmax(axis=0)
        
        est_labels = array([self.labels[n] for n in ndx])
        
        return est_labels, est_prob


def gauss(m,v,x):
    """ Evaluate Gaussian in d-dimensions with independent 
        mean m and variance v at the points in (the rows of) x. 
        http://en.wikipedia.org/wiki/Multivariate_normal_distribution """
    
    if len(x.shape)==1:
        n,d = 1,x.shape[0]
    else:
        n,d = x.shape
            
    # covariance matrix, subtract mean
    S = diag(1/v)
    x = x-m
    # product of probabilities
    y = exp(-0.5*diag(dot(x,dot(S,x.T))))
    
    # normalize and return
    return y * (2*pi)**(-d/2.0) / ( sqrt(prod(v)) + 1e-6)

train()方法计算均值和方差的数组列表，classify()计算由高斯函数生成的概率，并选出概率最高的类，最终返回预测的类标记及概率值。
协方差（分析维度之间的线性关系）：

用贝叶斯分类器训练，数据为points_normal.pkl：

import pickle
import bayes
import imtools
# 用 Pickle 模块载入二维样本点
with open('points_normal.pkl', 'rb') as f:
     class_1 = pickle.load(f)
     class_2 = pickle.load(f)
     labels = pickle.load(f)
# 训练贝叶斯分类器
     bc = bayes.BayesClassifier()
     bc.train([class_1,class_2],[1,-1])

载入二维测试数据进行测试：

# 用 Pickle 模块载入测试数据
with open('points_normal_test.pkl', 'rb') as f:
 class_1 = pickle.load(f)
 class_2 = pickle.load(f)
 labels = pickle.load(f)
# 在某些数据点上进行测试
print bc.classify(class_1[:10])[0]
# 绘制这些二维数据点及决策边界
def classify(x,y,bc=bc):
 points = vstack((x,y))
 return bc.classify(points.T)[0]
imtools.plot_2D_boundary([-6,6,-6,6],[class_1,class_2],classify,[1,-1])

两个数据集的分类结果，决策边界是椭圆，类似于二维高斯的等值线。

ring:

8.2.1 PCA降维

由于稠密SIFT描述子特征向量参数选取过大，用数据拟合之前进行PCA降维，保留主要成分：

#稠密SIFT
import pca
V,S,m = pca.pca(features)
# 保持最重要的成分
V = V[:50]
features = array([dot(V,f-m) for f in features])
test_features = array([dot(V,f-m) for f in test_features])

保持前50维具有最大的方差，通过features中元组与V点乘转换。

8.3 支持向量机

SVM,支持向量机是一类强大的分裂及，最简单的SVM通过在高维空间中寻找一个最优线性分类面，对于特征向量x的决策函数为：
$f (x) = w x = b$
w是常规超平面，b是偏移量常数，阈值为0，是一类为正数/负数，求解带有标记的 $y_i\in (-1,1)$ 的最优化问题，从而找到决策函数的参数。常规解释训练集上某些特征向量的线性组合：
$w=\sum_{i} \alpha _iy_ix_i$ i是训练集中选出的部分样本，称为支持向量，它们可以帮助定义分类的边界。

$f(x)=\sum_{i} \alpha _iy_ix_i\times x-b$
SVM另一个优势是可以使用核函数 $K（x_i,x）$ ，将特征向量映射到另一个不同维度的空间中.
常见的核函数：

参数在训练阶段确定的。

8.3.1 使用LibSVM

它是最广泛的SVM实现工具包，下面的脚本会载入在前面kNN 范例分类中用到的数据点，并用径向基函数训练一个 SVM 分类器：

import pickle
from svmutil import *
import imtools

# 用 Pickle 载入二维样本点
with open('points_normal.pkl', 'rb') as f:
    class_1 = pickle.load(f)
    class_2 = pickle.load(f)
    labels = pickle.load(f)
    
    
# 转换成列表，便于使用 libSVM
class_1 = list(map(list,class_1)) 
class_2 = list(map(list,class_2))
labels = list(labels)
samples = class_1+class_2 # 连接两个列表

               
# 创建 SVM 
prob = svm_problem(labels,samples)
param = svm_parameter('-t 2')
# 在数据上训练
m = svm_train(prob,param)
# 在训练数据上分类效果如何？
res = svm_predict(labels,samples,m)

调用 svm_train() 求解该优化问题用以确定模型参数，然后就可以用该模型进行预测了。

载入测试集测试：

# 用 Pickle 模块载入测试数据
with open('points_normal_test.pkl', 'rb') as f:
     class_1 = pickle.load(f)
     class_2 = pickle.load(f)
     labels = pickle.load(f)
# 转换成列表，便于使用 LibSVM
class_1 = list(map(list,class_1)) 
class_2 = list(map(list,class_2))
# 定义绘图函数
def predict(x,y,model=m):
    return array(svm_predict([0]*len(x),zip(x,y),model)[0])
# 绘制分类边界
imtools.plot_2D_boundary([-6,6,-6,6],[array(class_1),array(class_2)],predict,[-1,1])

ring:

H800实战应用深度解析endofsentence 智能计算研究中心其他
内容概要H800作为新一代计算架构的核心组件，其设计理念聚焦于高性能计算与人工智能场景的深度融合。通过模块化异构计算架构，H800实现了计算密度与能效比的突破性提升。下表展示了H800在不同场景下的性能表现对比：场景类型训练速度提升推理延迟降低能效比提升自然语言处理35%22%40%计算机视觉28%18%33%推荐系统41%29%37%资深系统架构师指出："H800的异构计算架构在模型并行处理方面
NTIRE比赛：技术前沿、国内企业表现与计算机视觉未来展望 AndrewHZ 深度学习新浪潮计算机视觉人工智能深度学习调研报告算法 NTIRE 画质算法
一、NTIRE比赛概述：图像恢复与增强领域的全球竞技场1.1NTIRE的定位与历史NTIRE（NewTrendsinImageRestorationandEnhancement）是计算机视觉领域最具影响力的国际赛事之一，聚焦于图像恢复与增强技术的前沿探索。自2017年首次举办以来，NTIRE每年与计算机视觉顶会CVPR联合召开，成为学术界与工业界技术实力的重要展示平台。其竞赛内容涵盖图像超分辨率、
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
深度解析：DETR的多尺度特征融合 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
"深度解析：DETR的多尺度特征融合"作者：禅与计算机程序设计艺术1.背景介绍1.1目标检测的挑战与传统方法的局限性目标检测是计算机视觉领域中的一个基本任务，其目标是识别图像或视频中所有感兴趣的目标，并确定它们的位置和类别。传统的目标检测方法，如FasterR-CNN和YOLO，通常依赖于预定义的锚框或候选区域来生成目标proposals。然而，这些方法存在一些固有的局限性：人工先验知识:锚框的设
目标检测项目 sho_re 神经网络人工智能 pytorch 目标检测
·识别图片中有哪些物体并且找到物体的存在位置多任务：位置+类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰VOC数据集：PASCALVOC挑战赛(ThePASCALVisualObjectClasses)是一个世界级的计算机视觉挑战赛。4大类，20小类VOC2007：9963图片/24640目标VOC2012：23080图片/54900目标·COCO数据集：起源于微软2014
点云语义分割：PointNet++在S3DIS数据集上的训练完美代码 3d neo4j 点云
点云语义分割：PointNet++在S3DIS数据集上的训练点云语义分割是计算机视觉领域的一个重要任务，旨在将点云数据中的每个点分配给其对应的语义类别。PointNet++是一种流行的深度学习方法，可用于处理点云数据，并在各种任务中取得了良好的性能。在本文中，我们将探讨如何使用PointNet++模型在S3DIS数据集上进行训练，并提供相应的源代码。数据集介绍S3DIS数据集是一个常用的用于室内场
基于YOLOv5的烟雾检测系统：从数据集准备到UI界面实现深度学习&目标检测实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言烟雾是火灾发生的一个重要早期信号。烟雾检测能够在火灾初期及时识别并报警，为火灾的扑灭争取宝贵的时间。因此，烟雾检测的研究一直是计算机视觉领域中的一个热点问题。近年来，随着深度学习技术的发展，目标检测算法被广泛应用于烟雾检测，尤其是基于YOLOv5的目标检测模型，由于其较高的精度和较低的计算开销，已经成为许多实时检测系统的首选模型。在这篇博客中，我们将介绍如何使用YOLOv5模型进行烟雾检测
计算机视觉｜3D 点云处理黑科技：PointNet++ 原理剖析与实战指南紫雾凌寒 AI 炼金厂 #深度学习 #计算机视觉深度学习计算机视觉 3d cnn PointNet++3d云 3d云数据
一、引言在当今数字化与智能化快速发展的时代，3D点云处理技术在多个前沿领域中发挥着重要作用。特别是在自动驾驶和机器人视觉等领域，这项技术已成为实现智能化的关键支撑。以自动驾驶为例，车辆需要实时感知周围复杂的环境信息，包括行人、车辆、交通标志和路况等。3D点云数据能够提供高精度的三维空间信息，使自动驾驶车辆更准确地识别和定位周围物体，从而做出安全、合理的行驶决策。在城市街道上，自动驾驶车辆通过3D点
【基于手势识别的音量控制系统】合肥玉安人工智能工作室 Python OpenCV python mediapipe 手势手势控制音量
基于手势识别的音量控制系统github项目效果这是一个结合了计算机视觉和系统控制的实用项目，通过识别手势来实现音量的无接触控制，同时考虑到了用户隐私，加入了实时人脸遮罩功能。核心功能实现1.手势识别与音量映射系统使用MediaPipe框架进行手部关键点检测，通过计算大拇指和食指之间的距离来控制音量：def_process_landmarks(self,hand_landmarks):#获取手指关键
利用CUDA与OpenCV实现高效图像处理：全面指南快撑死的鱼 C++（C语言）算法大揭秘 opencv 图像处理人工智能
利用CUDA与OpenCV实现高效图像处理：全面指南前言在现代计算机视觉领域，图像处理的需求日益增加。无论是自动驾驶、安防监控，还是医疗影像分析，图像处理技术都扮演着至关重要的角色。然而，图像处理的计算量非常大，往往需要强大的计算能力来保证实时性和高效性。幸运的是，CUDA和OpenCV为我们提供了一种高效的图像处理解决方案。本篇文章将详细介绍如何结合CUDA与OpenCV，利用GPU的强大计算能
【无标题】东东就是我 opencv 计算机视觉人工智能
1.计算机视觉与图像处理计算机视觉技术涵盖从图像预处理到目标检测的全流程，是工业视觉系统的核心部分。知识点扩展OpenCV基础cv2.imread()、cv2.imshow()、cv2.imwrite()进行基本图像读取、显示、保存cv2.cvtColor()进行颜色空间转换（RGB↔GRAY，RGB↔HSV）cv2.resize()进行图像缩放cv2.flip()进行图像翻转（水平/垂直）imp
PSPNet在图像超分辨率中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
PSPNet在图像超分辨率中的应用1.背景介绍图像超分辨率(ImageSuper-Resolution,ISR)是计算机视觉领域的一个重要研究方向,旨在从低分辨率图像中重建高分辨率图像。传统的ISR方法主要基于插值算法,如双线性插值、双三次插值等,但这些方法往往无法恢复图像的高频细节信息。近年来,随着深度学习的发展,基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的
多宠识别：基于计算机视觉的智能宠物管理系统架构解析深圳市快瞳科技有限公司计算机视觉宠物系统架构
一、行业痛点与技术方案演进在多宠家庭场景中，传统方案面临三大技术瓶颈：1.生物特征混淆：同品种/毛色宠物识别准确率低于65%2.动态场景适应：进食/奔跑状态下的误检率达30%+3.数据孤岛问题：离线设备无法实现持续学习优化快瞳科技采用**双模态视觉融合架构**，结合轻量化YOLOv7-Tiny模型与CLIP多模态大模型，实现：-98.7%的跨品种宠物识别准确率（CVPR2024最新测试数据）-单次
Training-free Neural Architecture Searchthrough Variance of Knowledge of Deep Network Weights（预览版本）境心镜免训练深度学习人工智能 NAS
代码位置摘要深度学习彻底改变了计算机视觉，但它使用深度网络架构取得了巨大的成功，而这些架构大多是手工制作的，因此可能不是最理想的。神经架构搜索(NAS)旨在通过遵循明确定义的优化范式来弥补这一差距，该范式系统地寻找最佳架构，给定客观标准，例如最大分类准确度。然而，NAS的主要限制是其天文数字般的计算成本，因为它通常需要从头开始训练每个候选网络架构。在本文中，我们旨在通过基于Fisher信息提出一种
构建一个完整的视觉Transformer（ViT）图像分类模型 VIT （vision transformer）图像分类 Jackie_AI transformer 分类深度学习
构建一个完整的视觉Transformer（ViT）图像分类模型VIT（visiontransformer）图像分类根据提供的截图内容，我们可以看到一个名为VitNet的视觉Transformer（VisionTransformer，简称ViT）网络架构的部分代码。下面我将提供完整的VitNet类以及相关的辅助函数和训练流程示例代码。计算机视觉、图像处理、毕业辅导、作业帮助、代码获取，远程协助，代码
【人工智能基础】生成模型：让数据“无中生有”的神奇魔法 roman_日积跬步-终至千里 #人工智能基础知识人工智能
文章目录一、生成模型的发展脉络二、生成模型的基本原理三、主要生成模型及其逻辑1、生成对抗网络（GAN）2、变分自编码器（VAE）3、扩散模型（DPM）4、基于能量的模型（EBM）5、正规化流（NF）四、生成模型对比分析五、生成模型的应用拓展一、生成模型的发展脉络在深度学习尚未兴起的时期，计算机视觉领域的传统图像生成算法主要依赖纹理合成和纹理映射等技术。这些算法基于手工设计的特征进行图像构建，然而，
Imagen原理与代码实例讲解 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Imagen原理与代码实例讲解1.背景介绍在人工智能领域中,图像生成一直是一个具有挑战性的任务。传统的计算机视觉模型通常专注于理解和分析现有图像,而生成全新的高质量图像则需要更高级的技术。随着深度学习技术的不断发展,生成式对抗网络(GenerativeAdversarialNetworks,GAN)等新型模型逐渐展现出了令人惊叹的图像生成能力。谷歌的Imagen就是一种基于大型视觉语言模型的全新图
PyTorch：Python深度学习框架使用详解零度° python python 深度学习 pytorch
PyTorch是一个开源的机器学习库，广泛用于计算机视觉和自然语言处理领域。它由Facebook的AI研究团队开发，因其动态计算图、易用性以及与Python的紧密集成而受到开发者的青睐。PyTorch的主要特点动态计算图：PyTorch的计算图在运行时构建，使得模型的修改和调试更加灵活。自动微分：自动计算梯度，简化了机器学习模型的训练过程。丰富的API：提供了丰富的神经网络层、函数和损失函数。跨平
大规模语言模型构建流程人工智能技术笔记语言模型人工智能自然语言处理
大规模语言模型1.大语言模型大规模语言模型（LargeLanguageModels，LLM），也称大语言模型，是一种由包含数百亿以上参数的深度神经网络构建的语言模型，通常使用自监督学习方法通过大量无标注文本进行训练。2.预训练语言模型受到计算机视觉领域采用ImageNet对模型进行一次预训练，使得模型可以通过海量图像充分学习如何提取特征，然后再根据任务目标进行模型精调的预训练范式影响，自然语言处理
新一代 AI 软件Manus 将重新将AI市场大洗牌 CircuitWizard 人工智能
Manus是一家专注于手部追踪、虚拟现实（VR）和增强现实（AR）技术的公司，其新一代AI软件结合了先进的机器学习和计算机视觉技术，致力于提升人机交互的自然性和效率。以下是关于Manus新一代AI软件的详细介绍及其核心功能：1.核心技术与创新Manus的AI软件基于以下技术突破：高精度手部追踪：通过深度学习算法和摄像头/传感器数据，实时捕捉手部骨骼、关节和肌肉的细微动作，精度可达亚毫米级，支持复杂
在 PiscTrace 上使用 YOLO 进行预测与 MiDaS 景深补偿：体验纯视觉自动驾驶的数据分析那雨倾城 PiscTrace 人工智能计算机视觉图像处理自动驾驶 YOLO 视觉检测
随着自动驾驶技术的不断发展，视觉感知系统逐渐成为车辆感知的核心组件。PiscTrace作为一款支持高效视图处理的桌面应用，集成了先进的计算机视觉工具，如YOLO目标检测模型和MiDaS景深估计模型，能够为纯视觉自动驾驶的实现提供强大的支持。通过这两个模型的结合，PiscTrace可以提供高精度的目标识别与环境感知功能，帮助用户进行实时的驾驶数据分析，为决策系统提供宝贵的数据支持。本文将详细介绍如何
专业英语程序员爱德华英语专业英语
文章目录一、计算机1.计算机基础(1)计算机组成原理(2)计算机网络(3)数据库(4)编译原理(5)离散数学2.软件开发(1)编程词汇(2)开发术语(3)Linux(4)软件3.就业领域(1)职场(2)芯片(3)自动驾驶(4)嵌入式硬件4.深度学习(1)论文(2)深度学习DL(3)计算机视觉CV(4)自然语言处理NLP(5)推荐系统(6)计算机图形学二、数学三、机械、材料四、医药五、英美计量单位一
基于FPGA的图像中值滤波Verilog实现及MATLAB辅助验证 CodeWG fpga开发 matlab 开发语言
基于FPGA的图像中值滤波Verilog实现及MATLAB辅助验证图像处理是计算机视觉和图像识别领域的重要组成部分。其中，中值滤波是一种常用的图像去噪方法，广泛应用于图像增强、边缘检测和特征提取等任务中。本文将介绍基于FPGA的图像中值滤波Verilog实现，并通过MATLAB进行辅助验证。首先，我们需要了解什么是中值滤波。中值滤波是一种非线性滤波器，它的原理是将图像中每个像素的灰度值替换为该像素
基于YOLOv5的无人机农田监测系统实现与UI界面设计深度学习&目标检测实战项目 YOLO 无人机 ui 深度学习分类目标检测
一、引言随着无人机技术和深度学习算法的快速发展，农业领域逐渐引入了智能化监测手段。无人机农田监测结合了无人机的高空拍摄能力和计算机视觉技术，能够实时获取农田的图像数据，并对作物生长状态、病虫害检测、土地使用情况等进行智能分析。深度学习中的目标检测技术，如YOLOv5，能够帮助实现精准的农田监测，提供自动化的解决方案。在这篇博客中，我们将介绍如何利用YOLOv5进行无人机农田监测，如何使用图形用户界
【Hugging Face】datasets 库：加载、处理和分享大规模数据集彬彬侠大模型 datasets Hugging Face
HuggingFaceDatasets库HuggingFace的datasets库是一个轻量级、高性能的库，用于加载、处理和分享大规模数据集，特别适用于自然语言处理（NLP）、计算机视觉（CV）和语音任务。1.为什么使用Datasets？在深度学习中，处理大规模数据集通常面临以下挑战：数据集太大，无法一次性加载到内存不同任务的数据格式不统一数据预处理和转换较慢需要快速流式加载数据datasets库
【Python运维】实现高效的自动化备份与恢复：Python脚本从入门到实践蒙娜丽宁 Python杂谈运维运维 python 自动化
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在信息化时代，数据备份和恢复的有效性对企业和个人来说至关重要。本文将带领读者深入了解如何使用Python编写自动化备份与恢复脚本，确保重要数据的安全。本篇文章涵盖了文件系统的备份、MySQL数据库的备份与恢复、定期任务的自动化调度等内容。我们将通过大量的
目标检测YOLO实战应用案例100讲-TDI线阵相机林聪木数码相机计算机视觉人工智能
目录知识储备图像基础知识分辨率单位及换算算法原理一、TDI基本原理二、信噪比提升机制三、时间同步机制四、TDIvs传统线扫描技术五、TDI的技术挑战六、最新的TDI技术发展知识储备图像基础知识首先什么是机器视觉？计算机视觉就是让计算机去理解获取数字图像与视频中的信息。最终实现一个与人类视觉系统实现相同功能的自动化系统。什么是机器视觉中的图像的前置知识——颜色模型？最为常用的颜色模型，分别是RGB颜
人工智能与深度学习的应用案例：从技术原理到实践创新 accurater 人工智能深度学习科技
第一章引言人工智能（AI）作为21世纪最具变革性的技术之一，正通过深度学习（DeepLearning）等核心技术推动各行业的智能化进程。从计算机视觉到自然语言处理，从医疗诊断到工业制造，深度学习通过模拟人脑神经网络的层次化学习机制，实现了对复杂数据的高效分析与决策。本文结合前沿技术框架与行业应用案例，探讨深度学习的核心原理及其在多个领域的实践路径，并附代码实例以增强技术理解。第二章深度学习的技术基
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

python计算机视觉——第八章 图像内容分类