Yangshengming_zZ

Python计算机视觉编程第八章图像内容分类

图像内容分类

1 K邻近分类器（KNN）

1.1 一个简单的二维示例
1.2 用稠密SIFT作为图像特征
1.3 图像分类：手势识别

2 贝叶斯分类器

2.1 用PCA降维

3 支持向量机

scikit-learn中的SVM

本章介绍图像分类和图像内容分类算法。首先，我们介绍一些简单而有效的方法和目前一些性能最好的分类器，并应用他们解决两类和多分类问题，最后展示两个用于手势识别和目标识别的应用实例。

1 K邻近分类器（KNN）

在分类算法中，最简单且用的最多的一种方法之一就是KNN(K-Nearset Neighbor，K邻近分类法)，这种算法把要分类的对象（例如一个特征向量）与训练集中已知类标记的所有对象进行对比，并由k近邻对指派到哪个类进行投票。这种方法通常分类效果比较好，但是也有很多弊端：与K-means聚类算法一样，需要预先设定k值，k值的选择会影响分类的性能；此外，这种方法要求将整个训练集存储起来，如果训练集非常大，搜索起来就非常慢。对于大训练集，采取某些装箱形式通常会减少对比的次数从积极的一面来看，这种方法在采用何种距离度量方面是没有限制的；实际上，对于你所能想到的东西他都可以奏效，但这并不意味这对任何东西它的分类性能都很好。另外，这种算法的可并行性也很一般。

实现最基本的KNN形式非常简单。给定训练样本集和对应的标记列表，下面的代码可以用来完成这一工作。这些训练样本和标记可以在一个数组里成行摆放或者干脆摆放列表里，训练样本可能是数字、字符串等任何你喜欢的形状。将定义的类对象添加到名为knn.py的文件里:

from numpy import *

class KnnClassifier(object):

    def __init__(self, labels, samples):
        """使用训练数据初始化分类器"""

        self.labels = labels
        self.samples = samples

    def classify(self, point, k=3):
        """在训练数据上采用k近邻分类，并返回标记"""

        # 计算所有训练数据点的距离
        dist = array([sqrt(np.sum((s - point)**2)) for s in self.samples])

        # 对它们进行排序
        ndx = dist.argsort()

        # 用字典存储k近邻
        votes = {}
        for i in range(k):
            label = self.labels[ndx[i]]
            votes.setdefault(label,0)
            votes[label] += 1

        return max(votes)

def L2dist(p1, p2):
    return sqrt( sum((p1-p2)**2) )

定义一个类并用训练数据初始化非常简单；每次相对某些东西进行分类时，用KNN方法，我们就没有必要存储并将训练数据作为参数来传递。用一个字典来存储邻近标记，我们便可以用文本字符串或数字来表示标记。在这个例子中，我们用欧式距离 (L2) 进行度量，也可以使用其他度量方式，只需要将其作为函数添加到上面代码的最后。

1.1 一个简单的二维示例

我们首先建立一些简单的二维示例数据集来说明并可视化分类器的工作原理，下面的脚本将创建两个不同的二维点集，每个点集有两类，用Pickle模块来创建保存创建的数据：

# 创建二维样本数据
    n = 200
    # two normal distributions
    # 两个正态分布数据集
    class_1 = 0.2 * randn(n, 2)
    class_2 = 1.6 * randn(n, 2) + array([5, 1])
    labels = hstack((ones(n), -ones(n)))
    # save with Pickle
    # 用 Pickle 模块保存
    # with open('points_normal.pkl', 'w') as f:
    with open('points_normal.pkl', 'wb') as f:
        pickle.dump(class_1, f)
        pickle.dump(class_2, f)
        pickle.dump(labels, f)
    # normal distribution and ring around it
    # 正态分布，并使数据成环绕状分布
    class_1 = 0.6 * randn(n, 2)
    r = 0.8 * randn(n, 1) + 5
    angle = 2 * pi * randn(n, 1)
    class_2 = hstack((r * cos(angle), r * sin(angle)))
    labels = hstack((ones(n), -ones(n)))
    # save with Pickle
    # 用 Pickle 保存
    # with open('points_ring.pkl', 'w') as f:
    with open('points_ring.pkl', 'wb') as f:
        pickle.dump(class_1, f)
        pickle.dump(class_2, f)
        pickle.dump(labels, f)

用不同的保存文件名运行该代码两次，例如第一次用points_normal.pkl和points_ring.pkl，则第二次改为points_normal_test.pkl和points_ring_test.pkl进行保存。得到4个二维数据集文件，每个分布都有两个文件，一个用来训练，一个用来做测试。

让我们看看怎么用KNN分类器来完成，用下面的代码来创建一个脚本：


    # 用 Pickle 载入二维数据点
    with open('points_ring.pkl', 'rb+') as f:
        class_1 = pickle.load(f)
        class_2 = pickle.load(f)
        labels = pickle.load(f)
        model = KnnClassifier(labels, vstack((class_1, class_2)))
    # 用Pickle模块载入测试数据
    with open('points_ring_test.pkl', 'rb+') as f:
        class_1 = pickle.load(f)
        class_2 = pickle.load(f)
        labels = pickle.load(f)
        # 在测试数据集的第一个数据点上进行测试
    print(model.classify(class_1[0]))


    # 为了可视化所有测试数据点的分类，并展示分类器将两个不同的类分开得怎样，我 们可以添加这些代码：

    # 定义绘图函数
    def classify(x, y, model=model):
        return array([model.classify([xx, yy]) for (xx, yy) in zip(x, y)])


    # 绘制分类边界
    imtools.plot_2D_boundary([-6, 6, -6, 6], [class_1, class_2], classify, [1, -1])
    show()

n=200,k=30:

每个示例中，不同颜色代表类标记，正确分类的点用星号表示，分类错误的点用圆点表示，曲线是分类器的决策边界。正如所看到的，kNN 决策边界适用于没有任何明确模型的类分布。

1.2 用稠密SIFT作为图像特征

我们来看如何对图像进行分类。要对图像进行分类，我们需要一个特征向量来表示一幅图像。在聚类一章我们用平均RGB像素值和PCA系数作为图像的特征向量；这里我们会介绍另外一种表示形式，即稠密SIFT特征向量。

在整幅图像上用一个规则的网格应用SIFT描述子可以得到稠密SIFT的表示形式，通过添加一些额外的参数来得到稠密SIFT特征。创建一个名为dsift.py的文件：

from PIL import Image
import os
from numpy import *
import sift


def process_image_dsift(imagename,resultname,size=20,steps=10,force_orientation=False,resize=None):
    """ 用密集采样的 SIFT 描述子处理一幅图像，并将结果保存在一个文件中。可选的输入：  特征的大小 size，位置之间的步长 steps，是否强迫计算描述子的方位 force_orientation （False 表示所有的方位都是朝上的），用于调整图像大小的元组 """

    im = Image.open(imagename).convert('L')
    if resize!=None:
        im = im.resize(resize)
    m,n = im.size
    
    if imagename[-3:] != 'pgm':
        #创建一个 pgm 文件
        im.save('tmp.pgm')
        imagename = 'tmp.pgm'

    # 创建帧，并保存到临时文件 
    scale = size/3.0
    x,y = meshgrid(range(steps,m,steps),range(steps,n,steps))
    xx,yy = x.flatten(),y.flatten()
    frame = array([xx,yy,scale*ones(xx.shape[0]),zeros(xx.shape[0])])
    savetxt('tmp.frame',frame.T,fmt='%03.3f')
    
    if force_orientation:
        cmmd = str("sift "+imagename+" --output="+resultname+
                    " --read-frames=tmp.frame --orientations")
    else:
        cmmd = str("sift "+imagename+" --output="+resultname+
                    " --read-frames=tmp.frame")
    os.system(cmmd)
    print 'processed', imagename, 'to', resultname

利用类似下面的代码可以计算稠密SIFT描述子，并可视化它们的位置：

# -*- coding: utf-8 -*-
from PCV.localdescriptors import sift, dsift
from pylab import  *
from PIL import Image

dsift.process_image_dsift('empire.jpg','empire.sift',90,40,True)
l,d = sift.read_features_from_file('empire.sift')
im = array(Image.open('empire.jpg'))
sift.plot_features(im,l,True)
title('Dense SIFT')
show()

使用用于定位描述子的局部梯度方向（force_orientation设置为真），该代码可以在整个图像中计算出稠密SIFT特征。

1.3 图像分类：手势识别

用稠密 SIFT 描述子来表示这些手势图像，将图像放在一个名为 uniform 的文件夹里，每一类均分两组，并分别放入名为 train 和 test 的两个文件夹中。

from PCV.localdescriptors import sift, dsift
from pylab import  *
from PIL import Image
import os
from PIL import Image



# def get_imlist(path):
#     """    Returns a list of filenames for
#         all jpg images in a directory. """
#
#     return [os.path.join(path, f) for f in os.listdir(path) if f.endswith('.ppm')]
#
# imlist = get_imlist('D:\\123\图像处理\Image Processing\Image Processing\Chpater8\\train')
# # print(imlist)
# # 将图像尺寸调为（50，50），然后进行处理
# for filename in imlist:
#     featfile = filename[:-3]+'dsift'
#     dsift.process_image_dsift(filename,featfile,10,5,resize=(50,50))

imlist = ['gesture/C-uniform02.ppm', 'gesture/B-uniform01.ppm',
          'gesture/A-uniform01.ppm', 'gesture/Five-uniform01.ppm',
          'gesture/Point-uniform01.ppm', 'gesture/V-uniform01.ppm']

figure()
for i, im in enumerate(imlist):
    print(im)
    dsift.process_image_dsift(im, im[:-3] + 'dsift', 10, 5, True, resize=(50,50))
    l, d = sift.read_features_from_file(im[:-3] + 'dsift')
    dirpath, filename = os.path.split(im)
    im = array(Image.open(im))
    # 显示手势含义title
    titlename = filename[:-14]
    subplot(2, 3, i + 1)
    sift.plot_features(im, l, True)
    title(titlename)
show()

定义一个辅助函数，用于从文件中读取稠密 SIFT 描述子，如下：

from PCV.localdescriptors import sift, dsift
from pylab import  *
from PIL import Image
import os
from PIL import Image
import PCV.classifiers.knn as knn

def read_gesture_features_labels(path):
    # create list of all files ending in .dsift
    featlist = [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.dsift')]
    # read the features
    features = []
    for featfile in featlist:
        l,d = sift.read_features_from_file(featfile)
        features.append(d.flatten())
    features = array(features)
    # create labels
    labels = [featfile.split('/')[-1][0] for featfile in featlist]
    return features,array(labels)

def print_confusion(res,test_labels,classnames):
    n  = len(classnames)
    class_ind=dict([(classnames[i],i)for i in range(n)])
    confuse = zeros((n,n))
    for i in range(len(test_labels)):
        confuse[class_ind[res[i]],class_ind[test_labels[i]]]+=1
    print('Confusion matrix for')
    print(classnames)
    print(confuse)



def get_imlist(path):
    """    Returns a list of filenames for
        all jpg images in a directory. """

    return [os.path.join(path, f) for f in os.listdir(path) if f.endswith('.ppm')]

# imlist = get_imlist('train/')
# # print(imlist)
# # 将图像尺寸调为（50，50），然后进行处理
# for filename in imlist:
#     featfile = filename[:-3]+'dsift'
#     dsift.process_image_dsift(filename,featfile,10,5,resize=(50,50))

# imlist = ['gesture/C-uniform02.ppm', 'gesture/B-uniform01.ppm',
#           'gesture/A-uniform01.ppm', 'gesture/Five-uniform01.ppm',
#           'gesture/Point-uniform01.ppm', 'gesture/V-uniform01.ppm']
#
# figure()
# for i, im in enumerate(imlist):
#     print(im)
#     dsift.process_image_dsift(im, im[:-3] + 'dsift', 10, 5, True, resize=(50,50))
#     l, d = sift.read_features_from_file(im[:-3] + 'dsift')
#     dirpath, filename = os.path.split(im)
#     im = array(Image.open(im))
#     # 显示手势含义title
#     titlename = filename[:-14]
#     subplot(2, 3, i + 1)
#     sift.plot_features(im, l, True)
#     title(titlename)
# show()
#
features,labels = read_gesture_features_labels('train/')
test_features,test_labels = read_gesture_features_labels('test/')
classnames = unique(labels)

# test kNN
k = 1
knn_classifier = knn.KnnClassifier(labels,features)
res = array([knn_classifier.classify(test_features[i],k) for i in
range(len(test_labels))])
# accuracy
acc = sum(1.0*(res==test_labels)) / len(test_labels)
print ('Accuracy:', acc)
print_confusion(res,test_labels,classnames)

最后打印出准确度和混淆矩阵：

2 贝叶斯分类器

另一个简单却有效的分类器是贝叶斯分类器（或称朴素贝叶斯分类器）。贝叶斯分类器是一种基于贝叶斯条件概率定理的概率分类器，它假设特征是彼此独立不相关的（这就是他“朴素”的部分）。贝叶斯分类器可以非常有效地被训练出来，原因在于每一个特征模型都是独立选取的。尽管它们的假设非常简单，但是贝叶斯分类器已经在实际应用中获得显著成效，尤其是对垃圾邮件的过滤。贝叶斯分类器的另一个好处是，一旦学习了这个模型，就没有必要存储训练数据了，只需存储模型的参数。

该分类器是通过将各个特征的条件概率相乘得到一个类的总概率，然后选取概率最高的那个类构造出来的。

首先让我们看一个使用高斯概率分布模型的贝叶斯分类器基本实现，也就是用从训练数据集计算得到的特征均值和方差来对每个特征单独建模。把下面的BayesClassifier类添加到文件bayes.py中：

from pylab import *

class BayesClassifier(object):

    def __init__(self):
        """使用训练数据初始化分类器"""

        self.labels = []    # 类标签
        self.mean = []      # 类均值
        self.var = []       # 类方差
        self.n = 0          # 类别数

    def train(self,data,labels=None):
        """在数据data(n×dim的数组列表)上训练，标记labels是可选的，默认为0...n-1"""

        if labels == None:
            labels = range(len(data))
        self.labels = labels
        self.n = len(labels)

        for c in data:
            self.mean.append(mean(c,axis=0))
            self.var.append(var(c,axis=0))

    def classify(self,points):
        """通过计算得出的每一类的概率对数据点进行分类，并返回最可能的标记"""

        # 计算每一类的概率
        est_prob = array([gauss(m,v,points) for m,v in zip(self.mean, self.var)])

        # 获取具有最高概率的索引，该索引会给出类标签
        ndx = est_prob.argmax(axis=0)
        est_labels = array([self.labels[n] for n in ndx])

        return est_labels, est_prob

该模型每一类都有两个变量，即类均值和协方差。train()方法获得特征数组列表（每个类对应一个特征数组），并计算每个特征数组的均值和协方差。classify()方法计算数据点构成的数组的类概率，并选概率最高的那个类，最终返回预测的类标记及概率值，同时需要一个高斯辅助函数：

def gauss(m,v,x):
    """用独立均值m和方差v评估d维高斯分布"""
    
    if len(x.shape) == 1:
        n,d = 1, x.shape[0]
    else:
        n,d = x.shape
        
    # 协方差矩阵，减去均值
    S = diag(1/v)
    x = x - m
    # 概率的乘积
    y = exp(-0.5 * diag(dot(x, dot(S, x.T))))
    
    # 归一化并返回
    return y * (2 * pi) ** (-d/2.0) / (sqrt(prod(v)) + 1e-6)

该函数用来计算单个高斯分布的乘积，返回给定一组模型参数m和v的概率。

将该贝叶斯分类器用于上一节的二维数据，下面的脚本将载入上一节的二维数据，并训练出一个分类器：

# 用Pickle模块载入二维样本点
    with open('points_normal.pkl','rb+') as f:
        class_1 = pickle.load(f)
        class_2 = pickle.load(f)
        labels = pickle.load(f)

    # 训练贝叶斯分类器
    bc = BayesClassifier()
    bc.train([class_1, class_2],[1,-1])

    # 用Pickle模块载入测试数据
    with open('points_normal_test.pkl','rb+') as f:
        class_1 = pickle.load(f)
        class_2 = pickle.load(f)
        labels = pickle.load(f)

    # 在某些数据点上进行测试
    print(bc.classify(class_1[:10])[0])

    # 绘制这些二维数据点及决策边界
    def classify(x, y, bc=bc):
        points = vstack((x, y))
        return bc.classify(points.T)[0]


    imtools.plot_2D_boundary([-6, 6, -6, 6], [class_1, class_2], classify, [1, -1])
    show()

[1 1 1 1 1 1 1 1 1 1]

2.1 用PCA降维

现在，我们尝试手势识别问题。由于稠密SIFT描述子的特征向量十分庞大（从前的例子可以看到，参数的选取超过了10000），在用数据拟合模型之前进行降维处理是一个很好的想法。主成分分析法，非常适合用于降维。下面的脚本就是用PCA进行降维：

	features, labels = read_gesture_features_labels('train/')
    test_features, test_labels = read_gesture_features_labels('test/')
    classnames = unique(labels)

    # print(features,labels,classnames)

    V, S, m = pca.pca(features)
    # 保持最重要的成分
    V = V[:50]
    features = array([dot(V, f - m) for f in features])
    test_features = array([dot(V, f - m) for f in test_features])

    # 测试贝叶斯分类器
    bc = BayesClassifier()
    blist = [features[where(labels == c)[0]] for c in classnames]

    # print(blist)

    bc.train(blist, classnames)
    res = bc.classify(test_features)[0]

    acc = sum(1.0 * (res == test_labels)) / len(test_labels)
    print('Accuracy:', acc)

    print_confusion(res, test_labels, classnames)

3 支持向量机

SVM（Support Vector Machine，支持向量机）是一类强大的分类器，可以在很多分类问题中给出有水准很高的分类结果。最简单的SVM通过在高位空间中寻找一个最优线性分类面，尽可能地将两类数据分开。对于以特征向量x的决策函数为： $f (x) = w \cdot x - b$ 其中w是常规的超平面，b是偏移量常数。该函数的阈值为0，它能够很好地将两类数据分开，使其一类为正数，另一类为负数。通过在训练集上求解哪些带有标记 $y_i\in\{-1,1\}$ 的特征向量x_i的最优化问题，使超平面在两类间具有最大分开间隔，从而找到上面决策函数中的参数w和b。该决策函数的常规解是训练集上某些特征向量的线性组合： $w=\sum_i\alpha_iy_ix_i$ 所以决策函数可以写为： $f(x)=\sum_i\alpha_iy_ix_i ·x-b$ 这里的i是从训练集中选出的部分样本，这里选择的样本称为支持向量，因为它们可以帮助定义分类的边界。

SVM的一个优势是可以使用核函数（kernel function）；核函数能够将特征向量映射到另一个不同维度的空间中，比如高纬度空间。通过核函数映射，依然可以保持对决策函数的控制，从而可以有效地解决非线性问题或者很难的分类问题。用核函数K（x_i,x）替代上面决策函数中的内积x_i·x。

scikit-learn中的SVM

我们先使用sklearn中的数据集构建两类点：

生成SVM训练模型：

画出决策边界：

调节超参数c观察结果：

画出决策边界的函数：

画出我们SVM模型的决策边界：

画出在超参数c变大时的决策边界：

尝试用SVM去解决回归问题：

支撑向量机在理论难度上还是很大的，重点在于理解整个过程的思想和解决问题的思路，现在只是很浅显的学习了SVM，之后还要仔细再去学习。

AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
探秘3D UNet-PyTorch：高效三维图像分割利器鲍凯印Fox
探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。本文将深入剖析该项目的技术细节，应用场景及特性，以期吸引更多的开发者和研究人员参与其中。项目简介3DUNet是2DUNet的三维扩展，其结构保持了卷积神经网络的对称性，采用跳跃连接的方式保留了不同尺度
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
解锁Python中的人脸识别：Face Recognition库详解与应用码上飞扬 Recognition 人脸识别
在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。在众多的人脸识别工具和库中，Python的FaceRecognition库以其简单易用和高效性而备受青睐。本文将深入探讨FaceRecognition库的使用方法、工作原理及其应用场景，帮助你快速掌握这一强大的工具。一、什么是FaceRecogniti
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
Sora文本生成影像模型背后的创新原理与挑战 noVonN c语言深度学习算法区块链人工智能
引言随着人工智能技术的飞速发展，OpenAI作为行业领导者，在文本生成领域取得重大突破之后，近日又推出了其在影像生成领域的最新力作——Sora。这款模型将自然语言处理与计算机视觉技术相结合，旨在通过输入文本描述来快速创作出逼真的电影场景，为内容创作者提供了前所未有的艺术表达工具。然而，正如OpenAI所指出的那样，尽管Sora展现出了令人惊叹的创造力，但它在仿真复杂物理现象和理解具体事例因果关系方
深度学习驱动下的字符识别：挑战与创新逼子歌神经网络深度学习字符识别卷积神经网络图像处理特征提取
一、引言1.1研究背景深度学习在字符识别领域具有至关重要的地位。随着信息技术的飞速发展，对字符识别的准确性和效率要求越来越高。字符识别作为计算机视觉领域的一个重要研究方向，其主要目的是将各种形式的字符转换成计算机可识别的文本信息。近年来，深度学习技术在字符识别领域取得了显著的进展。国内研究者主要使用基于模板匹配的方法、基于统计模型的方法、基于神经网络的方法等各种方法进行字符识别研究。目前，国内各大
【深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数阿_旭 AI应用软件开发实战深度学习实战深度学习 python 行人检测行人追踪过线计数
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体
【激活函数总结】Pytorch中的激活函数详解： ReLU、Leaky ReLU、Sigmoid、Tanh 以及 Softmax 阿_旭深度学习知识点 pytorch 人工智能 python 激活函数深度学习
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

Python计算机视觉编程第八章 图像内容分类