Eating Lee

基于BOW模型的图像检索

我们知道，百度在图像方面有一个强大功能——百度识图，其基本操作就是你输入一张图像，百度会帮你检索到与它相似的图像。百度识图其实是相同物体图像检索，即从图像库中找出包含该物体的图像。用户感兴趣的是图像中包含特定物体或目标，并检索到包含该物体的那些图像。相同物体检索不论是在研究还是在商业图像搜索产业中都具有重大的价值，比如做为还是学生的我，看见专卖店好看的衣服都会先拍拍照，然后取淘宝找同款，也是非常机智啦~所以，这个技术对于我们现在生活还是非常有帮助的。今天就来给大家讲讲基于BOW的图像检索技术吧，大家一起来体会一下其中的奥秘！！！

一、BOW模型

二、基于BOW的图像检索

1.特征提取（SIFT算法）

2.学习“视觉词典”（K-means算法）

3.针对输入的特征集，根据视觉词典进行量化

4.把输入图像转化成视觉单词（visual words）的频率直方图

5.构造特征到图像的倒排表，通过倒排表快速索引相关图像

6.根据索引结果进行直方图匹配

三、实现

1.特征提取和学习“视觉词典”

2.创建索引，建立数据库

3.查询图像

4.web应用

四、结果分析

一、BOW模型

首先，我们就先了解一下什么是BOW模型吧！

BOW其实是Bag of words的缩写，也叫做词袋。BOW模型最早出现在自然语言处理和文本检索领域。该模型忽略掉文本的语法、语序等要素，吧文档看做若干词汇的集合，文档中的单词是独立出现的，使用一组无序的单词（words）表达一个文档，根据文档中单词的统计信息完成对文本的分类。

比如，有如下两个文档：

1：Bob likes to play basketball, Jim likes too.

2：Bob also likes to play football games.

根据这两个文档，我们可以构造一个词典：

Dictionary = {1:”Bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”, 8. “games”, 9. “Jim”, 10. “too”}。

这个词典中包含10个不同的单词，利用单词的索引号，我们可以将上面的每个文档都用一个10维向量表示（用0~n表示某个单词在文档中出现的次数，其中n为正整数）：

1：[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

2：[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]

该向量的维度是单词的个数，值是每个单词在文本中出现的频率。以上的向量也可以用单词的直方图表示，词表相当于直方图的基，要表述的是文档向这个基上映射。

并非所有的单词都用来构建词表，相似的单词用一个单词表示。例如“walk, walking,walks” 都用 “walk” 表示。一个单词如果在所有文档中出现，比如is，a，an等词，那么个单词其实对区分文档就没有那么重要了。反之，如果一个单词只在一个文档值出现，那么只要输入的文档有这个单词，那么一定是属于这个单词所在的文档，就是唯一的，这对于区分文档非常重要。单词对区分文档的重要性通过计算单词TF-IDF（term frequency–inverse document frequency，词频-逆向文档频率）实现。

单词在文档中出现的词频是：

是单词在文档中出现的次数。为了归一化，将除以整个文档中单词的总数。

逆向文档频率为：

是在语料库中的文档数目，分母是语料库中包含单词在文档数

就是单词的TF-IDF权重了，用这个来表示单词对区分文档的重要性。

BOW模型用于文本分类包括词表的建立、样本训练、新来样本识别三个步骤。

二、基于BOW的图像检索

对于两张图片，我们可以利用sift算法来进行特征匹配。但是面对大规模图像特征匹配，我们不可能一个个特征匹配，因为这样计算量是在过于庞大。比如，25000张图像约有310亿个图相对，即使每个图匹配只需要两秒，也需要500台并行计算机工作一年才可以完成，所以我们不能使用这种一个个特征匹配的暴力匹配法，需要寻找其他更快速有效的方法。

我们发现，面对大场景数据集，其实只有少于0.1%的图像具有匹配关系，所以我们可用图像整体特征实现匹配/检索，而非局部特征点。所以，我们找到那个快速有效的方法——BOW模型。将BOW模型应用于图像领域，即把图像视为与位置无关的局部特征集合，局部特征就相当于文本中的单词，称为“视觉单词”，视觉单词的集合称为“视觉词典”（也叫码本）。

图像检索的基本流程是：

①特征提取（SIFT算法）

②学习“视觉词典（visual vocabulary）”（k-means算法）

③针对输入的特征集，根据视觉词典进行量化

④把输入图像转化成视觉单词（visual words）的频率直方图

⑤构造特征到图像的倒排表，通过倒排表快速索引相关图像

⑥根据索引结果进行直方图匹配

接下来，我们来具体了解一下每一步做什么吧！！！

1.特征提取（SIFT算法）

特征提取就是从图像中提取出关键点（或特征点、角点）等，我们在这里采用的SIFT算法。SIFT算法用来侦测与描述影像中的局部特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量。此算法由David Lowe 在1999 年所发表，2004 年完善总结。SIFT 算法的实质是在不同的尺度空间上查找关键点( 特征点)，并计算出关键点的方向。SIFT 所查找到的关键点是一些十分突出，不会因光照，仿射变换和噪音等因素而变化的点，如角点、边缘点、暗区的亮点及亮区的暗点等。SIFT 算法在构建好的尺度空间的基础上搜索尺度空间中的极值点( 特征点)，然后确定极值点的尺度信息以及位置，再确定极值点的方向( 其邻域梯度的主方向)，最终可以得到具有鲁棒性的128 维(4*4*8) 的特征向量。SIFT具体原理和实现参见我另一篇博客，这里我就不再重复赘述啦。传送门https://blog.csdn.net/qq_40369926/article/details/88597406

利用SIFT算法提取出训练图片的示意图如下：

举个例子，假如现在有3 张训练图片：人脸、自行车、小提琴，如下图所示：

对每一张训练图片都提取SIFT 的128 维特征，那么最终可以得到 M = N1+N2+N3 个128 维的特征，Ni 代表第i 张图特征点的个数，如下图所示：

2.学习“视觉词典”（K-means算法）

前面已经说过了，面对大场景数据集，只凭特征匹配，由于计算时间过长，是不可能实现图像检索的。所以我们想到了将相似的特征向量聚到一起，用一个视觉单词来表示这些特征，就像文本中用“walk”来表示“walk, walking,walks” 一样。我们采用的算法是K-means算法。

k-means算法是一种基于样本间相似性度量的间接聚类方法，属于非监督学习方法。

输入：聚类个数k，图像的特征集合。

输出：满足方差最小标准的k个聚类。

最小化每个特征与其相对应的聚类中心之间的欧式距离。

算法流程是：

① 随机初始化 K 个聚类中心

②重复下述步骤直至算法收敛

对应每个特征，根据距离关系赋值给某个中心/类别（计算每个特征点到聚类中心的距离，将特征点分给离其最近的聚类中心，视为属于类，这里采用的距离是欧式距离。）

对每个类别，根据其对应的特征集重新计算聚类中心

k-means算法的流程示意图如下：

k-means算法是实现视觉词典（码本）的关键，我们将K-means 算法获取的聚类中心作为视觉单词（码本向量）。当训练集准备足够充分是，训练出的码本将具有普适性。

需要注意的是如何选择视觉词典/码本的规模，太少会出现视觉单词无法覆盖所有可能出现的情况；太多又会计算量大，容易过拟合。

就之前的例子而言就是将下述这特征向量进行聚类，将之前的特征向量转化为4个视觉单词，以此来作为视觉词典。

3.针对输入的特征集，根据视觉词典进行量化

对于文本而言，当一个单词在所有文本都出现那么这个单词就不能区分文本。同理，如果一个视觉单词在每个图像中都出现，那么这个视觉单词就不能区分图像了。类比文本，我们这里也采用TF-IDF权重来表示视觉单词对区分图像的重要程度。

4.把输入图像转化成视觉单词（visual words）的频率直方图

统计词表中每个单词在图像中出现的次数，将图像表示为K 维数值向量。上例中，可以将图像表示成为一个K=4 维数值向量：

人脸：[3,30,3,20]

自行车：[20,3,3,2]

小提琴：[8,12,32,7]
每幅图的视觉单词与词频直方图如图下图所示：

5.构造特征到图像的倒排表，通过倒排表快速索引相关图像

前几步是通过图像来提取视觉单词，用视觉单词的词频直方图来表示图像，是通过图像映射视觉单词。而倒排表是通过视觉单词映射图像。

比如，对于下述两个文本而言：

1：Bob likes to play basketball, Jim likes too.

2：Bob also likes to play football games.

之前是：

1：[ “Jim”, “too”]

2：[“also”, “football”, “games”,]

经过倒排后是：

“Jim”：[1]

“too”：[1]

“also”：[2]

“football”：[2]

“games”：[2]

对于图像来说，经过倒排后，就是视觉单词：[视觉单词所出现的图像集合]。倒排表可以快速使用反转文件来计算新图像与数据库中所有图像之间的相似性，仅考虑其分档与查询图像重叠的数据库图像，大大减少了匹配次数，优化了算法。

常规查询是利用欧氏距离对结果排序，但是实际上这样容易出现偶然现象，所以我们用RANSAC模型进行优化，该模型的具体介绍可以参考我另一篇博客，传说门：https://blog.csdn.net/qq_40369926/article/details/88918489

6.根据索引结果进行直方图匹配

根据索引结果建立直方图，就可以得出最后的匹配结果了。

三、实现

1.特征提取和学习“视觉词典”

# -*- coding: utf-8 -*-
import pickle
from PCV.imagesearch import vocabulary
from PCV.tools.imtools import get_imlist
from PCV.localdescriptors import sift
###创建词汇

#获取图像列表
imlist = get_imlist('D:/test/first1000/')
nbr_images = len(imlist)
#获取特征列表
featlist = [imlist[i][:-3]+'sift' for i in range(nbr_images)]

#提取文件夹下图像的sift特征
for i in range(nbr_images):
    sift.process_image(imlist[i], featlist[i])

#生成词汇
voc = vocabulary.Vocabulary('ukbenchtest')#创建词汇类
voc.train(featlist, 1000, 10)#单词数为1000，进行k-means训练

#保存词汇
with open('D:/test/first1000/vocabulary.pkl', 'wb') as f:
    pickle.dump(voc, f)
print ('vocabulary is:', voc.name, voc.nbr_words)

上述代码是先对图像集进行SIFT特征提取，然后再用K_means算法生成视觉单词，这里设置的K=1000，也就是说会生成1000个视觉单词。

2.创建索引，建立数据库

# -*- coding: utf-8 -*-
import pickle
from PCV.imagesearch import imagesearch
from PCV.localdescriptors import sift
from sqlite3 import dbapi2 as sqlite
from PCV.tools.imtools import get_imlist

###图像索引

#获取图像列表
imlist = get_imlist('D:/test/first1000/')
nbr_images = len(imlist)
#获取特征列表
featlist = [imlist[i][:-3]+'sift' for i in range(nbr_images)]

#载入词汇
with open('D:/test/first1000/vocabulary.pkl', 'rb') as f:
    voc = pickle.load(f)
#创建索引
indx = imagesearch.Indexer('testImaAdd.db',voc)#创建索引器Indexer类
indx.create_tables()

#遍历所有的图像，并将它们的特征投影到词汇上
for i in range(nbr_images)[:1000]:
    locs,descr = sift.read_features_from_file(featlist[i])
    indx.add_to_index(imlist[i],descr)

#提交到数据库
indx.db_commit()

con = sqlite.connect('testImaAdd.db')
print (con.execute('select count (filename) from imlist').fetchone())
print (con.execute('select * from imlist').fetchone())

3.查询图像

# -*- coding: utf-8 -*-
import pickle
from PCV.localdescriptors import sift
from PCV.imagesearch import imagesearch
from PCV.geometry import homography
from PCV.tools.imtools import get_imlist

#载入图像列表
imlist = get_imlist('D:/test/first1000/')
nbr_images = len(imlist)
#载入特征列表
featlist = [imlist[i][:-3]+'sift' for i in range(nbr_images)]

#载入词汇
with open('D:/test/first1000/vocabulary.pkl', 'rb') as f:
    voc = pickle.load(f)

src = imagesearch.Searcher('testImaAdd.db',voc)

#查询图像索引和查询返回的图像数
q_ind = 0
nbr_results = 20

# 常规查询(按欧式距离对结果排序)
res_reg = [w[1] for w in src.query(imlist[q_ind])[:nbr_results]]
print ('top matches (regular):', res_reg)


#载入查询图像特征
q_locs,q_descr = sift.read_features_from_file(featlist[q_ind])
fp = homography.make_homog(q_locs[:,:2].T)

#用单应性进行拟合建立RANSAC模型
model = homography.RansacModel()
rank = {}

#载入候选图像的特征
for ndx in res_reg[1:]:
    locs,descr = sift.read_features_from_file(featlist[ndx])  # because 'ndx' is a rowid of the DB that starts at 1
    #获取匹配数
    matches = sift.match(q_descr,descr)
    ind = matches.nonzero()[0]
    ind2 = matches[ind]
    tp = homography.make_homog(locs[:,:2].T)
    # 计算单应性，对内点计数，若果没有足够的匹配数则返回空列表
    try:
        H,inliers = homography.H_from_ransac(fp[:,ind],tp[:,ind2],model,match_theshold=4)
    except:
        inliers = []
    # 存储内点数
    rank[ndx] = len(inliers)

#将字典排序，以有限获取最内层的内点数
sorted_rank = sorted(rank.items(), key=lambda t: t[1], reverse=True)
res_geom = [res_reg[0]]+[s[0] for s in sorted_rank]
print ('top matches (homography):', res_geom)

# 显示查询结果
imagesearch.plot_results(src,res_reg[:8]) #常规查询
imagesearch.plot_results(src,res_geom[:8]) #重排后的结果

这里我们用常规查询和优化查询进行对比。

4.web应用

除了在python里显示查询结果，我们还可以利用CherryPy将图像传递到URL中，在网页中查询图像并显示结果。

# -*- coding: utf-8 -*-
import cherrypy
import pickle
import urllib
import os
from numpy import *
#from PCV.tools.imtools import get_imlist
from PCV.imagesearch import imagesearch
import random

"""
This is the image search demo in Section 7.6.
"""


class SearchDemo:

    def __init__(self):
        # 载入图像列表
        self.path = 'D:/test/first1000/'
        #self.path = 'D:/python_web/isoutu/first500/'
        self.imlist = [os.path.join(self.path,f) for f in os.listdir(self.path) if f.endswith('.jpg')]
        #self.imlist = get_imlist('./first500/')
        #self.imlist = get_imlist('E:/python/isoutu/first500/')
        self.nbr_images = len(self.imlist)
        print (self.imlist)
        print (self.nbr_images)
        self.ndx = list(range(self.nbr_images))
        print (self.ndx)

        # 载入词汇
        # f = open('first1000/vocabulary.pkl', 'rb')
        with open('D:/test/first1000/vocabulary.pkl','rb') as f:
            self.voc = pickle.load(f)
        #f.close()

        # 显示搜索返回的图像数
        self.maxres = 10

        # header and footer html
        self.header = """
            
            
            Image search
            
            
            """
        self.footer = """
            
            
            """

    def index(self, query=None):
        self.src = imagesearch.Searcher('testImaAdd.db', self.voc)

        html = self.header
        html += """
            

            Click an image to search.  Random selection  of images.
            


            """
        if query:
            # query the database and get top images
            #查询数据库，并获取前面的图像
            res = self.src.query(query)[:self.maxres]
            for dist, ndx in res:
                imname = self.src.get_filename(ndx)
                html += ""
                
                html += ""
                print (imname+"################")
                html += ""
            # show random selection if no query
            # 如果没有查询图像则随机显示一些图像
        else:
            random.shuffle(self.ndx)
            for i in self.ndx[:self.maxres]:
                imname = self.imlist[i]
                html += ""
                
                html += ""
                print (imname+"################")
                html += ""

        html += self.footer
        return html

    index.exposed = True

#conf_path = os.path.dirname(os.path.abspath(__file__))
#conf_path = os.path.join(conf_path, "service.conf")
#cherrypy.config.update(conf_path)
#cherrypy.quickstart(SearchDemo())

cherrypy.quickstart(SearchDemo(), '/', config=os.path.join(os.path.dirname(__file__), 'service.conf'))

通过这个代码，就可以在网页中显示图像，但是需要注意的是，我们需要鞋业个配置文件，用于开启CherryPy Web服务器。配置文件内容如下：

[global]
server.socket_host = "127.0.0.1"
server.socket_port = 8080
server.thread_pool = 50
tools.sessions.on = True
[/]
tools.staticdir.root = "D:/test/first1000"
tools.staticdir.on = True
tools.staticdir.dir = ""

四、结果分析

实验采用的是100张500x500的jpg图像，一共有20类，包括人像、动物、植物、风景、物品等，背景也有简单和复杂的。

实验结果如下：

从实验结果可以看出，第一组、第五组和第六组的检索结果最为理想，前五张图像均是输入图像的相似图像，而第二组、第三组的检索结果前三张是相似图像，其他相似图像则排在五张以后，什么前十张之外。而第六组结果最不理想，只有第一张属于相似图像，剩下的全是与之不相似的图像。分析其原因是第一组图像的毛毛虫构图相对简单，提取出来的视觉单词数量少。在倒排表中，该视觉单词所包含的图像集合的元素少，区分度大。而第六组图像的阿拉蕾构图复杂，提取出来的视觉单词较多。在倒排表中，视觉单词包含的图像集合元素多，而且视觉单词数量多，因而在最后形成的直方图中，与其完全不相关的图像会因为视觉单词重合度大，而被排在前面，造成了输入阿拉蕾，检测出埃菲尔铁塔的结果。实验出现这样效果的根本原因是数据库图像数目不够多，因而类间差距不够大，类内联系不够紧密，如果扩大图像库规模，会效果更好。

参考：[1]汪弋琛.基于BOW模型的相似图像分类检索方法[J].电子技术与软件工程,2017(21):64-65.

OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
【AAAI2025】计算机视觉|P-sLSTM:P-sLSTM：让LSTM在时间序列预测领域“重获新生”
论文地址：https://arxiv.org/pdf/2408.10006代码地址：https://github.com/Eleanorkong/P-sLSTM关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要传统的循环神经网络结构，如长短期记忆神经网络(LSTM)，在时间序列预测(TSF)任
【TPAMI2024】计算机视觉|即插即用|FreqFusion:炸裂！告别模糊，精准分割，视觉新高度！爆改模型计算机视觉人工智能
论文地址：https://arxiv.org/pdf/2408.12879代码地址：https://github.com/Linwei-Chen/FreqFusion关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要密集图像预测任务需要在高分辨率下具有强大的类别信息和精确空间边界细节的特征。为
opencv 4.12.0版本发布详解：核心优化与新特性全解析 Risehuxyc #opencv opencv 人工智能计算机视觉
OpenCV4.12.0夏季更新带来核心模块优化、图像处理增强、深度学习支持扩展及新兴硬件适配，全面提升计算机视觉开发效率与性能。引言OpenCV（开源计算机视觉库）作为计算机视觉领域最受欢迎的开源库之一，在2025年7月发布了4.12.0版本。这个夏季更新带来了大量性能优化、新功能和错误修复，覆盖了核心模块、图像处理、3D校准、深度学习等多个领域。本文将详细介绍OpenCV4.12.0的主要更新
使用 C++ 和 OpenCV 进行表面划痕检测 whoarethenext c++opencv 开发语言划痕检测
使用C++和OpenCV进行表面划痕检测在工业自动化生产中，产品表面的质量控制至关重要。划痕作为一种常见的表面缺陷，其检测是许多领域（如金属、玻璃、塑料制造）质量保证流程中的一个关键环节。本文将介绍如何使用C++和强大的计算机视觉库OpenCV来实现一个基本的表面划痕检测算法。核心思路划痕通常在图像中表现为具有以下一个或多个特征的区域：高对比度的线性结构：划痕区域的像素强度通常会与其周围背景有明显
MATLAB 基于图像处理的杂草识别技术鱼弦 matlab 图像处理计算机视觉
MATLAB基于图像处理的杂草识别技术1.系统介绍杂草识别是精准农业中的重要环节，基于图像处理的杂草识别技术利用计算机视觉和机器学习算法，自动识别田间杂草，为精准施药提供决策支持。本系统基于MATLAB实现杂草图像处理，包括图像预处理、特征提取、分类识别等模块。2.应用场景精准农业:自动识别田间杂草，实现精准施药，减少农药使用量。生态监测:监测农田杂草种类和分布，评估生态环境。植物保护:识别有害杂
Python Gradio：快速搭建人脸识别应用 Python编程之道 Python人工智能与大数据 Python编程之道 python 开发语言 ai
PythonGradio：快速搭建人脸识别应用关键词：Python,Gradio,人脸识别,深度学习,计算机视觉,交互式应用,模型部署摘要：本文详细介绍了如何使用Python的Gradio库快速搭建一个交互式的人脸识别应用。我们将从基础概念出发，逐步讲解人脸识别的核心算法原理、Gradio的界面设计方法，并通过完整的项目实战演示如何将深度学习模型部署为可交互的Web应用。文章包含详细的代码实现、数
【图像处理基石】如何入门大规模三维重建？小米玄戒Andrew 图像处理基石深度学习人工智能三维重建大规模三维重建立体视觉大模型 LLM
入门大规模三维重建需要从基础理论、核心技术到实践工具逐步深入，同时需关注该领域的经典工作和前沿进展。以下是分阶段的入门路径及值得重点学习的工作：一、基础理论与前置知识大规模三维重建的核心是从海量图像或传感器数据中恢复场景的三维结构，涉及计算机视觉、摄影测量、图形学、最优化等多个领域，需先掌握以下基础：数学基础线性代数：矩阵运算、特征值分解（用于相机姿态估计）、奇异值分解（SVD，用于基础矩阵求解）
OpenCV 入门指南 —— 从环境搭建到图像处理 m0_74751715 opencv 图像处理人工智能 python
文章目录前言一、什么是OpenCV？二、环境准备与安装1.Python虚拟环境2.安装OpenCV3.验证安装三、读取与显示图像四、常见图像处理操作1.色彩空间转换2.图像平滑（模糊）3.边缘检测（Canny算法）4.在图像上绘制图形与文字五、视频与摄像头操作六、推荐学习路线七、参考资料前言在计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）凭借其开源、
仓库货物检测：基于YOLOv5的深度学习应用与UI界面开发 YOLO实战营 YOLO 深度学习 ui 目标跟踪目标检测人工智能
一、引言随着电商和物流行业的快速发展，仓库货物管理已经成为企业运营中至关重要的环节。为了提高仓库管理的效率和准确性，越来越多的企业开始应用自动化技术来完成货物的盘点、分类、分拣等任务。传统的货物管理方式通常依赖人工检查，不仅效率低下，而且容易出现误差。为了克服这些问题，利用计算机视觉和深度学习技术来实现仓库货物的自动化检测成为了一种有效的解决方案。本博客将介绍如何使用YOLOv5进行仓库货物检测，
探索OpenCV 3.2源码：计算机视觉的架构与实现轩辕姐姐
本文还有配套的精品资源，点击获取简介：OpenCV是一个全面的计算机视觉库，提供广泛的功能如图像处理、对象检测和深度学习支持。OpenCV3.2版本包含了改进的深度学习和GPU加速特性，以及丰富的示例程序。本压缩包文件提供了完整的OpenCV3.2源代码，对于深入学习计算机视觉算法和库实现机制十分宝贵。源码的模块化设计、C++接口、算法实现、多平台支持和性能优化等方面的深入理解，都将有助于开发者的
【Python】人脸识别宅男很神经 python 开发语言
第一章：计算机视觉与图像处理的基石在深入人脸识别之前，我们必须首先牢固掌握计算机视觉和图像处理的基本概念。人脸，本质上就是一张复杂的图像，对图像的理解是所有高级视觉任务的起点。1.1图像的本质：像素与数字化表示图像，在我们看来是连续的画面，但在计算机内部，它却是离散的数值矩阵。1.1.1什么是像素？图像的最小单元像素（Pixel），是构成数字图像的最小单位。可以将其想象成一个微小的彩色点。一张数字
计算机视觉算法实战——关键点检测
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言关键点检测（KeypointDetection）是计算机视觉领域中的一个重要研究方向，旨在从图像或视频中检测出具有特定语义信息的关键点。这些关键点通常代表了物体的特定部位或特征，例如人体的关节、面部特征点、车辆的轮子等。关键点检测在姿态估计、动作识别、目标跟踪、三维重建等任务中
复杂场景检测老翻车？陌讯算法实测提升 40% 2501_92453489 算法视觉计算机视觉视觉检测
在工业质检、安防监控等计算机视觉落地场景中，工程师常面临棘手问题：传统算法在光照突变、目标遮挡等复杂环境下，漏检率高达20%以上，泛化能力不足成为项目落地的最大阻碍。而陌讯AI视觉算法通过架构创新，正在重新定义复杂场景下的检测精度标准。技术解析：从单模态到多模态的跨越传统目标检测模型多依赖单一RGB图像输入，在特征提取阶段容易受环境干扰。以经典的FasterR-CNN为例，其区域提议网络（RPN）
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
【人工智能面经第五期：模型训练与优化核心面试深度问答】码上有前 Pytorch Python 深度学习人工智能面试职场和发展
作者：“码上有前”文章简介：人工智能面经欢迎小伙伴们点赞、收藏⭐、留言模型训练与优化核心面试深度问答摘要围绕模型训练与优化的训练技巧（正则化、迁移学习）和数据工程（数据增强、标注质量）展开，通过20个关键问题，解析正则化协同策略、迁移学习适配场景、数据增强实践等核心要点，助力读者掌握人工智能与计算机视觉岗位面试中模型训练优化的知识体系，明晰技术原理与实际应用的关联。目录训练技巧-正则化策略相关问题
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文