c2a2o2

学习换脸：Switching Eds: Face swapping with Python, dlib, and OpenCV

学习GitHub上比较火换脸博客，原英文版：https://matthewearl.github.io/2015/07/28/switching-eds-with-python/

系统win10，x64

安装python 2.7
opencv3.0下载，安装，配置环境变量（所需python版本为2.7）
下载numpy，版本numpy-1.10.2-win32-superpack-python2.7，必须与python版本一致，不然即使找到了cv模块也不能够运行。
opencv文件夹中，build->python->2.7 复制2.7下面的所有文件到C:\Python27\Lib\site-packages 中

测试是否配置成功：

import cv2
image = cv2.imread("0.png")
cv2.imshow("Image",image)
cv2.waitKey(0)

开始学习换脸：

下载boost，编译boost：解压，执行bootstrap.bat（使用vs2015编译），会在boost根目录生成 b2.exe 、bjam.exe 、project-config.jam 、bootstrap.log四个文件，其中，b2.exe 、bjam.exe 这两个exe作用是一样的，bjam.exe 是老版本，b2是bjam的升级版本。运行bjam.exe，编译c++版本的boost库，配置环境变量BOOST_ROOT=C:\boost_1_60_0；BOOST_LIBRARYDIR=C:\boost_1_60_0\stage\lib。再编译python动态链接库，b2.exe --with-python --build-type=complete。
下载dlib从http://dlib.net/，Dlib is a modern C++ toolkit containing machine learning algorithms and tools for creating complex software in C++ to solve real world problems.编译python API，命令python setup.py install

使用dlib抽取脸部标志点：Dlib实现了paper ”one millisecond face alignment with an ensemble of regression trees" by Vahid Kazemi and Josephine Sullivan. 虽然算法本身很复杂，但是它的python接口的使用很简单：

 1 import cv2
 2 import dlib
 3 import numpy
 4 import sys
 5 
 6 PREDICTOR_PATH = "shape_predictor_68_face_landmarks.dat"
 7 SCALE_FACTOR = 1
 8 FEATURE_AMOUNT = 11
 9 
10 FACE_POINTS = list(range(17, 68))
11 MOUTH_POINTS = list(range(48, 68))
12 RIGHT_BROW_POINTS = list(range(17, 22))
13 LEFT_BROW_POINTS = list(range(22, 27))
14 RIGHT_EYE_POINTS = list(range(36, 42))
15 LEFT_EYE_POINTS = list(range(42, 48))
16 NOSE_POINTS = list(range(27, 35))
17 JAW_POINTS = list(range(0, 17))
18 
19 # Points used to line up the images
20 ALIGN_POINTS = (LEFT_BROW_POINTS + RIGHT_EYE_POINTS + LEFT_EYE_POINTS +
21                 RIGHT_BROW_POINTS + NOSE_POINTS + MOUTH_POINTS)
22 
23 # Points from the second image to overlay on the first. The convex hull of
24 # each element will be overlaid
25 OVERLAY_POINTS = [
26     LEFT_EYE_POINTS + RIGHT_EYE_POINTS + LEFT_BROW_POINTS
27                   + RIGHT_BROW_POINTS,
28     NOSE_POINTS + MOUSE_POINTS,
29     ]
30 
31 # Amount of blur to use during color correction, as a fraction of the
32 # pupillary distance
33 COLOUR_CORRECT_BLUR_FRAC = 0.6
34 
35 detector = dlib.get_frontal_face_detector()
36 predictor = dlib.shape_predictor(PREDICTOR_PATH)
37 
38 class TooManyFaces(Exception):
39     pass
40 
41 class NoFaces(Exception):
42     pass
43 
44 ## input: an image in the form of a numpy array
45 ## return: a 68 * 2 element matrix, each row corresponding with
46 ## the x, y coordintes of a pariticular feature point in the input image
47 def get_landmarks(im):
48     rects = detector(im, 1)
49 
50     if len(rects) > 1:
51         raise TooManyFaces
52     if len(rects) == 0:
53         raise NoFaces
54 
55     # the feature extractor (predictor) requires a rough bounding box as input
56     # to the algorithm. This is provided by a traditional face detector (
57     # detector) which returns a list of rectangles, each of which corresponding
58     # a face in the image
59     return numpy.matrix([[p.x p.y] for p in predictor(im, rects[0]).parts()])

为了使用predictor，需要利用一个提前训练好的model：shape_predictor_68_face_landmarks.dat，从http://sourceforge.net/projects/dclib/files/dlib/v18.10/shape_predictor_68_face_landmarks.dat.bz2下载

4. 用Procrustes Analysis进行脸部对准：目前我们已经有两个人脸的landmark矩阵，矩阵的每一行代表一个脸部特征的坐标。现在我们要做的是找出如何通过旋转、平移、和尺度操作使得第一张脸的特征点与第二张脸的尽可能的匹配。找到这个合适的匹配变换之后，我们就可以将第二张脸用同样的变换覆盖第一张脸。

从数学上考虑，我们寻找平移参数T，尺度参数s，和旋转变换矩阵R使得如下目标函数

最小化，其中R是2*2的正交矩阵，s是标量，T是2*1的向量，pi和qi是landmark矩阵的行（对应的脸部特征坐标）。

这个问题可以被Ordinary Procrustes Analysis求解。

def transformation_from_points(points1, points2):
    """
    Return an affine transformation [s * R | T] such that:
    
        sum || s*R*p1,i + T - p2,i||^2
        
    is minimized.
    """

    # Solve the procrustes problem by substracting centroids, scaling by the
    # standard deviation, and then using the SVD to calculate the rotation. See
    # the following for more details:
    # https://en.wikipedia.org/wiki/Orthogonal_Procrustes_problem

    points1 = points1.astype(numpy.float64)
    points2 = points2.astype(numpy.float64)

    c1 = numpy.mean(points1, axis=0)
    c2 = numpy.mean(points2, axis=0)
    points1 -= c1
    points2 -= c2

    s1 = numpy.std(points1)
    s2 = numpy.std(points2)
    points1 /= s1
    points2 /= s2

    U, S, Vt = numpy.linalg.svd(points1.T * points2)

    # The R we seek is in fact the transpose of the one given by U * Vt. This
    # is because the above formulation assumes the matrix goes on the right
    # (with row vectors) where as our solution requires the matrix to be on the
    # left (with column vectors).
    R = (U * Vt).T

    return numpy.vstack([numpy.hstack(((s2 / s1) * R,
                                       c2.T - (s2 / s1) * R * c1.T)),
                         numpy.matrix([0., 0., 1.])])

求解步骤：

1) 将输入矩阵转化为浮点型，这一操作被后面步骤需要；

2) 每个点集减去中心点（去中心操作）；

3) 每个点集除以标准差，解决尺度问题；

4) 使用SVD (Singular Value Decomposition) 计算旋转矩阵，解Orthogonal Procrustes Problem;

5) 返回完整的仿射变换矩阵，维度3* 3.

获得的仿射变换可以应用到第二幅图像，与第一张图像匹配：

1 def warp_im(im, M, dshape):
2     output_im = numpy.zeros(dshape, dtype=im.dtype)
3     cv2.warpAffine(im,
4                    M[:2],
5                    (dshape[1], dshape[0]),
6                    dst=output_im,
7                    borderMode=cv2.BORDER_TRANSPARENT,
8                    flags=cv2.WARP_INVERSE_MAP)
9     return output_im

5. 计算mask，并进行色彩校正：利用眼部和眉毛区域特征点计算二维凸包，鼻子和嘴部特征点再计算二维凸包，获得一个五官的mask，代码和结果如下：

 1 def draw_convex_hull(im, points, color):
 2     points = cv2.convexHull(points)
 3     cv2.fillConvexPoly(im, points, color=color)
 4 
 5 def get_face_mask(im, landmarks):
 6     im = numpy.zeros(im.shape[:2], dtype=numpy.float64)
 7 
 8     for group in OVERLAY_POINTS:
 9         draw_convex_hull(im,
10                          landmarks[group],
11                          color=1)
12 
13     im = numpy.array([im, im, im]).transpose((1, 2, 0))
14 
15     im = (cv2.GaussianBlur(im, (FEATURE_AMOUNT, FEATURE_AMOUNT), 0) > 0) * 1.0
16     im = cv2.GaussianBlur(im, (FEATURE_AMOUNT, FEATURE_AMOUNT), 0)
17 
18     return im

如果我们直接将脸部mask区域覆盖，我们会发现脸部颜色不一致的问题：

进行色彩矫正，改变第二张脸的颜色使其可以与第一张脸匹配。做法是将第二张脸的颜色除以第二张脸的高斯模糊值，再乘以第一张脸的高斯模糊值，点操作。参考https://en.wikipedia.org/wiki/Color_balance#Scaling_monitor_R.2C_G.2C_and_B，并没有将整幅图像乘以常数因子，而是将每个像素乘以它自己的尺度因子。

通过这个操作，可以一定程度上弥补两幅图像之间的亮度不同问题。代码如下：

def correct_colors(im1, im2, landmarks1):
    blur_amount = COLOUR_CORRECT_BLUR_FRAC * numpy.linalg.norm(
        numpy.mean(landmarks1[LEFT_EYE_POINTS], axis=0) -
        numpy.mean(landmarks2[RIGHT_EYE_POINTS], axis=0))
    blur_amount = int(blur_amount)
    if blur_amount % 2 == 0:
        blur_amount += 1

    print blur_amount

    im1_blur = cv2.GaussianBlur(im1, (blur_amount, blur_amount), 0)
    im2_blur = cv2.GaussianBlur(im2, (blur_amount, blur_amount), 0)

    cv2.imshow("Image", im1_blur) # warp_im(im2, M, im1.shape)
    cv2.waitKey(0)
    cv2.imshow("Image", im2_blur) # warp_im(im2, M, im1.shape)
    cv2.waitKey(0)

    # Avoid divide-by-zero errors:
    im2_blur += (128 * (im2_blur <= 1.0)).astype(im2_blur.dtype)

    cv2.imshow("Image", im2_blur) # warp_im(im2, M, im1.shape)
    cv2.waitKey(0)
    cv2.destroyWindow("Image")
    return (im2.astype(numpy.float64) * im1_blur.astype(numpy.float64) /
            im2_blur.astype(numpy.float64))

这种做法可以在粗略地解决色彩不一致问题，效果与高斯kernel的大小密切相关：kernel太小，第一张脸中本应该被覆盖的脸部特征会出现在最后的融合图中；kernel太大，第二张脸外部的像素会被引入融合图像，产生污点。下图的kernel size等于0.05*瞳间距。

6. 融合：将经过色彩矫正的第二张脸的mask区域与第一张脸融合：

output_im = im1 * (1.0 - combined_mask) + warped_corrected_im2 * combined_mask

至此换脸全部完成，全部代码如下：

import cv2
import dlib
import numpy
import sys

PREDICTOR_PATH = "shape_predictor_68_face_landmarks.dat"
SCALE_FACTOR = 1
FEATURE_AMOUNT = 11

FACE_POINTS = list(range(17, 68))
MOUTH_POINTS = list(range(48, 61))
RIGHT_BROW_POINTS = list(range(17, 22))
LEFT_BROW_POINTS = list(range(22, 27))
RIGHT_EYE_POINTS = list(range(36, 42))
LEFT_EYE_POINTS = list(range(42, 48))
NOSE_POINTS = list(range(27, 35))
JAW_POINTS = list(range(0, 17))

# Points used to line up the images
ALIGN_POINTS = (LEFT_BROW_POINTS + RIGHT_EYE_POINTS + LEFT_EYE_POINTS +
                RIGHT_BROW_POINTS + NOSE_POINTS + MOUTH_POINTS)

# Points from the second image to overlay on the first. The convex hull of
# each element will be overlaid
OVERLAY_POINTS = [
    LEFT_EYE_POINTS + RIGHT_EYE_POINTS + LEFT_BROW_POINTS
                  + RIGHT_BROW_POINTS,
    NOSE_POINTS + MOUTH_POINTS,
    ]

# Amount of blur to use during color correction, as a fraction of the
# pupillary distance
COLOUR_CORRECT_BLUR_FRAC = 0.05

detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor(PREDICTOR_PATH)

class TooManyFaces(Exception):
    pass

class NoFaces(Exception):
    pass

## input: an image in the form of a numpy array
## return: a 68 * 2 element matrix, each row corresponding with
## the x, y coordintes of a pariticular feature point in the input image
def get_landmarks(im):
    rects = detector(im, 1)

    if len(rects) > 1:
        raise TooManyFaces
    if len(rects) == 0:
        raise NoFaces

    # the feature extractor (predictor) requires a rough bounding box as input
    # to the algorithm. This is provided by a traditional face detector (
    # detector) which returns a list of rectangles, each of which corresponding
    # a face in the image
    return numpy.matrix([[p.x, p.y] for p in predictor(im, rects[0]).parts()])

def annote_landmarks(im, landmarks):
    im = im.copy()
    for idx, point in enumerate(landmarks):
        pos = (point[0, 0], point[0, 1])
        cv2.putText(im, str(idx), pos,
                    fontFace=cv2.FONT_HERSHEY_SCRIPT_SIMPLEX,
                    fontScale=0.4,
                    color=(0, 0, 255))
        cv2.circle(im, pos, 3, color=(0, 255, 255))
    return im

def read_im_and_landmarks(fname):
    im = cv2.imread(fname, cv2.IMREAD_COLOR)
    im = cv2.resize(im, (im.shape[1] * SCALE_FACTOR,
                         im.shape[0] * SCALE_FACTOR))
    s = get_landmarks(im)

    return im, s

def transformation_from_points(points1, points2):
    """
    Return an affine transformation [s * R | T] such that:
    
        sum || s*R*p1,i + T - p2,i||^2
        
    is minimized.
    """

    # Solve the procrustes problem by substracting centroids, scaling by the
    # standard deviation, and then using the SVD to calculate the rotation. See
    # the following for more details:
    # https://en.wikipedia.org/wiki/Orthogonal_Procrustes_problem

    points1 = points1.astype(numpy.float64)
    points2 = points2.astype(numpy.float64)

    c1 = numpy.mean(points1, axis=0)
    c2 = numpy.mean(points2, axis=0)
    points1 -= c1
    points2 -= c2

    s1 = numpy.std(points1)
    s2 = numpy.std(points2)
    points1 /= s1
    points2 /= s2

    U, S, Vt = numpy.linalg.svd(points1.T * points2)

    # The R we seek is in fact the transpose of the one given by U * Vt. This
    # is because the above formulation assumes the matrix goes on the right
    # (with row vectors) where as our solution requires the matrix to be on the
    # left (with column vectors).
    R = (U * Vt).T

    return numpy.vstack([numpy.hstack(((s2 / s1) * R,
                                       c2.T - (s2 / s1) * R * c1.T)),
                         numpy.matrix([0., 0., 1.])])

def draw_convex_hull(im, points, color):
    points = cv2.convexHull(points)
    cv2.fillConvexPoly(im, points, color=color)

def get_face_mask(im, landmarks):
    im = numpy.zeros(im.shape[:2], dtype=numpy.float64)

    for group in OVERLAY_POINTS:
        draw_convex_hull(im,
                         landmarks[group],
                         color=1)

    im = numpy.array([im, im, im]).transpose((1, 2, 0))

    im = (cv2.GaussianBlur(im, (FEATURE_AMOUNT, FEATURE_AMOUNT), 0) > 0) * 1.0
    im = cv2.GaussianBlur(im, (FEATURE_AMOUNT, FEATURE_AMOUNT), 0)

    return im

def warp_im(im, M, dshape):
    output_im = numpy.zeros(dshape, dtype=im.dtype)
    cv2.warpAffine(im,
                   M[:2],
                   (dshape[1], dshape[0]),
                   dst=output_im,
                   borderMode=cv2.BORDER_TRANSPARENT,
                   flags=cv2.WARP_INVERSE_MAP)
    return output_im

def correct_colors(im1, im2, landmarks1):
    blur_amount = COLOUR_CORRECT_BLUR_FRAC * numpy.linalg.norm(
        numpy.mean(landmarks1[LEFT_EYE_POINTS], axis=0) -
        numpy.mean(landmarks2[RIGHT_EYE_POINTS], axis=0))
    blur_amount = int(blur_amount)
    if blur_amount % 2 == 0:
        blur_amount += 1

    print blur_amount

    im1_blur = cv2.GaussianBlur(im1, (blur_amount, blur_amount), 0)
    im2_blur = cv2.GaussianBlur(im2, (blur_amount, blur_amount), 0)

    # Avoid divide-by-zero errors:
    im2_blur += (128 * (im2_blur <= 1.0)).astype(im2_blur.dtype)

    return (im2.astype(numpy.float64) * im1_blur.astype(numpy.float64) /
            im2_blur.astype(numpy.float64))

im1, landmarks1 = read_im_and_landmarks("0.jpg")
im2, landmarks2 = read_im_and_landmarks("1.jpg")

# draw landmarks
##for i in landmarks2:
##    im2[i[0,1], i[0,0]] = [0,0,0]

##cv2.imshow("Image0", annote_landmarks(im1, landmarks1))
##cv2.waitKey(0)
##cv2.destroyWindow("Image0")
##cv2.imshow("Image1", annote_landmarks(im2, landmarks2))
##cv2.waitKey(0)

M = transformation_from_points(landmarks1[ALIGN_POINTS],
                               landmarks2[ALIGN_POINTS])

mask = get_face_mask(im2, landmarks2)
warped_mask = warp_im(mask, M, im1.shape)
combined_mask = numpy.max([get_face_mask(im1, landmarks1), warped_mask],
                          axis=0)

warped_im2 = warp_im(im2, M, im1.shape)
warped_corrected_im2 = correct_colors(im1, warped_im2, landmarks1)

output_im = im1 * (1.0 - combined_mask) + warped_corrected_im2 * combined_mask

cv2.imshow("Image1", output_im.astype(output_im.dtype)) # warp_im(im2, M, im1.shape)
cv2.waitKey(0)
cv2.destroyWindow("Image1")

cv2.imwrite("output.jpg", output_im)

千里之行，始于足下~

SPGAN: Siamese projection Generative Adversarial Networks 这张生成的图像能检测吗优质GAN模型训练自己的数据集人工智能生成对抗网络计算机视觉深度学习神经网络算法
简介简介：该论文针对传统GANs中鉴别器采用硬边际分类导致的误分类问题，提出了基于Siameseprojection网络的SPGAN方法。主要创新点包括：（1）设计Siameseprojection网络来测量特征相似性；（2）提出相似特征对抗学习框架，将相似性测量融入生成器和鉴别器的损失函数；（3）通过相似特征对抗学习，鉴别器能最大化真实图像和生成图像特征的差异性，生成器能合成包含更多真实图像特征
修改Spatial-MLLM项目，使其专注于无人机航拍视频的空间理解神经网络15044 python 神经网络算法无人机音视频机器学习人工智能算法架构
修改Spatial-MLLM项目，使其专注于无人机航拍视频的空间理解。以下是修改方案和关键代码实现：修改思路输入处理：将原项目的视频+文本输入改为单一无人机航拍视频/图像输入问题生成：自动生成空间理解相关的问题（无需用户输入文本）模型适配：调整视觉编码器处理航拍图像特征输出优化：聚焦空间关系、物体定位和场景结构的分析关键代码修改1.输入处理模块(video_processor.py)importc
ComfyUI IPAdapter 技术解析：图像特征融合与角色一致性控制实践迈火人工智能深度学习 ai AI作画图像处理 stable diffusion
声明：本教程仅限于图像生成技术与工作流的研究探讨。使用者必须严格遵守《中华人民共和国民法典》第一千零一十九条等关于肖像权的法律法规。禁止将技术用于伪造身份、侵害他人肖像权或从事任何非法活动。因技术滥用导致的一切法律后果和责任，由使用者自行承担。大家好，作为一名深度使用ComfyUI的用户，今天将深入解析IPAdapter插件的核心功能与应用。IPAdapter是ComfyUI中实现图像特征融合和角
基于MATLAB图像特征识别及提取实现图像分类 jghhh01 机器学习算法人工智能
基于MATLAB的图形处理程序，可以进行图像特征识别及提取，进而实现图像分类。hog_svm.m,2276svm_images/test_image/1.jpg,20980svm_images/test_image/2.jpg,18246svm_images/test_image/3.jpg,13835svm_images/test_image/4.jpg,18539svm_images/test
OpenCV边缘填充方式详解慕婉0307 opencv基础 opencv 计算机视觉人工智能
一、边缘填充概述在图像处理中，边缘填充（BorderPadding）是一项基础而重要的技术，特别是在进行卷积操作（如滤波、边缘检测等）时，处理图像边缘像素需要用到周围的像素值。由于图像边缘的像素没有完整的邻域，因此需要通过某种方式对图像边界进行扩展。边缘填充的主要应用场景包括：图像滤波（如高斯滤波、中值滤波等）卷积神经网络（CNN）中的卷积层形态学操作（如膨胀、腐蚀）图像特征提取二、OpenCV中
感知框2D反投是咋回事？ SLAM必须dunk 自动驾驶人工智能深度学习机器学习自动驾驶机器人
一、感知框：“2D框反投”是咋回事？（以自动驾驶识别车辆为例）1.核心逻辑：从图像特征“反推”目标框简单说，先用算法在2D图像里识别特征（比如车辆的轮廓、颜色、纹理），再把这些特征对应的区域，用“反投影”思路框成2D矩形。目的是在单张摄像头画面里，标记出“疑似目标”的位置。2.类比理解（找停车场里的红色轿车）假设你开发一个“自动驾驶视觉感知模块”，要识别停车场里的红色轿车第一步（特征提取）：算法学
深入研究YOLO算法改进中的注意力机制周立-ric
本文还有配套的精品资源，点击获取简介：YOLO算法因其高效和准确而在实时目标检测领域备受青睐。注意力机制的引入对YOLO算法的性能提升起到了关键作用，尤其是通过关注图像关键区域来提高检测精度。注意力机制可以细分为通道注意力、空间注意力、自注意力、多尺度注意力和位置感知注意力等类型，每种类型的注意力机制都旨在优化模型对图像特征的理解和处理。本文档提供了一个包含实现这些注意力机制的代码的压缩包，并介绍
怎么对词编码进行可视化：Embedding Projector ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python embedding
怎么对词编码进行可视化：EmbeddingProjectorhttps://projector.tensorflow.org/EmbeddingProjector是用于可视化高维向量嵌入（如词向量、图像特征向量等）的工具，能帮你理解向量间的关系，下面以词向量分析和**简单自定义数据（比如特征向量）**为例，教你怎么用：一、词向量分析场景（以图中Word2Vec数据为例）1.加载数据与基础查看图里已
基于Python+OpenCV实现SIFT 2301_79809972 python python plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景与意义SIFT（Scale-InvariantFeatureTransform，尺度不变特征变换）是一种在计算机视觉中广泛应用的局部图像特征描述子。由于其具有尺度不变性、旋转不变性和对光照变化、仿射变换和噪声的鲁棒性，SIFT在图像匹配、物体识别、三维重建等领域
头歌之动手学人工智能-图像卷积特征提取
第1关：图像卷积特征提取任务描述本关任务：编写一个能使用卷积滤波提取图像特征的小程序。相关知识为了完成本关任务，你需要掌握：1.基本概念，2.如何使用卷积滤波提取图像特征。编程要求根据提示，在右侧编辑器补充代码，完成两个函数，计算并输出函数所返回特征数组的和。测试说明平台会对你编写的代码进行测试：测试输入：一张RGB图；预期输出：提取出特征数组的和。#-*-coding:utf-8-*-#导入相关
基于KAN+Transformer的专业领域建模方法论乡土老农 transformer 深度学习人工智能
一、专业领域KAN方法创新路径领域函数分解策略•数学建模：针对专业领域特性设计专用基函数组合•医学影像：采用小波变换基函数分解图像特征```pythonclassWaveletKAN(nn.Module):def__init__(self):self.wavelet_basis=nn.Parameter(torch.randn(8,32,3))#8通道小波基defforward(self,x):r
SIFT 全面解析：原理、实现与应用 Hello.Reader 算法其他算法
1.引言1.1什么是SIFT？SIFT，全称为Scale-InvariantFeatureTransform（尺度不变特征变换），是一种用于图像特征检测和描述的经典算法。它通过提取图像中的局部关键点，并为每个关键点生成具有尺度和旋转不变性的描述子，使其能够在不同的图像中进行特征匹配。SIFT算法尤其适合处理视角变化、尺度变换、部分遮挡和光照变化的问题，因此被广泛应用于计算机视觉领域。1.2SIFT
Python爬虫与图像识别：搜索引擎的多模态搜索搜索引擎技术搜索引擎实战 python 爬虫搜索引擎 ai
Python爬虫与图像识别：搜索引擎的多模态搜索关键词：Python爬虫、图像识别、多模态搜索、搜索引擎、计算机视觉、深度学习、数据采集摘要：本文深入探讨了如何结合Python爬虫技术与图像识别算法构建多模态搜索引擎。我们将从基础概念出发，详细讲解爬虫系统设计、图像特征提取、多模态索引构建等核心技术，并通过实际案例展示如何实现一个能够同时处理文本和图像查询的搜索引擎系统。文章还将分析当前技术挑战和
【MATLAB源码】机器视觉与图像识别技术(4)---模式识别与视觉计数 §ꦿCFོ༉ 机器视觉与图像识别技术计算机视觉算法人工智能图像处理 matlab 深度学习
系列文章目录第一篇文章：【MATLAB源码】机器视觉与图像识别技术—视觉系统的构成(视频与图像格式转换代码及软件下载)第二篇文章：【MATLAB源码】机器视觉与图像识别技术(2)—图像分割基础第三篇文章：【MATLAB源码】机器视觉与图像识别技术(2)续—图像分割算法第四篇文章：【MATLAB源码】机器视觉与图像识别技术(3)—数字形态学处理以及图像特征点提取模式识别与视觉计数
计算机视觉与深度学习｜基于MATLAB的图像特征提取与匹配算法总结单北斗SLAMer 程序语言设计（C语言 C++Matlab Python等）图像处理 matlab 计算机视觉人工智能
基于MATLAB的图像特征提取与匹配算法全面指南图像特征提取与匹配基于MATLAB的图像特征提取与匹配算法全面指南一、图像特征提取基础特征类型分类二、点特征提取算法1.Harris角点检测2.SIFT(尺度不变特征变换)3.SURF(加速鲁棒特征)4.FAST角点检测5.ORB(OrientedFASTandRotatedBRIEF)三、区域特征提取算法1.MSER(最大稳定极值区域)2.Blob
Python构建人脸识别系统实战项目爱你不会累
本文还有配套的精品资源，点击获取简介：本项目详细阐述了如何使用Python语言和face_recognition库实现人脸识别系统。人脸识别技术基于比较人脸图像特征，用于身份验证和识别。该系统利用face_recognition库及其依赖的dlib和OpenCV进行人脸检测和识别，包括人脸检测、特征提取、数据库创建、人脸识别和系统优化等步骤。项目还可能包含示例代码、数据集、配置文件和文档，旨在向开
【视觉SLAM基础（二）：特征点提取与匹配】 Unpredictable222 SLAM算法算法自动驾驶 ubuntu c++笔记 opencv
前言在视觉SLAM中，特征点是连接连续图像帧的桥梁，是视觉里程计的核心。本文将详细介绍特征点的提取与匹配方法，以及如何利用这些特征点估计相机运动。原理部分只是简单介绍，详细的介绍大家可以去看高翔老师的《视觉SLAM十四讲》。1.特征点提取1.1特征点基本概念一个好的图像特征应该具有：可重复性：在不同图像中能被重复检测到可区分性：不同特征有显著区别高效性：计算复杂度低局部性：对遮挡、光照变化等鲁棒1
OpenCV 第7课图像处理之平滑(一) 嵌入式老牛树莓派之OpenCV opencv 图像处理计算机视觉
1.图像噪声在采集、处理和传输过程中，数字图像可能会受到不同噪声的干扰，从而导致图像质量降低、图像变得模糊、图像特征被淹没，而图像平滑处理就是通过除去噪声来达到图像增强的目的。常见的图像噪声有椒盐噪声、高斯噪声等。1.1椒盐噪声椒盐噪声（Salt-and-pepperNoise）也称为脉冲噪声，是一种随机出现的白点或黑点，具体表现为亮的区域有黑色像素，或是暗的区域有白色像素，又或是两者皆有。下面左
OpenCV CUDA模块图像特征检测与描述------图像中快速检测特征点类cv::cuda::FastFeatureDetector 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::cuda::FastFeatureDetector是OpenCV的CUDA加速模块中的一部分，用于在图像中快速检测特征点。FAST（FeaturesfromAcceleratedSegmentTest）算法是一种高效的角点检测算法，能够在保持较高精度的同时
【大模型面试每日一题】Day 23：如何设计一个支持多模态（文本+图像）的大模型架构？是麟渊 LLM Interview Daily 面试每日一题面试架构职场和发展人工智能自然语言处理
【大模型面试每日一题】Day23：如何设计一个支持多模态（文本+图像）的大模型架构？题目重现面试官：我们需要构建一个同时处理文本和图像的多模态大模型，用于图文检索、视觉问答等任务。请设计该模型的核心架构，说明关键模块及其交互方式，并分析可能面临的技术挑战及解决方案。输入文本modality图像modality文本编码器图像编码器文本特征图像特征多模态融合模块任务输出/解码器生成文本/图像/决策..
机器学习第二十三讲：CNN → 用放大镜局部观察图片特征层层传递 kovlistudio 机器学习人工智能技术机器学习 cnn 人工智能
机器学习第二十三讲：CNN→用放大镜局部观察图片特征层层传递资料取自《零基础学机器学习》。查看总目录：学习大纲关于DeepSeek本地部署指南可以看下我之前写的文章：DeepSeekR1本地与线上满血版部署：超详细手把手指南CNN详解：图像理解的多层放大镜[^9-2]卷积神经网络（CNN）就像给计算机装备了显微镜+望远镜的组合套装，通过逐层放大观察图像特征。以"识别橘猫图片"为例：识别边缘轮廓捕捉
机器学习第二十三讲：CNN → 用放大镜局部观察图片特征层层传递
机器学习第二十三讲：CNN→用放大镜局部观察图片特征层层传递资料取自《零基础学机器学习》。查看总目录：学习大纲关于DeepSeek本地部署指南可以看下我之前写的文章：DeepSeekR1本地与线上满血版部署：超详细手把手指南CNN详解：图像理解的多层放大镜1卷积神经网络（CNN）就像给计算机装备了显微镜+望远镜的组合套装，通过逐层放大观察图像特征。以"识别橘猫图片"为例：graphTDA[输入图片
H.264/AVC 变换量化编码核心技术拆解码流怪侠 h.264 AVC 视频编解码变换编码量化编码 DCT x264
变换编码视频压缩为什么需要变换：图像和视频信号在空间域中存在大量冗余。例如，平坦区域（如蓝天）或缓慢变化的区域（如草地）占据了大部分像素信息，这些区域在空间域中的像素值高度相关，绝大部分图像特征是平坦和变化缓慢区域占大部分，细节和内容突变占小部分，即图像中直流和低频占大部分，高频只占小部分，这样从空间域到频率域或变换域只会产生相关系数很小的变换系数。人眼对高频细节（如细微纹理或噪声）不敏感，但对低
Pytorch之保存和加载预训练的模型 BlackMan_阿伟 Pytorch python 深度学习机器学习人工智能
在深度学习中会用到迁移学习的方法，也就是我们把在其它数据集上训练比较好的model拿到我们的模型上来进行finetune,这样避免了我们重新去花费时间去训练模型，比如vgg16提取图像特征的这个模型，大大节省了我们训练的时间。这个过程我们就涉及到加载预训练的模型，有的时候我们需要加载整个模型，有时候我们需要模型的一个部分，因此在本文中将会对在Pytroch这个框架中如何加载预训练的模型做以阐述。说
快速读文章-Adversarial Training Towards Robust Multimedia Recommender System 无意识积累中推荐系统深度学习计算机视觉人工智能
摘要:随着网络上多媒体内容的普及，迫切需要开发能够有效利用多媒体数据中丰富信号的推荐解决方案。由于深度神经网络在表征学习中的成功，多媒体推荐的最新进展主要集中在探索深度学习方法以提高推荐精度上。然而，迄今为止，很少有人研究多媒体表示的健壮性及其对多媒体推荐性能的影响。本文对多媒体推荐系统的鲁棒性进行了研究。通过使用最先进的推荐框架和深度图像特征，我们证明了整个系统的鲁棒性不强，因此，对输入图像进行
目标检测的图像特征提取勇往直前的流浪刀客 CV 图像特征提取
目标检测的图像特征提取之（一）HOG特征1、HOG特征：方向梯度直方图（HistogramofOrientedGradient,HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。需要提醒的是，HOG+SVM进行行人检测的方法是法国研究
通道和空间的双重作用的CBAM注意力机制浩瀚之水_csdn 深度学习目标检测 #Pytorch框架深度学习人工智能
论文地址：CBAM:ConvolutionalBlockAttentionModule点击即可跳转实现代码：CBAM代码实现点击即可跳转CBAM（ConvolutionalBlockAttentionModule）注意力机制是一种结合了通道注意力和空间注意力的机制，旨在提升卷积神经网络（CNN）对图像特征的敏感度和表达能力。以下是对通道和空间双重作用的CBAM注意力机制的详细解析：一、通道注意力模
相机-IMU联合标定：相机-IMU外参标定吃水果不削皮视觉组合导航 ROS VIO
文章目录简介标定工具kalibr标定数据录制相机-IMU外参标定简介在VINS（视觉惯性导航系统）中，相机-IMU外参标定是确保多传感器数据时空统一的核心环节，其作用可概括为以下关键点：坐标系对齐（空间同步），外参误差会导致视觉特征点投影与IMU预积分轨迹不匹配，引发位姿跳变（如图像特征与IMU预测的轨迹"错位"）。时间同步（时间戳对齐），未校正时，高速运动下视觉与IMU数据不同步，融合结果会出现
卷积神经网络：池化层 00&00 深度学习人工智能 cnn 人工智能神经网络
池化层是卷积神经网络（CNN）中的一个重要组成部分，主要用于减少特征图的空间尺寸，从而降低计算复杂度和防止过拟合。池化层通过下采样操作来获取图像特征的显著性，同时保持重要的特征信息。一、常见池化操作1.最大池化(MaxPooling)在每个池化窗口内，取最高值作为输出。通常可用于保留显著特征，特别是边缘和角点。示例：输入特征图：1324562112020123池化窗口(2x2)和步幅(2)下的最大
MATLAB算法实战应用案例精讲-【图像处理】图像特征提取（附MATLAB代码实现）林聪木图像处理计算机视觉人工智能
目录前言知识储备提取图像文本的Python库1.pytesseract2.EasyOCR3.Keras-OCR4.TrOCR5.docTR算法原理图像的特征图像特征的分类遥感图像分类特征提取（Featureextraction）灰度共生矩阵GLCM兴趣点提取BRIEF算法Harris角点算法Harris和Shi-Tomas算法SIFT/SURF算法SIFT原理SURF原理LBP和HOG特征算子LB
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

学习换脸：Switching Eds: Face swapping with Python, dlib, and OpenCV

你可能感兴趣的:(图像特征)