有时有味

OpenCV书签 #余弦相似度的原理与相似图片/相似文件搜索实验

1. 介绍

余弦相似度（Cosine Similarity），又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度仅仅与向量的指向方向相关，与向量的长度无关，它将向量根据坐标值绘制到向量空间中，如最常见的二维空间。因此，万物皆向量，我们可以使用余弦相似度来进行相似图片查找、相似文件搜索等工作。

两个向量间的余弦值可以通过使用欧几里得点积公式求出：

给定两个属性向量，A 和 B，其余弦相似性 θ 由点积和向量长度给出，如下所示：

原理

余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。

当两个向量的夹角为0°，即余弦值为1，则两个向量有相同的指向，相当于相似度最高（其他任何角度的余弦值都不大于1）。
当两个向量的夹角为90°，即余弦值为0，则两个向量垂直。
当两个向量的夹角为180°，即余弦值为-1，则两个向量指向完全相反的方向，相当于完全不是同类。

余弦相似度而非算法，求出余弦相似度后，到底阈值如何界定（值大于多少认为是样本的相似同类），往往需要依次用不同的阈值数值对全部数据集进行测试，挑选效果最好的数值作为阈值。

余弦相似度通常用于正空间。余弦值的范围在-1到1之间，因为包含负值，有时不便于使用。改进方法有：

将余弦相似度用于正空间，对于各个维度均为正的向量，可以保证余弦相似度非负（该空间的夹角被限定在 0-90，或者根据公式，内积恒为正），所以可以转为 [0, 1] 上的有界相似性。
用1减余弦相似度，此时结果范围为 [0, 2]，且值越小表示越接近（类似欧氏距离）。

2. 实验一：查找相似图像

2.1.1 魔法

图像加载和预处理： 读取目标图像。预处理图像，例如转换为灰度图像、调整大小等。
特征提取： 选择图像特征，这里通常使用直方图，对每张图像计算所选特征，得到特征向量。
相似度计算： 使用余弦相似度计算两个特征向量之间的相似性。相似度的计算通常在 [0, 1] 范围，越接近1表示越相似。
排序和筛选： 对相似图像按照相似度降序排序。根据需求，可以选择保留相似度高于某个阈值的图像。
结果展示： 展示相似度高的图像作为结果。可以通过图形界面、命令行输出或其他方式呈现结果。

2.1.2 实验

第一步：图像加载和预处理

读取目标图像。预处理图像，例如转换为灰度图像、调整大小等。

"""
以图搜图：余弦相似度（Cosine Similarity）查找相似图像的原理与实现
实验环境：Win10 | python 3.9.13 | OpenCV 4.4.0 | numpy 1.21.1 | Matplotlib 3.7.1
实验时间：2023-11-30
实例名称：imgCosineSimilarity_v1.0_show.py
"""

import os
import cv2
import matplotlib.pyplot as plt

# 目标图像素材库文件夹路径
database_dir = '../../P0_Doc/img_data/'

# 读取查询图像和数据库中的图像
img1_path = database_dir + 'car-101.jpg'
img2_path = database_dir + 'car-102.jpg'
img3_path = database_dir + 'car-103.jpg'
img4_path = database_dir + 'car-106.jpg'
img5_path = database_dir + 'car-109.jpg'

# 读取图像
img1 = cv2.imread(img1_path)
img2 = cv2.imread(img2_path)
img3 = cv2.imread(img3_path)
img4 = cv2.imread(img4_path)
img5 = cv2.imread(img5_path)

# 将图像转换为灰度图像
img1_gray = cv2.cvtColor(img1, cv2.COLOR_BGR2GRAY)
img2_gray = cv2.cvtColor(img2, cv2.COLOR_BGR2GRAY)
img3_gray = cv2.cvtColor(img3, cv2.COLOR_BGR2GRAY)
img4_gray = cv2.cvtColor(img4, cv2.COLOR_BGR2GRAY)
img5_gray = cv2.cvtColor(img5, cv2.COLOR_BGR2GRAY)

# 绘制子图
plt.figure(figsize=(12, 4))
# 绘制灰度图像
plt.subplot(1, 5, 1)
plt.imshow(img1_gray, cmap='gray')
plt.title(os.path.basename(img1_path))
plt.subplot(1, 5, 2)
plt.imshow(img2_gray, cmap='gray')
plt.title(os.path.basename(img2_path))
plt.subplot(1, 5, 3)
plt.imshow(img3_gray, cmap='gray')
plt.title(os.path.basename(img3_path))
plt.subplot(1, 5, 4)
plt.imshow(img4_gray, cmap='gray')
plt.title(os.path.basename(img4_path))
plt.subplot(1, 5, 5)
plt.imshow(img5_gray, cmap='gray')
plt.title(os.path.basename(img5_path))
plt.tight_layout()
# 显示灰度图像
plt.show()

灰度图像：

第二步：特征提取

选择图像特征，这里通常使用直方图，对每张图像计算所选特征，得到特征向量。

# 计算图像的直方图
img1_hist = cv2.calcHist([img1_gray], [0], None, [256], [0, 256])
img2_hist = cv2.calcHist([img2_gray], [0], None, [256], [0, 256])
img3_hist = cv2.calcHist([img3_gray], [0], None, [256], [0, 256])
img4_hist = cv2.calcHist([img4_gray], [0], None, [256], [0, 256])
img5_hist = cv2.calcHist([img5_gray], [0], None, [256], [0, 256])

# 获取图像的特征向量
vector1 = img1_hist.flatten()
vector2 = img2_hist.flatten()
vector3 = img3_hist.flatten()
vector4 = img4_hist.flatten()
vector5 = img5_hist.flatten()

# 使用垂直线（stem lines）绘制向量
plt.figure(figsize=(8, 4))

# 绘制向量1
plt.subplot(1, 5, 1)
plt.stem(vector1)
plt.title('Vector 1')

# 绘制向量2
plt.subplot(1, 5, 2)
plt.stem(vector2)
plt.title('Vector 2')

# 绘制向量3
plt.subplot(1, 5, 3)
plt.stem(vector3)
plt.title('Vector 3')

# 绘制向量4
plt.subplot(1, 5, 4)
plt.stem(vector4)
plt.title('Vector 4')

# 绘制向量5
plt.subplot(1, 5, 5)
plt.stem(vector5)
plt.title('Vector 5')

# 图像向量可视化
plt.tight_layout()
plt.show()

图像特征向量可视化，横向对比：

使用散点图绘制特征向量：

# 使用散点图绘制向量
plt.figure(figsize=(8, 4))

# 绘制散点图
plt.scatter(range(len(vector1)), vector1, label='Vector 1', marker='o', s=10)
plt.scatter(range(len(vector2)), vector2, label='Vector 2', marker='x', s=10)
plt.scatter(range(len(vector3)), vector3, label='Vector 3', marker='o', s=10)
plt.scatter(range(len(vector4)), vector4, label='Vector 4', marker='o', s=10)
plt.scatter(range(len(vector5)), vector5, label='Vector 5', marker='o', s=10)

plt.title('Scatter Plot of Vectors')
plt.xlabel('Index')
plt.ylabel('Value')
# 添加图例
plt.legend()
# 图像向量可视化
plt.show()

图像特征向量散点图可视化：

通过可视化纵向对比测试图像的特征向量，不难发现，图像1与图像2的特征向量完全重合，即完全相似。

第三步：相似度计算

使用余弦相似度计算两个特征向量之间的相似性。相似度的计算通常在 [0, 1] 范围，越接近1表示越相似。

# 归一化直方图：将特征表示成一维向量
vector1 = img1_hist.flatten()
vector2 = img2_hist.flatten()
# 计算向量 vector1 和 vector2 的点积，即对应元素相乘后相加得到的标量值
dot_product = np.dot(vector1, vector2)
# 计算向量 vector1 的 L2 范数，即向量各元素平方和的平方根
norm_vector1 = np.linalg.norm(vector1)
# 计算向量 vector2 的 L2 范数
norm_vector2 = np.linalg.norm(vector2)
# 利用余弦相似度公式计算相似度，即两个向量的点积除以它们的 L2 范数之积
similarity = dot_product / (norm_vector1 * norm_vector2)
print(f"图像名称：{img2_path}，与目标图像 {img1_path} 的近似值：{similarity}")

输出打印：

图像名称：img_test/car-102.jpg，与目标图像 img_test/car-101.jpg 的近似值：1.0

第四步：排序和筛选

对相似图像按照相似度降序排序。根据需求，可以选择保留相似度高于某个阈值的图像。

if (similarity > 0.8):
    print(f"图像名称：{img2_path}，与目标图像 {img1_path} 的近似值：{similarity}")

或者，如下为多图相似实验部分代码（完整代码可参见下文 2.1.3 实验代码）：

def image_search(query_path, database_paths):
    # 提取查询图像的特征
    query_feature = extract_features(query_path)
    
    # 遍历数据库图像并比较相似度
    similaritys = []
    for database_path in database_paths:
        # 提取数据库图像的特征
        database_feature = extract_features(database_path)
        
        # 计算余弦相似度
        similarity = cosine_similarity(query_feature, database_feature)
        
        # 将结果保存到列表中
        if (similarity > 0.8):
            similaritys.append((database_path, similarity))
    
    # 按相似度降序排序
    similaritys.sort(key=lambda x: x[1], reverse=True)
    return similaritys

第五步：结果展示

展示相似度高的图像作为结果。可以通过图形界面、命令行输出或其他方式呈现结果。

具体可见如下测试代码。

2.1.3 测试

实验场景

通过 opencv，使用余弦相似度查找目标图像素材库中所有相似图像，要求相似值大于等于 0.65（余弦相似度通常在 [-1, 1] 范围，越接近1表示越相似）。

实验素材

实验代码

"""
以图搜图：余弦相似度（Cosine Similarity）查找相似图像的原理与实现
实验环境：Win10 | python 3.9.13 | OpenCV 4.4.0 | numpy 1.21.1 | Matplotlib 3.7.1
实验时间：2023-11-30
实例名称：imgCosineSimilarity_v1.2.py
"""

import os
import time
import cv2
import numpy as np
import matplotlib.pyplot as plt

def extract_features(image_path):
    # 读取图像并将其转换为灰度
    image = cv2.imread(image_path, cv2.COLOR_BGR2GRAY)
    
    # 计算直方图
    hist = cv2.calcHist([image], [0], None, [256], [0, 256])
    
    # 归一化直方图
    # cv2.normalize(hist, hist): 这一步是将直方图进行归一化，确保其数值范围在 [0, 1] 之间。归一化是为了消除图像的大小或强度的差异，使得直方图更具有通用性
    # .flatten(): 这一步将归一化后的直方图展平成一维数组。在余弦相似度计算中，我们需要将特征表示成一维向量，以便进行向量之间的相似度比较
    hist = cv2.normalize(hist, hist).flatten()
    return hist

def cosine_similarity(vector1, vector2):
    # 算向量 vector1 和 vector2 的点积，即对应元素相乘后相加得到的标量值
    dot_product = np.dot(vector1, vector2)
    # 计算向量 vector1 的 L2 范数，即向量各元素平方和的平方根
    norm_vector1 = np.linalg.norm(vector1)
    # 计算向量 vector2 的 L2 范数
    norm_vector2 = np.linalg.norm(vector2)
    # 利用余弦相似度公式计算相似度，即两个向量的点积除以它们的 L2 范数之积
    similarity = dot_product / (norm_vector1 * norm_vector2)
    return similarity

def image_search(query_path, database_paths):
    # 提取查询图像的特征
    query_feature = extract_features(query_path)
    
    # 遍历数据库图像并比较相似度
    similaritys = []
    for database_path in database_paths:
        # 提取数据库图像的特征
        database_feature = extract_features(database_path)
        # 计算余弦相似度
        similarity = cosine_similarity(query_feature, database_feature)
        # 将结果保存到列表中（仅保留相似值大于等于 0.8 的图像）
        if (similarity >= 0.65):
            similaritys.append((database_path, similarity))
    
    # 按相似度降序排序
    similaritys.sort(key=lambda x: x[1], reverse=True)
    return similaritys

def show_similar_images(similar_images, images_per_column=3):
    # 计算总共的图片数量
    num_images = len(similar_images)
    # 计算所需的行数
    num_rows = (num_images + images_per_column - 1) // images_per_column

    # 创建一个子图，每行显示 images_per_column 张图片
    fig, axes = plt.subplots(num_rows, images_per_column, figsize=(12, 15), squeeze=False)
    
    # 遍历每一行
    for row in range(num_rows):
        # 遍历每一列
        for col in range(images_per_column):
            # 计算当前图片在列表中的索引
            index = row * images_per_column + col
            # 检查索引是否越界
            if index < num_images:
                # 获取当前相似图片的路径和相似度
                image_path = similar_images[index][0]
                similarity = similar_images[index][1]
                
                # 读取图片并转换颜色通道
                image = cv2.cvtColor(cv2.imread(image_path), cv2.COLOR_BGR2RGB)

                # 在子图中显示图片
                axes[row, col].imshow(image)
                # 设置子图标题，包括图片路径和相似度
                axes[row, col].set_title(f"Similar Image: {os.path.basename(image_path)} \n Similar Score: {similarity:.4f}")
                # 关闭坐标轴
                axes[row, col].axis('off')
    # 显示整个图
    plt.show()

if __name__ == "__main__":
    time_start = time.time()

    # 目标图像素材库文件夹路径
    database_folder_path = '../../P0_Doc/img_data/'
    # 指定测试图像文件扩展名
    img_suffix = ['.jpg', '.jpeg', '.png', '.bmp', '.gif']

    # 目标查询图像路径
    query_image_path = database_folder_path + 'apple-101.jpg'
    query_image_path = database_folder_path + 'X3-01.jpg'
    query_image_path = database_folder_path + 'Q3-01.jpg'
    query_image_path = database_folder_path + 'car-101.jpg'
    
    # 获取目标图像素材库文件夹中所有图像的路径
    all_files = [os.path.join(database_folder_path, filename) for filename in os.listdir(database_folder_path)]

    # 筛选出指定后缀的图像文件
    img_files = [file for file in all_files if any(file.endswith(suffix) for suffix in img_suffix)]
    
    # 进行相似图像搜索
    search_results = image_search(query_image_path, img_files)
    
    # 打印结果
    for similarity in search_results:
        print(f"图像名称：{similarity[0]}，与目标图像 {os.path.basename(query_image_path)} 的近似值：{similarity[1]}")

    time_end = time.time()
    print(f"耗时：{time_end - time_start}")

    # 显示目标相似图像
    show_similar_images(search_results)

输出打印：

图像名称：../../P0_Doc/img_data/car-101.jpg，与目标图像 car-101.jpg 的近似值：1.0
图像名称：../../P0_Doc/img_data/car-102.jpg，与目标图像 car-101.jpg 的近似值：1.0
图像名称：../../P0_Doc/img_data/car-103.jpg，与目标图像 car-101.jpg 的近似值：0.8792840838432312
图像名称：../../P0_Doc/img_data/car-106.jpg，与目标图像 car-101.jpg 的近似值：0.8591960668563843
图像名称：../../P0_Doc/img_data/car-109.jpg，与目标图像 car-101.jpg 的近似值：0.8135514259338379
图像名称：../../P0_Doc/img_data/Q3-07.jpg，与目标图像 car-101.jpg 的近似值：0.7921913266181946
图像名称：../../P0_Doc/img_data/car-104.jpg，与目标图像 car-101.jpg 的近似值：0.7479972839355469
图像名称：../../P0_Doc/img_data/car-105.jpg，与目标图像 car-101.jpg 的近似值：0.7401522397994995
图像名称：../../P0_Doc/img_data/X3-01.jpg，与目标图像 car-101.jpg 的近似值：0.718971848487854
图像名称：../../P0_Doc/img_data/X3-10.jpg，与目标图像 car-101.jpg 的近似值：0.718971848487854
图像名称：../../P0_Doc/img_data/X3-07.jpg，与目标图像 car-101.jpg 的近似值：0.6954472661018372
图像名称：../../P0_Doc/img_data/Q3-11.jpg，与目标图像 car-101.jpg 的近似值：0.6589514017105103
图像名称：../../P0_Doc/img_data/X3-05.jpg，与目标图像 car-101.jpg 的近似值：0.6564251184463501
图像名称：../../P0_Doc/img_data/X3-02.jpg，与目标图像 car-101.jpg 的近似值：0.6537510752677917
耗时：0.9245285987854004

多图相似查找结果显示：

2.1.4 实验总结

经过多组目标测试图像的相似图查找，对于旋转、倒置的相似图像查找非常准确。对于相似值在 0.8 ~ 0.65 之间的相似图像查找效果差强人意。

优点

简单直观：余弦相似度是一种简单且直观的相似性度量方法，易于理解和实现。
计算速度较快：在一些小规模的图像数据库中，余弦相似度的计算速度相对较快，适用于实时性要求不高的场景。
适用于高维度特征：余弦相似度对于高维度特征空间的相似性度量效果较好，适用于图像的特征向量较长的情况。

缺点

不考虑空间结构：余弦相似度只关注特征向量的方向，而不考虑特征在空间中的分布结构。对于图像中的空间信息，余弦相似度并未进行有效的建模。
不考虑像素间的相对位置：余弦相似度不考虑像素在图像中的相对位置，对于图像内容的排列顺序不敏感，这在一些场景中可能并不符合实际需求。
对图像噪声敏感：如果图像中存在噪声，余弦相似度可能会受到噪声的影响，导致相似度计算不准确。
不适用于大规模数据库：在大规模图像数据库中，计算余弦相似度可能会变得相对较慢，不太适用于对实时性要求较高的场景。

2. 实验二：查找相似文本

在相似文件查找场景中，余弦相似性将文件表示为向量，向量的每个维度代表文件的某个特征，比如文件的内容、词频、TF-IDF值等。然后，通过计算文件向量之间的余弦相似度，可以评估它们之间的相似程度。

由于一个词的频率不能为负数，所以这两个文件的余弦相似性范围是从0到1。即，两个词的频率向量之间的角度不能大于90°。

2.2.1 魔法

文件读取和预处理： 读取目标文本文件，对目标文本进行预处理，包括分词、去停用词、移除标点符号和数字等。
提取文件特征： 将目标文本表示为特征向量。这可以通过不同的方法，比如文本文件可以使用词袋模型、TF-IDF等。
计算余弦相似度： 遍历测试库中的文本文件，对每个文件执行相似度计算。
获取相似文本： 根据需求设定一个阈值，将相似度大于阈值的文件视为相似文件，并按相似度结果排序，得到相似度最高的文本文件。

2.2.2 核心

分词： 将一段文本切分成一个个有意义的词语
构建词汇表： 列出所有的词，将所有文档中出现的词语构建为一个词汇表，该词汇表包含了所有可能的词语
计算词频： 对应单词在文本中出现的次数
词频向量化： 将文本表示为词频向量，以便计算文本之间的相似度

2.2.3 实验

第一步：文件读取和预处理

读取目标文本文件，对目标文本进行预处理，包括分词、去停用词、移除标点符号和数字等。

"""
以图搜图：余弦相似度（Cosine Similarity）查找相似文本的原理与实现
实验目的：文件读取和预处理
实验环境：Win10 | python 3.9.13 | OpenCV 4.4.0 | numpy 1.21.1 | Matplotlib 3.7.1 | jieba 0.42.1
实验时间：2023-11-30
实例名称：txtConsineSimilarity_v1.0.py
"""

import re
import jieba

# 预处理目标文本
def preprocess_text(text):
    print(f"文本文件内容：{text}")
    # 将文本转换为小写
    text = text.lower()
    print(f"将文本转为小写：{text}")
    # 移除标点符号、数字和中文标点符号
    text = re.sub(r'[^a-z\u4e00-\u9fa5\s]', '', text)
    print(f"移除标点符号后：{text}")
    # 使用 jieba 进行中文分词
    text_words = jieba.cut(text)
    # 将分词结果拼接成字符串
    processed_text = ' '.join(text_words)
    print(f"将分词结果拼接成字符串：{processed_text}")
    return processed_text

if __name__ == "__main__":
    # 本地测试文本素材库
    test_dir_path = '../../P0_Doc/txt_data/'
    # 本地测试文本素材路径
    origin_file = test_dir_path + 'CosineSimilarity_定义_org.txt'

    # 读取目标文本
    with open(origin_file, 'r', encoding='utf-8') as file:
        origin_text = file.read()

    # 预处理目标文本
    origin_context = preprocess_text(origin_text)

输出打印：

文本文件原内容：余弦相似度（Cosine Similarity），是通过计算两个向量的夹角余弦值来评估他们的相似度。
将文本转为小写：余弦相似度（cosine similarity），是通过计算两个向量的夹角余弦值来评估他们的相似度。
移除标点符号后：余弦相似度cosine similarity是通过计算两个向量的夹角余弦值来评估他们的相似度
将分词结果拼接成字符串：余弦 相似 度 cosine   similarity 是 通过 计算 两个 向量 的 夹角 余弦 值来 评估 他们 的 相似 度

文本向量化的核心之一是文本分词。分词是将一段文本切分成一个个有意义的词语或标记的过程。在文本处理中，分词是一个关键的预处理步骤，因为它决定了最终文本向量的特征。

对于英文文本，一般可以使用空格进行简单的分词。而对于中文文本，由于汉字没有空格，需要使用中文分词工具进行切分。

比如测试案例中

文本文件原内容：

余弦相似度（Cosine Similarity），是通过计算两个向量的夹角余弦值来评估他们的相似度。

将文本转为小写：

余弦相似度cosine similarity是通过计算两个向量的夹角余弦值来评估他们的相似度

移除标点符号后：

余弦相似度cosine similarity是通过计算两个向量的夹角余弦值来评估他们的相似度

分词：

余弦相似度 cosine similarity 是通过计算两个向量的夹角余弦值来评估他们的相似度

常见的中文分词工具包括 jieba、pkuseg、THULAC 等。其中，jieba 是一个简单而强大的中文分词工具，广泛应用于中文文本处理任务。

为什么要移除标点符号和数字？

移除标点符号和数字是因为在某些文本相似度计算中，这些字符通常不包含太多语义信息，但会增加文本的复杂性。在文本预处理阶段，通过移除这些字符，可以减小词汇量，使得计算的文本向量更加简洁，聚焦于包含主要语义的单词。

例如，标点符号和数字通常不对文本的整体语义产生太大影响，而且在不同文本中的使用方式可能会有很大差异。如果保留这些字符，可能会导致文本表示中包含大量的噪声，降低相似度计算的准确性。

当然，在一些特殊的应用场景中，保留标点符号和数字可能是有意义的，这取决于具体的文本相似度任务和需求。在本实验中，简单地移除了标点符号和数字，但实际应用中可以根据任务的要求进行定制化的预处理。

第二步：提取文件特征

将目标文本表示为特征向量。这可以通过不同的方法，比如文本文件可以使用词袋模型、TF-IDF等。

def get_vectorizer(origin_context):
    # 构建文本向量：使用词袋模型表示文本，过滤停用词
    origin_vectorizer = CountVectorizer(stop_words='english')
    # 使用 CountVectorizer 将原始文本 origin_context 转换为词袋模型的向量表示
    origin_vector = origin_vectorizer.fit_transform([origin_context])
    print(f"文本词频矩阵：\n{origin_vector}")
    # 获取特征单词列表
    feature_names = origin_vectorizer.get_feature_names_out()
    print(f"文本特征单词列表：\n{feature_names}")
    print(f"文本词频向量：\n{origin_vector.toarray()}")

总体而言，CountVectorizer(stop_words='english') 的作用是将文本数据转换为词频矩阵，同时忽略英语停用词。这是文本挖掘和自然语言处理中常用的预处理步骤。

CountVectorizer 类： CountVectorizer 是 scikit-learn 中用于将文本数据转换为词频（term frequency）矩阵的类。它将文本数据转换为一个矩阵，其中每一行代表一个文本样本，每一列代表一个不同的单词，而矩阵的元素是对应单词在文本样本中出现的次数。
stop_words=‘english’ 参数： stop_words 参数用于指定停用词（stop words）的处理方式。停用词是在文本分析中通常被忽略的常见词汇，因为它们通常不包含有用的信息。在这里，‘english’ 表示使用英语停用词列表，这些词会在文本向量化时被忽略
fit_transform 的过程：
1. 构建词汇表：词汇表是所有文本中出现的独特单词的集合。
2. 将文本转换为词频矩阵：对于每个文本，统计词汇表中每个单词的出现次数，将其转换为向量表示。

最终，origin_vector 是一个稀疏矩阵，其中每一行对应于一个单词，每一列对应于原始文本中对应单词的出现次数。

输出打印：

文本词频矩阵：
  (0, 4)        2
  (0, 8)        2
  (0, 0)        1
  (0, 1)        1
  (0, 11)       1
  (0, 9)        1
  (0, 2)        1
  (0, 6)        1
  (0, 7)        1
  (0, 5)        1
  (0, 10)       1
  (0, 3)        1
文本特征单词列表：
['cosine' 'similarity' '两个' '他们' '余弦' '值来' '向量' '夹角' '相似' '计算' '评估' '通过']
文本词频向量：
[[1 1 1 1 2 1 1 1 2 1 1 1]]

第三步：计算余弦相似度

读取目标文本文件，对文件执行相似度计算。

注：多个测试素材时，遍历测试库中的文本文件，对每个文件执行相似度计算。可见下文实验代码。

第四步：获取相似文本

根据需求设定一个阈值，将相似度大于阈值的文件视为相似文件，并按相似度结果排序，得到相似度最高的文本文件。可见下文实验代码。

2.2.4 测试

实验素材：

场景1：比较2个文件相似性

实验场景： 使用余弦相似度比较2个文件相似性，并可视化词频相似向量
实验代码：

"""
以图搜图：余弦相似度（Cosine Similarity）查找相似文本的原理与实现
实验目的：比较2个文件相似性
实验环境：Win10 | python 3.9.13 | OpenCV 4.4.0 | numpy 1.21.1 | Matplotlib 3.7.1 | jieba 0.42.1
实验时间：2023-11-30
实例名称：txtConsineSimilarity_v1.3.py
"""

import re
import numpy as np
import jieba
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from sklearn.feature_extraction.text import CountVectorizer

# 预处理目标文本
def preprocess_text(text):
    print(f"文本文件内容：{text}")
    # 将文本转换为小写
    text = text.lower()
    print(f"将文本转为小写：{text}")
    # 移除标点符号、数字和中文标点符号
    text = re.sub(r'[^a-z\u4e00-\u9fa5\s]', '', text)
    print(f"移除标点符号后：{text}")
    # 使用 jieba 进行中文分词
    text_words = jieba.cut(text)
    # 将分词结果拼接成字符串
    processed_text = ' '.join(text_words)
    print(f"将分词结果拼接成字符串：{processed_text}")
    return processed_text
    
def cosine_similarity(vector1, vector2):
    # 将二维列向量转换为一维数组
    vector1 = vector1.flatten()
    vector2 = vector2.flatten()
    # 算向量 vector1 和 vector2 的点积，即对应元素相乘后相加得到的标量值
    dot_product = np.dot(vector1, vector2)
    # 计算向量 vector1 的 L2 范数，即向量各元素平方和的平方根
    norm_vector1 = np.linalg.norm(vector1)
    # 计算向量 vector2 的 L2 范数
    norm_vector2 = np.linalg.norm(vector2)
    # 避免除零错误
    if norm_vector1 == 0 or norm_vector2 == 0:
        return 0
    # 利用余弦相似度公式计算相似度，即两个向量的点积除以它们的 L2 范数之积
    similarity = dot_product / (norm_vector1 * norm_vector2)
    return similarity

# 获取文件余弦相似度
def get_cosine_similarity(origin_file, target_file):
    # 读取原始文本
    with open(origin_file, 'r', encoding='utf-8') as file:
        origin_text = file.read()
    # 预处理原始文本
    origin_context = preprocess_text(origin_text)
    print(f"预处理原始文本：{origin_context}")

    # 构建文本向量：使用词袋模型表示文本，过滤停用词
    origin_vectorizer = CountVectorizer(stop_words='english')
    # 使用 CountVectorizer 将原始文本 origin_context 转换为词袋模型的向量表示
    origin_vector = origin_vectorizer.fit_transform([origin_context])
    print(f"原文件词频矩阵：\n{origin_vector}")
    # 转置矩阵，确保维度相同
    origin_vector = origin_vector.T
    # 获取特征单词列表
    feature_names = origin_vectorizer.get_feature_names_out()
    print(f"原文件特征单词列表：{feature_names}")
    print(f"原文件词频向量：\n{origin_vector.toarray()}")

    with open(target_file, 'r', encoding='utf-8') as file:
        target_text = file.read()
        target_context = preprocess_text(target_text)
        print(f"预处理目标文本：{target_context}")

    # 构建文本向量：使用词袋模型表示文本，过滤停用词，并确保与查找源的向量维度一致
    target_vectorizer = CountVectorizer(stop_words='english', vocabulary=feature_names)

    target_vector = target_vectorizer.fit_transform([target_context])
    print(f"目标文件词频矩阵：\n{target_vector}")

    # 转置矩阵，确保维度相同
    target_vector = target_vector.T
    print(f"目标文件转置矩阵：\n{target_vector}")
    print(f"目标文件词频向量：\n{target_vector.toarray()}")

    # 计算余弦相似度
    similarity = cosine_similarity(origin_vector.toarray(), target_vector.toarray())
    print(f"文件 {target_file}，与原文件 {origin_file} 的相似值：{similarity}")

    # 可视化文本向量
    show_text_vectors(origin_vector.toarray(), target_vector.toarray(), feature_names)

def show_text_vectors(origin_vector, target_vector, feature_names):
    # 设置中文字体
    font = FontProperties(fname="../../P0_Doc/fonts/msyh.ttc", size=12)
    plt.figure(figsize=(10, 5))
    plt.plot(feature_names, origin_vector, label='Original Text Vector')
    plt.plot(feature_names, target_vector, label='Target Text Vector')
    plt.title('Text Vector Comparison', fontproperties=font)
    plt.xlabel('Feature Names', fontproperties=font)
    plt.ylabel('Vector Values', fontproperties=font)
    plt.xticks(rotation=90, fontproperties=font)
    plt.legend()
    plt.tight_layout()
    plt.show()

if __name__ == "__main__":
    # 本地测试文本素材库
    test_dir_path = '../../P0_Doc/txt_data/'
    # 本地测试文本素材路径
    origin_file = test_dir_path + 'CosineSimilarity_定义_org.txt'
    target_file = test_dir_path + 'CosineSimilarity_定义_v1.0.txt'

    # 获取文件余弦相似度
    get_cosine_similarity(origin_file, target_file)

输出打印：

文件 ../../P0_Doc/txt_data/CosineSimilarity_定义_v1.0.txt，与原文件 ../../P0_Doc/txt_data/CosineSimilarity_定义_org.txt 的相似值：0.9449111825230682

场景2：素材库中查找文件相似性

实验场景： 使用余弦相似度在目标素材库中查找相似文件
实验代码：

"""
以图搜图：余弦相似度（Cosine Similarity）查找相似文本的原理与实现
实验目的：使用余弦相似度在目标素材库中查找相似文件
实验环境：Win10 | python 3.9.13 | OpenCV 4.4.0 | numpy 1.21.1 | Matplotlib 3.7.1 | jieba 0.42.1
实验时间：2023-11-30
实例名称：txtConsineSimilarity_v1.4.py
"""

import os
import re
import time
import numpy as np
import jieba
from sklearn.feature_extraction.text import CountVectorizer

# 预处理目标文本
def preprocess_text(text):
    # 将文本转换为小写
    text = text.lower()
    # 移除标点符号、数字和中文标点符号
    text = re.sub(r'[^a-z\u4e00-\u9fa5\s]', '', text)
    # 使用 jieba 进行中文分词
    text_words = jieba.cut(text)
    # 将分词结果拼接成字符串
    processed_text = ' '.join(text_words)
    return processed_text
    
def cosine_similarity(vector1, vector2):
    # 将二维列向量转换为一维数组
    vector1 = vector1.flatten()
    vector2 = vector2.flatten()
    # 算向量 vector1 和 vector2 的点积，即对应元素相乘后相加得到的标量值
    dot_product = np.dot(vector1, vector2)
    # 计算向量 vector1 的 L2 范数，即向量各元素平方和的平方根
    norm_vector1 = np.linalg.norm(vector1)
    # 计算向量 vector2 的 L2 范数
    norm_vector2 = np.linalg.norm(vector2)
    # 避免除零错误
    if norm_vector1 == 0 or norm_vector2 == 0:
        return 0
    # 利用余弦相似度公式计算相似度，即两个向量的点积除以它们的 L2 范数之积
    similarity = dot_product / (norm_vector1 * norm_vector2)
    return similarity

# 获取文件余弦相似度
def get_cosine_similarity(origin_file, test_files):
    # 读取原始文本
    with open(origin_file, 'r', encoding='utf-8') as file:
        origin_text = file.read()
    # 预处理原始文本
    origin_context = preprocess_text(origin_text)

    # 构建文本向量：使用词袋模型表示文本，过滤停用词
    origin_vectorizer = CountVectorizer(stop_words='english')
    # 使用 CountVectorizer 将原始文本 origin_context 转换为词袋模型的向量表示
    origin_vector = origin_vectorizer.fit_transform([origin_context])
    # 转置矩阵，确保维度相同
    origin_vector = origin_vector.T
    # 获取特征单词列表
    feature_names = origin_vectorizer.get_feature_names_out()

    # 遍历测试库中的文本文件，获取文件余弦相似度
    for filename in test_files:
        with open(filename, 'r', encoding='utf-8') as file:
            target_text = file.read()
            target_context = preprocess_text(target_text)

            # 构建文本向量：使用词袋模型表示文本，过滤停用词，并确保与查找源的向量维度一致
            target_vectorizer = CountVectorizer(stop_words='english', vocabulary=feature_names)
            target_vector = target_vectorizer.fit_transform([target_context])

            # 转置矩阵，确保维度相同
            target_vector = target_vector.T

            # 计算余弦相似度
            similarity = cosine_similarity(origin_vector.toarray(), target_vector.toarray())
            print(f"文件 {os.path.basename(filename)}，与原文件 {os.path.basename(origin_file)} 的相似值：{similarity}")

            # 根据需求设定一个阈值，将相似度大于阈值的文件视为相似文件，并按相似度结果排序，得到相似度最高的文本文件
            if (similarity >= 0.9):
                text_similarities.append((filename, similarity))

if __name__ == "__main__":
    time_start = time.time()

    # 本地测试文本素材库
    test_dir_path = '../../P0_Doc/txt_data/'
    # 本地测试文本素材路径
    origin_file = test_dir_path + 'CosineSimilarity_org.txt'
    # 指定测试文本文件扩展名
    txt_suffix = ['.txt', '.doc', '.md']

    # 获取素材库文件夹中所有文件路径
    all_files = [os.path.join(test_dir_path, filename) for filename in os.listdir(test_dir_path)]

    # 筛选出指定后缀的文件
    test_files = [file for file in all_files if any(file.endswith(suffix) for suffix in txt_suffix)]

    # 获取素材库文件夹中文件余弦相似度
    text_similarities = []
    get_cosine_similarity(origin_file, test_files)

    # 按相似度降序排序
    text_similarities.sort(key=lambda item: item[1], reverse=True)
    print(f"按相似度降序排序：{text_similarities}")

    # 打印相似度最高的文本文件
    print(f"相似度最高的文本文件: {text_similarities[0][0]}, 相似度: {float(text_similarities[0][1]):.4f}")

    time_end = time.time()
    print(f"耗时：{time_end - time_start}")

输出打印：

文件 CosineSimilarity_org.txt，与原文件 CosineSimilarity_org.txt 的相似值：1.0
文件 CosineSimilarity_v1.0_拷贝版.doc，与原文件 CosineSimilarity_org.txt 的相似值：1.0
文件 CosineSimilarity_v1.1_位置调换版.md，与原文件 CosineSimilarity_org.txt 的相似值：1.0
文件 CosineSimilarity_v1.2_纯代码版.txt，与原文件 CosineSimilarity_org.txt 的相似值：0.6402964041311439
文件 CosineSimilarity_v1.3_删减版.txt，与原文件 CosineSimilarity_org.txt 的相似值：0.9704511815935536
文件 CosineSimilarity_v1.4_删减版2.txt，与原文件 CosineSimilarity_org.txt 的相似值：0.4919253465224834
文件 CosineSimilarity_v1.5_无可视化版.txt，与原文件 CosineSimilarity_org.txt 的相似值：0.9811481821202109
文件 CosineSimilarity_v1.6_复杂版.txt，与原文件 CosineSimilarity_org.txt 的相似值：0.8590656537770545
文件 CosineSimilarity_定义_org.txt，与原文件 CosineSimilarity_org.txt 的相似值：0.3587392083132991
文件 CosineSimilarity_定义_v1.0.txt，与原文件 CosineSimilarity_org.txt 的相似值：0.3311241245802555
按相似度降序排序：[('../../P0_Doc/txt_data/CosineSimilarity_org.txt', 1.0), ('../../P0_Doc/txt_data/CosineSimilarity_v1.0_拷贝版.doc', 1.0), ('../../P0_Doc/txt_data/CosineSimilarity_v1.1_位置调换版.md', 1.0), ('../../P0_Doc/txt_data/CosineSimilarity_v1.5_无可视化版.txt', 0.9811481821202109), ('../../P0_Doc/txt_data/CosineSimilarity_v1.3_删减版.txt', 0.9704511815935536)]
相似度最高的文本文件: ../../P0_Doc/txt_data/CosineSimilarity_org.txt, 相似度: 1.0000
耗时：0.6692209243774414

2.2.5 实验总结

余弦相似度通常在处理大规模文本数据时具有较好的性能，但对于一些需要考虑语法和语义信息的任务，可能需要使用更复杂的模型或度量方法。

优点

简单有效：余弦相似度的计算方法相对简单，容易理解和实现。这使得它成为许多文本相似性比较任务的首选方法之一。
不受文本长度影响：余弦相似度不受文本长度的影响，只受文本向量的方向角度影响。因此，对于不同长度的文本，余弦相似度可以更公正地评估它们之间的相似性。
适用于高维空间：在高维空间中，余弦相似度的性能通常比欧几里德距离等其他相似性度量更好。这使其在自然语言处理中处理文本向量时非常有用。

缺点

不考虑词序信息：余弦相似度只考虑文本中词汇的出现频率，而不考虑它们的顺序。这意味着它可能无法捕捉到语法结构或上下文信息，对于语义上相似但词序不同的文本可能判断不准确。
对稀疏向量不敏感：当文本表示为稀疏向量时（比如使用词袋模型），余弦相似度可能对于共享少量相同词汇的文本给出相似性度量过高的结果，因为它只关注共同出现的词，而不考虑它们的重要性。
无法处理一词多义：余弦相似度在处理一词多义时存在问题，因为它只基于词汇的出现频率而不考虑语境。同一个词在不同的上下文中可能有不同的含义，但余弦相似度无法捕捉这种语义信息。

2.2.6 实验异常

异常现象1

Traceback (most recent call last):
  File "d:\Ct_ iSpace\Wei\Python\iPython\T30_Algorithm\P2_Algo\02_CosineSimilarity\imgCosine_v2.1.py", line 56, in <module>
    text_similarities = get_cosine_similarity(test_dir_path)
  File "d:\Ct_ iSpace\Wei\Python\iPython\T30_Algorithm\P2_Algo\02_CosineSimilarity\imgCosine_v2.1.py", line 34, in get_cosine_similarity
    similarity = cosine_similarity(origin_vector.toarray(), target_vector.toarray())
  File "D:\Tp_Mylocal\20_Install\python-3.9.13\lib\site-packages\sklearn\metrics\pairwise.py", line 1393, in cosine_similarity
    X, Y = check_pairwise_arrays(X, Y)
  File "D:\Tp_Mylocal\20_Install\python-3.9.13\lib\site-packages\sklearn\metrics\pairwise.py", line 180, in check_pairwise_arrays
    raise ValueError(
ValueError: Incompatible dimension for X and Y matrices: X.shape[1] == 107 while Y.shape[1] == 100

异常原因： 2个向量维度不一致。

问题出现在 cosine_similarity 函数的调用上。cosine_similarity 函数的参数 X 和 Y 应该是形状相同的矩阵，但是在测试代码中，origin_vector 和 target_vector 的维度不一致。即，2个测试文件的行数不对等。

在这里，origin_vector 是由原始文本构建的文本向量，而 target_vector 是由目标文本构建的文本向量。这两个向量的维度应该是相同的，以便进行余弦相似度的计算。

注： from sklearn.metrics.pairwise import cosine_similarity，scikit-learn 的 cosine_similarity 函数的输入是两个形状相同的矩阵。

异常现象2

文件名称 CosineSimilarity_v2.1.txt，与目标文件 ../../P0_Doc/txt_data/CosineSimilarity_org.txt 的相似值：[[1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 ...
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]]
Traceback (most recent call last):
  File "d:\Ct_ iSpace\Wei\Python\iPython\T30_Algorithm\P2_Algo\02_CosineSimilarity\imgCosine_v2.1.py", line 74, in <module>
    text_similarities.sort(key=lambda item: item[1], reverse=True)
ValueError: operands could not be broadcast together with shapes (101,34) (101,31)

异常原因： 2个向量维度不一致。

注：错误的信息显示两个数组的形状分别是 (107, 37) 和 (107, 34)，这说明两个数组的列数不同，元素的形状 (shape) 不匹配，导致无法进行排序。

这个问题可能是由于某些文本文件的长度（词的数量）与其他文件不同，导致余弦相似度计算时形状不一致。你可以在计算余弦相似度之前，将向量长度调整为一致的。

异常现象3

    similarity = cosine_similarity(origin_vector.toarray(), target_vector.toarray())
  File "d:\Ct_ iSpace\Wei\Python\iPython\T30_Algorithm\P2_Algo\02_CosineSimilarity\imgCosine_v2.1.py", line 23, in cosine_similarity
    dot_product = np.dot(vector1, vector2)
  File "<__array_function__ internals>", line 5, in dot
ValueError: shapes (101,1) and (101,1) not aligned: 1 (dim 1) != 101 (dim 0)

异常原因： 2个向量维度不一致。

解决方案：可参考上述实验二完整代码。

注：可以将 origin_vector 和 target_vector 转置后再计算余弦相似度。目的是确保目标文本向量与原始文本向量具有相同的维度。

在使用 OpenCV 进行余弦相似度计算时，可能会遇到目标文本向量与原始文本向量维度不一致的问题。这可能是因为在构建文本向量时，使用的文本处理方法或者参数不同导致的。可以通过以下方法尝试解决维度不一致的问题：

检查文本内容是否正确：确保你读取的文本文件中的内容没有问题。你可以打印出原始文本和目标文本，检查是否包含了无效字符或者其他异常。

检查文本向量的维度：在构建文本向量后，使用 .shape 属性检查它们的维度。确保它们的维度是相同的。

异常现象4

Traceback (most recent call last):
  File "d:\Ct_ iSpace\Wei\Python\iPython\T30_Algorithm\P2_Algo\02_CosineSimilarity\txtCosine_v2.1 copy.py", line 102, in <module>
    get_cosine_similarity(origin_file, target_file)
  File "d:\Ct_ iSpace\Wei\Python\iPython\T30_Algorithm\P2_Algo\02_CosineSimilarity\txtCosine_v2.1 copy.py", line 50, in get_cosine_similarity
    origin_vector = origin_vectorizer.fit_transform([origin_context])
  File "D:\Tp_Mylocal\20_Install\python-3.9.13\lib\site-packages\sklearn\feature_extraction\text.py", line 1388, in fit_transform
    vocabulary, X = self._count_vocab(raw_documents, self.fixed_vocabulary_)
  File "D:\Tp_Mylocal\20_Install\python-3.9.13\lib\site-packages\sklearn\feature_extraction\text.py", line 1294, in _count_vocab
    raise ValueError(
ValueError: empty vocabulary; perhaps the documents only contain stop words

异常原因： 这个错误表明在文本预处理过程中，由于某些原因导致词汇表为空。这通常发生在文本中只包含停用词或特定的无效文本内容，导致无法构建有效的词汇表。

3. 环境依赖

如果 Matplotlib 库没有安装，可以使用以下命令安装：

pip install matplotlib

查看 Matplotlib 版本号：

import matplotlib
print("matplotlib 版本号:", matplotlib.__version__)

如果 jieba 库没有安装，可以使用以下命令安装：

pip install jieba

查看 jieba 版本号：

import jieba
print("jieba 版本号:", jieba.__version__)

4. 系列书签

均值哈希算法： OpenCV书签 #均值哈希算法的原理与相似图片搜索实验
感知哈希算法： OpenCV书签 #感知哈希算法的原理与相似图片搜索实验
差值哈希算法： OpenCV书签 #差值哈希算法的原理与相似图片搜索实验
直方图算法： OpenCV书签 #直方图算法的原理与相似图片搜索实验
余弦相似度： OpenCV书签 #余弦相似度的原理与相似图片/相似文件搜索实验

你可能感兴趣的:(OpenCV,算法,Python,opencv,余弦相似度,相似文件搜索,图搜索算法,以图搜图,python,numpy)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round