soulteary

使用 Redis 构建轻量的向量数据库应用：图片搜索引擎（一）

本篇文章聊聊更轻量的向量数据库方案：Redis。

以及基于 Redis 来快速实现一个高性能的本地图片搜索引擎，在本地环境中，使用最慢的稠密向量检索方式来在一张万图片中查找你想要的图片，总花费时间都不到十分之一秒。

写在前面

接着上一篇文章的话题，继续聊聊“图片搜索引擎”。给月底即将发生的一场分享中的“命题作文”补充一些详细的实践教程：《使用向量数据库快速构建本地轻量图片搜索引擎》。其实，在一年前，在做 Milvus 开源布道师的时候，我曾经写过一些 Milvus 相关的内容。这篇分享中提到的“图片搜索引擎”的话题，我在一年前就写过啦：《向量数据库入坑：使用 Docker 和 Milvus 快速构建本地轻量图片搜索引擎》。

不过，在这场分享活动中，有来自各种厂商的向量数据库“利益相关”的从业者，举办方站在中立立场上，希望大家的分享内容都更加中立客观的，尤其是厂商之外的分享者，不要表现太多的偏向性，话题百花齐放更好些，朋友的要求，自然是要尊重的。

此外，距离我发布上一篇“图片搜索引擎”后，不论是文章中使用的向量数据库 Milvus、还是用来快速做 Embedding 的 Towhee 不论是项目还是团队，都经历了比较多的迭代，面向的目标客户群体和场景也更明确，不太适合再做本地解决方案，更适合云端分布式场景。

正巧，在合作中的其中一家朋友的公司，前段时间也在折腾向量数据库，他更倾向先使用“更老牌”一些的技术方案，诸如：Elasticsearch、Mongo、Postgres、ClickHouse、Redis 这类加上向量数据库解决能力的成名久已的传统解决方案。

所以，这篇文章就来聊聊用户群体甚多，大家都很熟悉的老牌开源软件：Redis 的向量数据库场景实践。

准备材料

接下来聊聊本篇实践内容中需要的三个素材：Docker、HuggingFace 上下载的 OpenAI 的 Clip 模型（用于 Embedding）、以及适合我们自己或者业务实际使用的大量的图片数据集（文本、语音、视频、文件等同理）。

本文中使用的相关程序都已经开源在 soulteary/simple-image-search-engine/，欢迎一键三连，

Docker 运行环境

本文的所有内容都可以在标准的 Docker 容器环境中复现。

所以，想顺滑的完成实践，我推荐你安装 Docker，不论你的设备是否有显卡，都可以根据自己的操作系统喜好，参考这两篇来完成基础环境的配置《基于 Docker 的深度学习环境：Windows 篇》、《基于 Docker 的深度学习环境：入门篇》。当然，使用 Docker 之后，你还可以做很多事情，比如：之前几十篇有关 Docker 的实践，在此就不赘述啦。

如果你和我一样，使用 Docker 环境折腾、学习和用于生产。那么，我推荐你使用 Nvidia 家提供的深度学习环境 nvcr.io/nvidia/pytorch:23.10-py3 作为基础镜像，其中的 CUDA 版本经常效率比公开的开源社区版本要跑的更快一些：

FROM nvcr.io/nvidia/pytorch:23.10-py3
RUN pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple && \
    pip3 install --upgrade pip  # enable PEP 660 support
WORKDIR /app
RUN pip3 install transformers==4.35.0 "redis[hiredis]==5.0.1"

我们将上面的内容保存为 Dockerfile，然后使用下面的命令来完成稍后使用的镜像的构建（项目中的相关文件保存在 soulteary/simple-image-search-engine/docker/Dockerfile）：

docker build -t soulteary/image-search-engine:20231114 .

当然，如果你不使用 Docker 环境，也可以通过手动安装 pytorch 和执行下面的命令，完成 PyPi 相关依赖安装：

pip3 install transformers==4.35.0 "redis[hiredis]==5.0.1"

当然，为了折腾更简单一些，我还做了一个能够让我的读者一键拉起来的运行环境：

version: "2.4"

services:
  embededing-server:
    ipc: host
    ulimits:
      memlock: -1
      stack: 67108864
    stdin_open: true
    tty: true
    volumes:
      - ./make-embededing:/app
    image: soulteary/image-search-engine:20231114
    command: tail -f /etc/hosts
    container_name: embededing-server

  redis-server:
    image: redis/redis-stack-server:7.2.0-v6
    volumes:
      - ./redis-data:/data

将上面的文件保存为 docker-compose.yml。然后使用 docker compose up 启动服务，我们就能够分别使用下面的命令，来访问用来构建向量的容器 embededing-server 和 redis-server 啦。

# 使用命令行进入 Embededing Server 容器
docker exec -it embededing-server bash
# 使用命令行进入 Redis Server 容器
docker exec -it redis-server bash

HuggingFace 上的 OpenAI Clip 模型

本篇文章主要使用的模型是 OpenAI 在两年前开源的 Clip 模型，也是 HuggingFace 上的宝藏模型之一。关于 Clip 的介绍，OpenAI 公开的研究页面有非常详细的资料，如果你感兴趣，可以移步阅读。

在图片搜索这个场景下，我们可以根据自己的情况选择下面两个版本的模型，推荐选择 patch16 版本，相对新一些：

openai/clip-vit-base-patch16（第二版发布的版本）
openai/clip-vit-base-patch32（第一版发布的版本）

至于更新一些时候发布的两个标记为 large 的版本，好用是好用，但是需要更多的资源（模型尺寸接近之前的三倍）：

openai/clip-vit-large-patch14-336 （第四版发布版本）
openai/clip-vit-large-patch14 （第三版发布版本）

开源项目中的代码，直接执行，会自动下载这两个模型。不过因为一些原因，Huggingface 的模型有时候会下载的特别慢，所以我们可以考虑用下面两个方案来加速模型下载，比如直接使用 Huggingface 新推出的命令行 HF Transfer 和好心网友搭建的 hf-mirror.com 加速器，来完成模型的快速下载：

HF_ENDPOINT=https://hf-mirror.com HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download --resume-download openai/clip-vit-base-patch16 --local-dir clip-vit-base-patch16 --local-dir-use-symlinks False

不过因为上面的加速网站的原理是依赖 CDN，有时候要“看天吃饭”，不甚稳定。所以，你也可以使用百度网盘下载我上传好的两个模型。

模型下载完毕后，将它放在 openai 目录后，我们开始处理图片数据集。

从视频文件中提取图片数据集

因为这篇命题是图片搜索，所以我们还需要一些有趣的、大量的图片数据。在上一篇“图搜实践”的文章里，我用的是从搜索引擎搜索出的第一页原神卡通壁纸，数量不多，只有 60 多张壁纸。

为了更直观的感受 Redis 作为向量数据库的性能优势，我们需要把图片数据整的更多一些。

通常情况下，获取合适的数据集自然是有难度的，但是在学习研究的情况下，或许你可以参考这篇文章《开源软件 FFmpeg 生成模型使用图片数据集》，使用造福了无数视频软件公司、在线直点播公司、无数 CDN 云服务厂商的 FFmpeg 和你喜爱的电影、视频，来手动构建适合你的测试数据集。

通过上面的方法，我把这部电影转换成了每秒 10393 张图片（其实也不多，数量级还是太小了），它们被命名为 ball-001.png、ball-002.png … 之所以使用视频中的关键帧作为数据集，主要的原因是：这类数据比较有代表性、画面质量相对较高，包含高质量的多种分类的图片。目前互联网流量中绝大多数是视频，在“哔哩哔哩”或者各种 PT 爱好者网站、以及各种百度云、阿里云盘等资源站点，视频资源的获取难度相对较低，资源相对充分，比如这篇文章我们可以以科幻电影为例，也可以以纪录片为例、或者用连续剧也没啥问题。

如果你希望获得更大规模大数据集，你可以尝试比如把 “哈利波特系列”、“老友记”、“狂飙” 这种可以转换出图片数量更多的电影、电视剧作为目标，轻轻松松搞出十万级、百万级的图片数据集。

将图片放在名为 images 的目录中，我们要给搜索引擎建立“底库”的数据集准备工作就完毕啦。

一切都准备好之后，我们开始通过编写少量代码，完成这个曾经只有互联网大厂才提供服务的：图片搜索引擎。

设计程序

正常情况下，图片搜索引擎会有两套主要的工作流程。

第一套逻辑是：“制菜和备菜”。使用一些能够解析图片的模型程序，解析海量图片中的特征点，并进行向量化存储，建立合适的数据库索引，方便后续提供服务。

第二套逻辑是：“菜品的售卖”。制作一个用户看着顺眼的界面（网页、客户端）让用户能够通过一些交互方式，来实现用文本搜索图片（文本搜索图片内容或上下文的文本），或者用图片来搜索图片（以图搜图）。

这两套逻辑一般情况下分开处理，各自选择最合适的技术方案性能最好，资源消耗最少，也利于进行水平扩展。第一套逻辑因为数据量通常巨大，适合用“离线、批处理”的方式来做，可以节约大量的成本；而第二套逻辑，则是我们日常使用的搜索引擎，我们在搜索内容的时候，遇到在系统中搜索一个东西超过几秒其实不常见，对于性能要求还是很高的，不然就有极其差的体验或者口碑。

图片搜索引擎的不足之处

目前视频和图片都搜索产品，其实都还不是那么的完善。不论是国内还是海外的产品，目前提供公开的、能够满足大量用户使用的产品还做不到一些看起来很自然的事情：搜索 “连续剧里吃冰糕的小男孩” 就能够快速定位某个影视剧、以及从该影视剧中的小男孩开始吃冰糕的那一秒开始播放。或者搜索“某某电影中男一号第二天起床后，旁边桌面上的闹钟的购物链接”。

有非常多的搜索引擎，还在依赖着上一代的文本检索、或者基础的语义检索的方式，来针对和图片一起出现的网页文本来进行内容关联。 不少时候，靠的还是搜索到视频编辑运营或用户发布的带有对应描述的文本内容，捎带出来的图片。甚至还有靠文本完全匹配来进行图片推荐的，也是离谱，都 2023 年末啦！

关于上面提到的“语义检索”，在之前的这篇文章中有提到过：《向量数据库入坑：传统文本检索方式的降维打击，使用 Faiss 实现向量语义检索》，感兴趣可以自行翻阅，自己实现一个试试看。

不过随着算力的发展、越来越多的软件都开始支持向量检索，用户可以被模型宠溺的越来越懒，相信这个状况一定会有所改善。

图片等数据的向量化处理

言归正传，我们先来实现第一套搜索引擎的处理逻辑，将图片进行向量化处理和存储到向量数据库中。

将图片进行向量化处理

为了方便我们测试代码功能，先选择流浪地球2剧作中的一帧画面（随便选就行）：

下面这段代码，实现了从 HuggingFace 加载 OpenAI 的 Clip 模型，并对电影流浪地球2 中的我们选择的某一帧画面进行向量化处理，生成可以被存储在 Redis 中的数据的逻辑：

import torch
import numpy as np
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import time

# 默认从 HuggingFace 加载模型，也可以从本地加载，需要提前下载完毕
model_name_or_local_path = "openai/clip-vit-base-patch16"

model = CLIPModel.from_pretrained(model_name_or_local_path)
processor = CLIPProcessor.from_pretrained(model_name_or_local_path)

# 记录处理开始时间
start = time.time()
# 读取待处理图片
image = Image.open("ball-8576.png")
# 处理图片数量，这里每次只处理一张图片
batch_size = 1

with torch.no_grad():
    # 将图片使用模型加载，转换为 PyTorch 的 Tensor 数据类型
    # 你也可以在这里对图片进行一些特殊处理，裁切、缩放、超分、重新取样等等
    inputs = processor(images=image, return_tensors="pt", padding=True)
    # 使用模型处理图片的 Tensor 数据，获取图片特征向量
    image_features = model.get_image_features(inputs.pixel_values)[batch_size-1]
    # 将图片特征向量转换为 Numpy 数组，未来可以存储到数据库中
    embeddings = image_features.numpy().astype(np.float32).tolist()
    print('image_features:', embeddings)
    # 打印向量维度，这里是 512 维
    vector_dimension = len(embeddings)
    print('vector_dimension:', vector_dimension)
    # 计算整个处理过程的时间
    end = time.time()
    print('%s Seconds'%(end-start))

将上面的代码保存为 app.py，执行 python app.py 后，不出意外，我们就能够得到这张图片的向量数据、向量数据的维度、以及处理时间啦：

image_features: [-0.4382634162902832, -0.3964928984642029, 0.23583322763442993, -0.31856775283813477, -0.2937283515930176, 0.13698264956474304, -0.32216179370880127, 0.2034275382757187, 0.11416329443454742, 0.08056379109621048, 
...
    -0.2022382766008377, -0.3622089624404907, 0.14547640085220337, 0.20014266669750214, -0.08147376030683517, 0.24707356095314026, 0.1416967660188675, 0.305078387260437, 0.5607554316520691, -0.005001917481422424]

vector_dimension: 512

0.10873532295227051 Seconds

这部分的代码开源在了 GitHub 的 soulteary/simple-image-search-engine/steps/1.how-to-embededing，有需要可以自取，注释都写的比较详尽啦，就不赘述啦。

获取一万张图片的有序列表

目录中的图片，虽然有序号，但是倘若直接用程序读取图片列表，我们很难保障获取的图片顺序。而有序的存储图片，有利于后续继续拓展这个图片搜索引擎的能力，比如：实现视频搜索引擎，或者实现自动分段视频剪辑工具，连续的内容，一般是连续序列存放。

import os

image_directory = "images"

# 使用列表推导式获取目录中所有的 PNG 图片名称
png_files = [filename for filename in os.listdir(image_directory) if filename.endswith(".png")]

# 根据文件名中的数字部分进行排序
sorted_png_files = sorted(png_files, key=lambda x: int(x.split('-')[-1].split('.')[0]))

# 打印排序后的 PNG 图片名称列表
for idx, png_file in enumerate(sorted_png_files, start=1):
    print(f"{idx}: {png_file}")

将上面的内容保存为 app.py，然后再次使用 python app.py 执行代码，就能够获得有序的文件列表啦：

1: ball-001.png
2: ball-002.png
3: ball-003.png
4: ball-004.png
5: ball-005.png
6: ball-006.png
7: ball-007.png
8: ball-008.png
9: ball-009.png
...
10391: ball-10391.png
10392: ball-10392.png
10393: ball-10393.png

这部分的代码保存在 GitHub 的这个目录：soulteary/simple-image-search-engine/steps/2.get-all-sorted-images。

处理所有的图片数据

将上面的两个代码片段进行合理的组合，我们就能够得到一份依次处理所有图片 embedding 数据的程序啦：

import torch
import numpy as np
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import time
import os

model_name_or_local_path = "openai/clip-vit-base-patch16"
model = CLIPModel.from_pretrained(model_name_or_local_path)
processor = CLIPProcessor.from_pretrained(model_name_or_local_path)

image_directory = "images"
png_files = [filename for filename in os.listdir(image_directory) if filename.endswith(".png")]
sorted_png_files = sorted(png_files, key=lambda x: int(x.split('-')[-1].split('.')[0]))

batch_size = 1

with torch.no_grad():
    for idx, png_file in enumerate(sorted_png_files, start=1):
        print(f"{idx}: {png_file}")
        start = time.time()
        image = Image.open(f"{image_directory}/{png_file}")
        inputs = processor(images=image, return_tensors="pt", padding=True)
        image_features = model.get_image_features(inputs.pixel_values)[batch_size-1]
        embeddings = image_features.numpy().astype(np.float32).tolist()
        print('image_features:', embeddings)
        vector_dimension = len(embeddings)
        print('vector_dimension:', vector_dimension)
        end = time.time()
        print('%s Seconds'%(end-start))

这部分的代码保存在：soulteary/simple-image-search-engine/steps/3.how-to-embededing-all-images。

使用 Redis 存储图片的向量数据

前面的文章中，我们聊过了如何使用 Clip 模型来对图片进行向量化处理，以及如何批量处理大量文件数据，接下来我们来看看如何操作，以上文中最简单的 Embededing 实现为例：

import torch
import numpy as np
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import time
import redis

# 连接 Redis 数据库，地址换成你自己的 Redis 地址
client = redis.Redis(host="redis-server", port=6379, decode_responses=True)
res = client.ping()
print("redis connected:", res)

model_name_or_local_path = "openai/clip-vit-base-patch16"
model = CLIPModel.from_pretrained(model_name_or_local_path)
processor = CLIPProcessor.from_pretrained(model_name_or_local_path)

png_file = "ball-8576.png"

start = time.time()
image = Image.open(png_file)
batch_size = 1

# 初始化 Redis Pipeline
pipeline = client.pipeline()
# 初始化 Redis，先使用 PNG 文件名作为 Key 和 Value，后续再更新为图片特征向量
pipeline.json().set(png_file, "$", png_file)
res = pipeline.execute()
print('redis set keys:', res)

with torch.no_grad():
    inputs = processor(images=image, return_tensors="pt", padding=True)
    image_features = model.get_image_features(inputs.pixel_values)[batch_size-1]
    embeddings = image_features.numpy().astype(np.float32).tolist()
    vector_dimension = len(embeddings)
    print('vector_dimension:', vector_dimension)
    end = time.time()
    print('%s Seconds'%(end-start))
    # 将计算出的 Embeddings 更新到 Redis 数据库中
    pipeline.json().set(png_file, "$", embeddings)
    res = pipeline.execute()
    print('redis set:', res)

Redis 的操作方式和我们之前使用并没有太大的区别，还是走“初始化连接”、“初始化键值”、“合适时机塞数据”的路子。

这部分代码保存在 soulteary/simple-image-search-engine/steps/4.save-embededing-to-redis。

处理并保存所有的向量数据

继续调整和优化上面的程序，我们就可以将所有的图片都进行 embedding 处理和存入 Redis 中啦：

import torch
import numpy as np
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import time
import os
import redis

# 连接 Redis 数据库，地址换成你自己的 Redis 地址
client = redis.Redis(host="redis-server", port=6379, decode_responses=True)
res = client.ping()
print("redis connected:", res)

model_name_or_local_path = "openai/clip-vit-base-patch16"
model = CLIPModel.from_pretrained(model_name_or_local_path)
processor = CLIPProcessor.from_pretrained(model_name_or_local_path)

image_directory = "images"
png_files = [filename for filename in os.listdir(image_directory) if filename.endswith(".png")]
sorted_png_files = sorted(png_files, key=lambda x: int(x.split('-')[-1].split('.')[0]))

# 初始化 Redis Pipeline
pipeline = client.pipeline()
for i, png_file in enumerate(sorted_png_files, start=1):
    # 初始化 Redis，先使用 PNG 文件名作为 Key 和 Value，后续再更新为图片特征向量
    pipeline.json().set(png_file, "$", png_file)

batch_size = 1

with torch.no_grad():
    for idx, png_file in enumerate(sorted_png_files, start=1):
        print(f"{idx}: {png_file}")
        start = time.time()
        image = Image.open(f"{image_directory}/{png_file}")
        inputs = processor(images=image, return_tensors="pt", padding=True)
        image_features = model.get_image_features(inputs.pixel_values)[batch_size-1]
        embeddings = image_features.numpy().astype(np.float32).tolist()
        print('image_features:', embeddings)
        vector_dimension = len(embeddings)
        print('vector_dimension:', vector_dimension)
        end = time.time()
        print('%s Seconds'%(end-start))
        # 更新 Redis 数据库中的文件向量
        pipeline.json().set(png_file, "$", embeddings)
        res = pipeline.execute()
        print('redis set:', res)

将程序保存后执行，等待所有数据处理完毕，我们再进行构建索引操作，这里我的电脑大概运行了 10 分钟。

这部分代码保存在 soulteary/simple-image-search-engine/steps/5.save-all-embededing-to-redis。

当一切都执行完毕之后，我们观察 Redis 的容器进程，能够看到类似下面的内容：

8:M 14 Nov 2023 11:39:20.525 * Background saving terminated with success
8:M 14 Nov 2023 11:44:21.093 * 100 changes in 300 seconds. Saving...
8:M 14 Nov 2023 11:44:21.097 * Background saving started by pid 21
21:C 14 Nov 2023 11:44:21.707 * DB saved on disk
21:C 14 Nov 2023 11:44:21.708 * Fork CoW for RDB: current 1 MB, peak 1 MB, average 1 MB
8:M 14 Nov 2023 11:44:21.799 * Background saving terminated with success

我们可以手动执行一个命令，确保 Redis 将所有数据都正确存储了下来。

docker exec -it reids bash -c "echo BGREWRITEAOF | redis-cli"

执行完毕，当看到下面的带有“Background AOF rewrite finished successfully”的提示，数据就都被安全的存储下来啦：

8:M 14 Nov 2023 12:01:58.364 * Background append only file rewriting started by pid 69
69:C 14 Nov 2023 12:01:58.962 * Successfully created the temporary AOF base file temp-rewriteaof-bg-69.aof
69:C 14 Nov 2023 12:01:58.963 * Fork CoW for AOF rewrite: current 1 MB, peak 1 MB, average 1 MB
8:M 14 Nov 2023 12:01:59.022 * Background AOF rewrite terminated with success
8:M 14 Nov 2023 12:01:59.022 * Successfully renamed the temporary AOF base file temp-rewriteaof-bg-69.aof into appendonly.aof.5.base.rdb
8:M 14 Nov 2023 12:01:59.036 * Removing the history file appendonly.aof.4.base.rdb in the background
8:M 14 Nov 2023 12:01:59.050 * Background AOF rewrite finished successfully

查看数据目录，这 135M 的数据里，就包含了上万个图片的特征向量啦。

# du -hs redis-data

135M	redis-data

我们可以编写一段简单的程序，来验证存储的数据是否正确：

import redis

# 连接 Redis 数据库，地址换成你自己的 Redis 地址
client = redis.Redis(host="redis-server", port=6379, decode_responses=True)
res = client.ping()
print("redis connected:", res)

res = client.json().get("ball-1234.png")
print(res)

执行完毕，正常的情况下，我们将得到文件的 embedding 数据。不过，目前这些数据都是以 KEY-VALUE 模式存储在数据库里。想要真正使用上向量化数据查询方式，我们还需要进行最后一步操作：建议向量索引。

构建向量索引

关于向量数据库实现的相似性检索，以及不同向量类型的差异，我在这篇《向量数据库入坑指南：聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss》文章中提到过，感兴趣可以自行翻阅。

这里我们使用最简单的平面索引，这种索引方式的内存使用量最低，因为会采取遍历式搜索，所以别名被称为“暴力搜索”。

import redis
from redis.commands.search.field import VectorField
from redis.commands.search.indexDefinition import IndexDefinition, IndexType

# 连接 Redis 数据库，地址换成你自己的 Redis 地址
client = redis.Redis(host="redis-server", port=6379, decode_responses=True)
res = client.ping()
print("redis connected:", res)

# 之前模型处理的向量维度是 512
vector_dimension = 512
# 给索引起个与众不同的名字
vector_indexes_name = "idx:ball_indexes"

# 定义向量数据库的 Schema
schema = (
    VectorField(
        "$",
        "FLAT",
        {
            "TYPE": "FLOAT32",
            "DIM": vector_dimension,
            "DISTANCE_METRIC": "COSINE",
        },
        as_name="vector",
    ),
)
# 设置一个前缀，方便后续查询，也作为命名空间和可能的普通数据进行隔离
# 这里设置为 ball-，未来可以通过 ball-* 来查询所有数据
definition = IndexDefinition(prefix=["ball-"], index_type=IndexType.JSON)
# 使用 Redis 客户端实例根据上面的 Schema 和定义创建索引
res = client.ft(vector_indexes_name).create_index(
    fields=schema, definition=definition
)
print("create_index:", res)

当程序执行完毕之后，我们将得到 create_index: OK 的结果。这个过程可能会需要几秒钟，当我们看到 Redis 后台日志出现下面的内容时，索引就构建完毕啦：

8:M 14 Nov 2023 13:04:24.834 * <module> Scanning index idx:ball_indexes in background: done (scanned=10393)

如果你不放心，还可以手动查询下向量索引的数量，看看和你的原始图片数量对不对的上。

import redis

# 连接 Redis 数据库，地址换成你自己的 Redis 地址
client = redis.Redis(host="redis-server", port=6379, decode_responses=True)
res = client.ping()
print("redis connected:", res)

vector_indexes_name = "idx:ball_vss"

# 从 Redis 数据库中读取索引状态
info = client.ft(vector_indexes_name).info()
# 获取索引状态中的 num_docs 和 hash_indexing_failures
num_docs = info["num_docs"]
indexing_failures = info["hash_indexing_failures"]
print(f"{num_docs} documents indexed with {indexing_failures} failures")

当我们执行完上面的代码后，将得到下面的日志输出：

10393 documents indexed with 0 failures

嗯，和我们的图片素材一致。引构建完毕后，我们就能够使用程序来进行向量查询检索啦。

实现以图搜图功能

图片搜索引擎，可以有很多能力，我们先来实现相对技术含量最高的一种：以图搜图。

import torch
import numpy as np
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import time
import redis
from redis.commands.search.query import Query

model_name_or_local_path = "openai/clip-vit-base-patch16"
model = CLIPModel.from_pretrained(model_name_or_local_path)
processor = CLIPProcessor.from_pretrained(model_name_or_local_path)

vector_indexes_name = "idx:ball_indexes"

client = redis.Redis(host="redis-server", port=6379, decode_responses=True)
res = client.ping()
print("redis connected:", res)

start = time.time()
image = Image.open("ball-8576.png")
batch_size = 1

with torch.no_grad():
    inputs = processor(images=image, return_tensors="pt", padding=True)
    image_features = model.get_image_features(inputs.pixel_values)[batch_size-1]
    embeddings = image_features.numpy().astype(np.float32).tobytes()
    print('image_features:', embeddings)

# 构建请求命令，查找和我们提供图片最相近的 30 张图片
query_vector = embeddings
query = (
    Query("(*)=>[KNN 30 @vector $query_vector AS vector_score]")
    .sort_by("vector_score")
    .return_fields("$")
    .dialect(2)
)

# 定义一个查询函数，将我们查找的结果的 ID 打印出来（图片名称）
def create_query_table(query, query_vector, extra_params={}):
    result_docs = (
        client.ft(vector_indexes_name)
        .search(
            query,
            {
                "query_vector": query_vector
            }
            | extra_params,
        )
        .docs
    )
    print(result_docs)
    for doc in result_docs:
        print(doc['id'])

create_query_table(query, query_vector, {})

end = time.time()
print('%s Seconds'%(end-start))

在上面的代码里，其实最关键的有三个细节。

第一个是，在之前的对图片进行向量化的过程中，我们是将向量数据从 Tensor 类型数据使用 tolist 转换为 list 数据。

在这里，因为要进行 Redis 查询，我们需要将数据使用 tobytes 进行转换，如果我们将数据打印出来，大概是这样样子：

image_features: 

b'\xc7\n\x80>\xec\xd4+\xbfK\xee:\xbe\xd3\r\x10>\x8d\xe1\x80\xbeI\xed\xdd\xbef\xc5\xaf\xbd@*\x8f\xbd\xd8\x04\x8e>\x8e\xf32?V&\x04?\xf4P\xc0=O\xac\x07\xbe\xbc\xa5$>\xa9\xf6\xf0\xbe\xc9\xb7i>
... 
... 
... 
>HG\xf4\xbc\xbfA\x8d>\x06\xfcL\xbdh\xe4\r\xbd\xc6\x9a\xaa\xbc\x99&E>\xe2Sn?w\xf6\xa0>M\x8d\x88?oa\x1d\xbeXO\xc6>\xa2\x10\x0c\xbe\xff\xd7\xfb='

第二个细节是我们需要在 query 中实现，关于 Redis 能够支持的搜索方式，在官方文档里有非常详细的记录，可以移步：

from redis.commands.search.query import Query

...

# 构建请求命令，查找和我们提供图片最相近的 30 张图片
query_vector = embeddings
query = (
    Query("(*)=>[KNN 30 @vector $query_vector AS vector_score]")
    .sort_by("vector_score")
    .return_fields("$")
    .dialect(2)
)

最后，我们需要使用这个封装的函数，来获取我们找到的最接近的图片的名称（字段 ID），这主要借助了 Redis 的 commands/ft.search/：

# 定义一个查询函数，将我们查找的结果的 ID 打印出来（图片名称）
def dump_query(query, query_vector, extra_params={}):
    result_docs = (
        client.ft(vector_indexes_name)
        .search(
            query,
            {
                "query_vector": query_vector
            }
            | extra_params,
        )
        .docs
    )
    print(result_docs)
    for doc in result_docs:
        print(doc['id'])

dump_query(query, query_vector, {})

当我们执行代码之后，将能够得到一串结果，包含了和我们提交查询图片最接近的图片：

...

ball-8576.png
ball-8595.png
ball-8596.png
ball-8591.png
ball-8592.png
ball-8305.png
ball-8579.png
ball-8310.png
ball-8161.png
ball-2818.png

>>>
>>> end = time.time()
>>> print('%s Seconds'%(end-start))
0.08090639114379883 Seconds

目前，我们还在设计第一阶段的程序，还没有方便用户使用的界面。所以，我们手动找到这些图片，来进行对比，看看程序通过模型找的图片像不像？

似乎还挺靠谱的嘛。

当然，这只是图片搜索引擎的一部分能力，下一篇文章，我们来探索更多的内容，包括实现图片搜索引擎中的第二个部分，用户交互流程部分。

最后

原本以为，我把上一篇文章单独拆出来之后，这篇文章一整篇就能把图片搜索引擎架构中，常见的两个主要部分都讲完，没想到还需要再拆一篇。

那么，下一篇文章见。

—EOF

我们有一个小小的折腾群，里面聚集了一些喜欢折腾、彼此坦诚相待的小伙伴。

我们在里面会一起聊聊软硬件、HomeLab、编程上、生活里以及职场中的一些问题，偶尔也在群里不定期的分享一些技术资料。

关于交友的标准，请参考下面的文章：

致新朋友：为生活投票，不断寻找更好的朋友

当然，通过下面这篇文章添加好友时，请备注实名和公司或学校、注明来源和目的，珍惜彼此的时间

关于折腾群入群的那些事

本文使用「署名 4.0 国际 (CC BY 4.0)」许可协议，欢迎转载、或重新修改使用，但需要注明来源。署名 4.0 国际 (CC BY 4.0)

本文作者: 苏洋

创建时间: 2023年11月15日
统计字数: 20431字
阅读时间: 41分钟阅读
本文链接: https://soulteary.com/2023/11/15/use-redis-to-build-a-lightweight-vector-database-application-image-search-engine-part-1.html

你可能感兴趣的:(为了不折腾而去折腾的那些事,数据库,redis,搜索引擎,向量数据库,图片搜索引擎,视频搜索引擎)

人形机器人报告：新一代GPU、具身智能与AI应用小报告达人机器人人工智能
今天分享的是人形机器人系列深度研究报告：《人形机器人专题：新一代GPU、具身智能与AI应用》。（报告出品方：中泰证券）核心观点GTC2024召开在即，关注新一代GPU、具身智能、AI应用三大方向。GTC2024将于当地时间3月18-21日在美国加州圣何塞会议中心及线上举行，预计发布加速计算、生成式AI以及机器人领域突破性成果。建议关注三大方向：1）B100及后续芯片路线。B100预计采用Black
centOS7使用yum安装报错的解决办法小泊客 lLinux学习开发语言 linux 运维 ssh 网络运维开发
一、错误提示信息：[root@localhost/]#sudoyuminstallbash-completionCouldnotretrievemirrorlisthttp://mirrorlist.centos.org/?release=7&arch=x86_64&repo=os&infra=stockerrorwas14:curl#7-"Failedtoconnectto2a05:d012:8
组件化开发之02 cocoapods 远程私有库 dzb1060545231 iOS 开发专栏免费
上一讲我们讲到了如何创建本地私有仓库,关于远程私有库就是我们按照cocoapods的一些规范创建一个自己的私有索引文件库和一个自己的私有库代码仓库,私有索引库存放我们私有库的podspec索引文件,后边更改了私有库版本内容,就将私有库的podsepc文件提交到这个私有索引库仓库里.接下来我会具体的讲解如何去生成这样一个远程私有索引库仓库,方便公司内部开发人员去使用这个远程私有库.///这是笔者电脑
numpy学习笔记10：arr *= 2向量化操作性能优化宁宁可可 #机器学习 #Python基础与进阶 numpy 学习笔记
numpy学习笔记10：arr*=2向量化操作性能优化在NumPy中，直接对整个数组进行向量化操作（如arr*=2）的效率远高于显式循环（如foriinrange(len(arr)):arr[i]*=2）。以下是详细的解释：1.性能差异的原理(1)底层实现不同显式循环（错误示范）：Python的for循环是解释执行的，每次迭代需要动态解析变量类型、执行函数调用等操作。对每个元素的操作会触发多次Py
Python前端开发 PITSU 正则表达式 html css3 mysql
Python前端开发1.前端三剑客（HTML，CSS和JavaScript）1.1HTML1.1.1HTML简介HyperTextMark-upLanguage,指的是超文本标记语言；html是开发网页的语言；html中的标签大多数都是成对出现的,格式:1.1.2HTML结构第一行是文档声明部分HTML：分为页头，页身和页脚。标签大部分是成对出现1.1.3第一行文档声明部分HTML在vscode中
从0到1，在Ubuntu 20.04 下编译 openWRT 姓张名江叫大江软路由 ubuntu linux openwrt
从0到1，在Ubuntu20.04下编译openWRT/LELD/老毛子固件（跳过八大坑，你就是赢家！）0.申明1.Virtualbox下载与安装2.Linux系统下载与安装2.1Ubuntu下载2.2在Virtualbox中安装Ubuntu3.固件编译4.老毛子固件编译5.后话0.申明本教程所用的软件及代码均是免费开源的，请大家自觉遵守相关的开源协议。在此向开源软件及开源代码的作者们致敬。因本人
工厂方法模式、简单工厂模式与抽象工厂模式的对比智想天开工厂方法模式简单工厂模式抽象工厂模式
原文地址:工厂方法模式、简单工厂模式与抽象工厂模式的对比更多内容请关注：深入思考与解读设计模式引言在面向对象设计中，工厂模式是一种常用的创建型设计模式，帮助我们在不直接暴露对象创建逻辑的情况下，生成对象。你是否曾经在开发过程中遇到过对象创建的需求？你是否觉得对象的创建过程可能随着系统的复杂性增加而变得越来越繁琐？如果我们有一种方法能够简化和统一对象创建的过程，是否能提高代码的灵活性和可维护性？工厂
【RabbitMQ】RabbitMQ中死信交换机是什么？延迟队列呢？有哪些应用场景？熏鱼的小迷弟Liu 中间件 rabbitmq ruby 分布式
1.死信交换机(DeadLetterExchangeDLX)1.1什么是死信交换机？死信：在RabbitMQ中，无法被消费者正常处理的消息称为死信(DeadLetter)。死信交换机：用于接收死信的交换机。当消息成为死信时，RabbitMQ会将其重新路由到死信交换机，再由死信交换机根据绑定规则路由到死信队列。1.2消息成为死信的条件1.消息被拒绝：消费者调用basic.reject或basic.n
【RabbitMQ】RabbitMQ如何保证消息不丢失？熏鱼的小迷弟Liu 中间件 rabbitmq 分布式
为了保证消息不丢失，需要在生产者、RabbitMQ本身和消费者三个环节采取相应措施。1.生产者端：确保消息发送成功1.1开启消息确认机制(PublisherConfirms)原理：生产者发送消息后，RabbitMQ会返回一个确认(ACK),表示消息已成功接收。1.2开启事务机制(Transactions)原理：生产者发送信息后，可以通过事务机制确保信息被成功接收。注意：事务机制性能较低，推荐消息确
初识HTML中的div块元素—零基础自学网页制作猿说前端 html web开发
块元素基础属性讲解元素是个有故事的元素，这个元素很早就出现在html超文本标记语言中，它设计之初就是为了解决网页页面布局的需求。但是遗憾的是它出生后一直怀才不遇。在我还上初中的时候，智能手机还没有出现，更没有平板电脑等移动设备。上网是通过摆在桌子上的计算机来完成的。那时，大街小巷上有好多网吧。那时，马云刚刚辞去工作准备创业。那时，发送邮件的操作都会出现在计算机课程中。那时，对页面还没有现在的跨平台
Ubuntu下编译OpenWrt的详细教程艾丽丝的爱情 ubuntu linux 运维编程
OpenWrt是一个基于Linux的嵌入式操作系统，常用于路由器等网络设备。本文将为您提供在Ubuntu操作系统下编译OpenWrt的完整教程。步骤1：安装必要的软件包首先，我们需要安装一些必要的软件包来支持OpenWrt的编译过程。在终端中运行以下命令来安装这些软件包：sudoaptupdatesudoaptinstallbuild-essentiallibncurses5-devzlib1g-
java毕业设计，在线水果商城系统爱编程的小哥 java毕设 java 课程设计 spring boot vue
天天生鲜在线商城系统技术解密|SpringBoot+Vue3企业级实战（附高并发场景解决方案）一、系统全景解读该系统是生鲜电商全流程解决方案，采用SpringBoot3+Vue3+ElementPlus技术栈，覆盖商品管理、智能分类、订单处理、用户画像等核心场景，通过RBAC权限控制+OSS图片存储+高并发库存管理三大技术亮点，日均支撑5000+商品、10万+订单的电商需求。系统以蓝白清新界面+实
华为仓颉编程语言与医疗领域的深度融合：技术与实践想成为高手499 华为人工智能服务器
引言在数字化浪潮席卷全球的背景下，医疗行业的智能化转型已成为一种不可逆的趋势。从电子病历（EMR）、医疗影像分析，到远程手术和个性化健康管理，技术创新正在不断推动医疗领域的变革。然而，这一过程对底层技术提出了更高的要求：高效的计算性能、强大的硬件适配性、分布式计算能力以及生态系统的支持。华为推出的自研编程语言仓颉（Cangjie）正是在此背景下应运而生。仓颉语言以其高效、灵活和强大的硬件整合能力，
当现代教育技术遇上仓颉---探秘华为仓颉编程语言与未来教育技术的接轨想成为高手499 华为服务器 php
引言随着人工智能、物联网、区块链等新兴技术的发展，编程语言的需求也在不断演化。据市场研究机构发布的数据显示，全球编程语言市场规模预计在未来五年内将以每年10%的速度增长。此外，越来越多的企业和高校正在积极推动基于分布式系统和硬件优化的新型语言开发，这进一步表明对高性能编程语言的需求日益旺盛。近年来，华为推出了自研编程语言“仓颉”，以其高效的语法设计、灵活的语义表达能力和强大的跨平台适配性能引发了编
AIGC与教育行业的邂逅--其在数学领域的应用与实现想成为高手499 AIGC
引言在数学教学中，教师往往需要大量的时间准备练习题和答案解析，而学生则需要定制化的练习来满足不同的学习需求。AIGC技术可以通过自动生成数学题目、定制化学习内容、即时反馈等方式，极大地提升数学学习的效率与质量。本文将深入探讨AIGC在数学领域的几种应用场景，并通过Python代码展示具体实现方式。1.自动生成数学题目与解析数学题目生成是AIGC在数学教学中的主要应用之一。通过生成不同难度和类型的题
c# lambda表达式基础语法无敌最俊朗@ c#语法学习 c#开发语言
Lambda表达式基础Lambda表达式是一种简洁的定义匿名函数的方式。它们通常用于需要传递函数作为参数或返回值的场景。Action委托Action和Action是.NET中预定义的委托类型，用于表示没有返回值的方法。没有参数列表的ActionActiona1=()=>{Console.WriteLine("没有参数列表");};a1();Action：表示没有参数且没有返回值的方法。()=>{.
springboot整合mybatis分页插件不生效问题潘令 spring boot mybatis java 后端
原因分析做项目时发现导入分页插件的场景启动器后，分页插件不生效，一直查询出所有数据上网搜索发现分页插件不生效主要有以下原因：1、没有导入分页插件的场景启动器，而是导入了普通的分页插件依赖com.github.pagehelperpagehelper5.1.10导入该依赖后还需要进行额外的配置1).在MyBatis配置xml中配置拦截器插件<propertyname="param1&
Matlab基于BP神经网络与NSGA-II的多目标工艺参数优化方法天天酷科研工艺参数优化 matlab 神经网络工艺参数优化
Matlab基于BP神经网络与NSGA-II的多目标工艺参数优化方法一、方法原理与框架BP神经网络的作用BP神经网络通过建立工艺参数与目标性能（如翘曲变形、收缩率、硬度等）之间的非线性映射关系，作为代理模型替代复杂的物理仿真或实验。其优势在于：能够处理多输入-多输出的复杂非线性关系，例如激光功率、扫描速度与熔覆层性能的关联。在注塑成型中，预测体积收缩率和翘曲变形的相对误差可控制在5%以内。通过正交
用LangChain构建自愈式生成式AI：颠覆传统知识库的智能问答系统实战煜bart 机器人人工智能 python AI编程
引言：当生成式AI遇到自进化架构ChatGPT的惊艳表现让企业意识到生成式AI的潜力，但传统问答系统仍面临数据孤岛、知识更新滞后等痛点。本文将揭秘如何通过LangChain框架构建具有自进化能力的智能问答系统，实现企业知识库的实时动态更新与智能推理。通过本文，您将掌握一套让AI系统在运行中持续学习、自主优化的创新架构。---##一、核心技术突破###1.1自愈式数据管道（Self-healingP
RabbitMQ支持的复杂的消息交换模式啊sen丶 rabbitmq 分布式
RabbitMQ支持多种复杂的消息交换模式，这些模式通过不同的交换机类型和队列特性实现，能够满足多样化的业务需求。以下是RabbitMQ支持的主要复杂消息交换模式：1.DirectExchange（直连交换机）直连交换机根据消息的路由键（RoutingKey）将消息路由到与该路由键绑定的队列。如果一个队列绑定了多个路由键，它将接收所有匹配的消息。-特点：简单直接，一对一匹配。-适用场景：适用于消息
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
nginx性能优化有哪些方式？企鹅侠客 linux 面试 nginx 性能优化 php
0.运维干货分享软考高级系统架构设计师备考学习资料软考高级网络规划设计师备考学习资料KubernetesCKA认证学习资料分享信息安全管理体系（ISMS）制度模板分享免费文档翻译工具(支持word、pdf、ppt、excel)PuTTY中文版安装包MobaXterm中文版安装包pinginfoview网络诊断工具中文版Nginx是一个高性能的HTTP服务器和反向代理服务器，但在高并发场景下，仍然有
使用码云搭建CocoaPods远程私有库倾云鹤 IOS cocoapods xcode ios
一、创建远程私有索引库用来存放私有框架的详细描述信息.podspec文件1.创建私有库假设码云上创建的私有库为repo-spec2.查看本地已存在的索引库podrepolist3.将远程私有索引库添加到本地podrepoadd[https://gitee.com/jingluoguo/repo-spec.git](https://gitee.com/lsapp_dev/repo-spec.git)
在德国观看中文视频的免费网站总结--涵盖几乎中文各类所有视频 zilan23
1.独播库https://www.duboku.tv/2.欧乐影院https://www.olevod.com/3.一帆视频https://www.ifsp.tv/tv-series
单片机flash存储也做磨损均衡 zhongvv 应广单片机应用框架应广单片机算法实现单片机磨损均衡数据存储单片机开发 flash读写
最近在做一个项目，需要保存设置数据，掉电不丢失。那么首先想到的是加个24c02，是一个eeprom，但是客户板太小，没有办法进行扩展。后面就找了一个带ee的OTP单片机，发现擦写次数有限，只有1000次，这明显就不是ee，就是一片flash。感觉1000次的擦写，太少了，那怎么样才能提高使用次数呢？后面就想到，当前的很多固态硬盘都不是slc的颗粒，也同样可以用好久。那么是使用什么技术达到呢，那就是
solution的一知半解 zilan23 英文
1.solution作为“解决办法；解答”意义时，后接介词to,for,of均可Perhapseconomyisthesolutionof/toyourfinancialtroubles.也许节约是解决你财务困难的办法。Thereseemstobenosolutiontotheproblem.这个问题似乎没有解决的办法。Wehavenowworkedoutabettersolutionforthe
在Qt代码中使用Windows事件机制WaitForMultipleObjects、SetEvent 令狐掌门深入浅出C++Qt开发技术 qt windows 开发语言 SetEvent
在Qt开发客户端时，经常使用信号槽来处理控件或窗口之间的事件，如果是Windows系统，也可以用windows事件来代替Qt的信号槽，本篇博客来介绍这种用法。首先需要介绍本篇本篇博客需要用到的几个WindowsAPI:一、需要用到的WindowsAPIWaitForMultipleObjectsWaitForMultipleObjects是WindowsAPI中一个用于同步操作的函数。它主要用于等
基于STM32的儿童误锁车内远程报警系统(华为云IOT) DS小龙哥智能家居与物联网项目实战 stm32 嵌入式硬件单片机华为云
一、项目背景汽车发展历史汽车自上个世纪末诞生以来，已经走过了风风雨雨的一百多年。汽车经过百年历史的演变，已经在世界各地获得广泛的普及和应用，但是事物总会具有两面性，汽车方便了人们生活的同时也带来了不安全的因素。儿童的出行和乘车安全始终都是我国现代汽车安全技术研究的主要方向。随着乘车安全的普及，在一定程度上提高了公众对于自家孩子乘车的安全意识，许多家长都在后座配置了儿童座椅。但是仍无法避免儿童误锁车
复旦：过程奖励优化多模态推理大模型任我行大模型-模型训练人工智能自然语言处理语言模型论文笔记
标题：VisualPRM:AnEffectiveProcessRewardModelforMultimodalReasoning来源：arXiv,2503.10291摘要我们引入了VisualPRM，这是一种具有8B参数的高级多模态过程奖励模型（PRM），它通过Best-of-N（BoN）评估策略提高了现有多模态大型语言模型（MLLM）在不同模型尺度和族之间的推理能力。具体来说，我们的模型提高了三
python中strip()，lstrip()，rstrip()函数的讲解使用方法高质量海王哦 python python
在Python中，strip()、lstrip()和rstrip()是用于处理字符串的三个常用方法，它们的作用都是去除字符串两端的空白字符或指定字符，但它们的去除位置有所不同。下面是它们的详细讲解：1.strip()方法strip()方法用于去除字符串两端的空白字符（默认情况下，包括空格、换行符、制表符等），或者去除指定的字符序列。语法：string.strip([chars])chars：可选参
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f