vLLM专题(十四)-自动前缀缓存

一、介绍

自动前缀缓存(Automatic Prefix Caching,简称 APC)缓存现有查询的 KV 缓存,以便新查询如果与现有查询共享相同的前缀,可以直接重用 KV 缓存,从而跳过共享部分的计算。

注意
有关 vLLM 如何实现 APC 的技术细节,请参阅此处。

二、在 vLLM 中启用 APC

在 vLLM 引擎中设置 enable_prefix_caching=True 以启用 APC。以下是一个示例:

import time
from vllm import LLM, SamplingParams


# A promp

你可能感兴趣的:(大模型专题系列,人工智能)