llama.cpp试用

显存占用是真的低,13B vicuna int4量化,example/chat-13B.sh 正常问答交流,不到2G的占用。相比之下,vicuna7B原版int8量化,8G显卡下,cuda会OOM (原版不支持int4量化)。chatglm6B int4量化,显存占用仍然需要6G。

你可能感兴趣的:(llama)