常见的LLM推理加速解决方案

  • KV Cache
  • int量化
  • PagedAttention
  • GQA
  • Speculative Decoding
    • code
    • Accelerating Generative AI with PyTorch II: GPT, Fast
    • Fast Inference from Transformers via Speculative Decoding

参考

  • PyTorch造大模型“加速包”,不到1000行代码提速10倍!英伟达科学家:minGPT以来最好的教程式repo之一

你可能感兴趣的:(LLM,LLM,llama)