[论文笔记] LLM模型剪枝

Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models

        LLaMA2在剪枝时,跳过ffn和跳过full layer的效果差不多。相比跳过ffn/full layer,跳过attention layer的影响会更小。

        跳过attention layer:7B/13B从100%参数剪枝到66%,平均指标只下降1.7~1.8pp。

        跳过ffn:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~15.1pp。

        跳过full later:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~13pp。

        LLaMA2在剪枝时,是否跳过最后一层的ffn/attention layer,影响不大。

The Unreasonable Ineffectiveness of the Deeper Layers

        剪枝崩溃临界点:不同模型的剪枝崩溃临界点不同,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%。

      

你可能感兴趣的:(论文笔记,论文阅读,剪枝,算法)