NLP高频面试题(二十一)——deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的
DeepSeek从V1到V3不断迭代升级,在模型架构、训练方法和推理能力等方面取得了显著进步。对于关注前沿大模型技术的研究者而言,深入理解DeepSeek各版本的改进要点及其对模型性能的影响,具有重要的参考价值。本文将按照时间线梳理DeepSeekV1、V2、V3的核心技术演变,包括架构调整(如混合专家MoE、注意力机制优化)、训练数据规模变化、训练目标改进、推理效率优化(如并行化、KV缓存优化)