谈谈DeepSeek-v3在算力约束下的出色工作

谈谈DeepSeek-v3在算力约束下的出色工作

原创 渣B zartbot 2024年12月28日 22:52 上海

寒冷的周末, 加完班挤点时间读个论文吧. Deepseek-v3仅用了2048块H800 GPU就超越了Llama 3 405B模型, 要知道Meta训练Llama3可是用了16384块H100, 而DSv3的训练成本非常低

谈谈DeepSeek-v3在算力约束下的出色工作_第1张图片

在所有人追求更大规模集群的时候, Deepseek这样的工作只有一个词评价: Respect!

其实还有另一件事情让渣B内心深处与之共振了一下, 上周末12.20是我们量化基金算法十周年的纪念日. 十年前渣B和合伙人在张爱玲故居常德公寓的咖啡馆里, 突然想到了一个并行和近似计算的算法, 当天回

你可能感兴趣的:(Deepseek原理与使用,人工智能)