当DeepSeek R1在 2025 年初横空出世时,几乎没有人预料到它会在短短时间内掀起如此巨大的风浪:不仅在技术维度上令行业侧目,更让人瞩目的是它带来的“开源浪潮”。在此之前,全球大语言模型几乎都走闭源路线,动辄耗资几十亿,难以被普通团队或个人复制。DeepSeek却以“低算力、高效率、主动拥抱开源”理念实现了弯道超车,让所有人重新审视中国AI的潜力。
与此同时,随着 DeepSeek 的爆火,中国科技企业乃至整个资本市场的估值体系都在被重构。两大“AI 巨头”——OpenAI 与百度——先后被 DeepSeek“卷”得不得不放低姿态,转向更开放的策略。舆论甚至用 “Sputnik Moment”(斯普特尼克时刻)来形容美国面对 DeepSeek 所产生的危机感。
过去的主流大模型研发之所以闭源,根本原因在于成本极其高昂。
然而,DeepSeek 选择了与众不同的道路:一方面有效地减少算力消耗,另一方面侧重后期的强化学习反复打磨。具体做法可以概括为 “低算力 + 高效率 + 强强化”。结论就是——训练成本仅为OpenAI相似模型的十分之一甚至更低,却并未牺牲质量。
PTX编程攻坚
DeepSeek在技术白皮书中提到,它借助PTX(Parallel Thread Execution)对 GPU 底层模块进行了深度定制。例如,将部分 SM(Streaming Multiprocessor)单元改装为数据传输专用模块,加快多 GPU 间的协同速度,缓解大模型训练最大的瓶颈之一——数据传输与同步。
跳过监督微调,直奔强化学习
不同于传统大模型普遍使用的预训练 + 监督微调,再搭配 RLHF(人类反馈强化学习)的方式,DeepSeek选择直接利用类似 GRPO(群体相对策略优化)的强化学习策略,省去了繁琐的人类监督调优阶段。
DeepSeek的母公司——幻方量化——本身是一家资金与算力都极为雄厚的量化私募。
这一背景也决定了DeepSeek的底气:不但开源了模型与论文,还把蒸馏方法、数据集处理策略等核心环节一并公开,让全球开发者都能在其生态中发挥创造力。
DeepSeek在 2025 年 1 月 20 日推出 R1 模型后,仅一周就获得 1 亿新增用户,DAU(每日活跃用户)也在短短半个月内攀升至 3000 万,逼近 ChatGPT 的 5323 万。这惊人的增速给全球 AI 赛道带来巨大冲击,“AI巨头”不得不重新审视自身策略。
除了 OpenAI 与百度,其他云服务商、电信运营商、手机与车企等纷纷抢滩 DeepSeek 生态。
DeepSeek 引领的 AI 浪潮让全球投资者重新检视中国科技公司的实力。
长期以来,中国科技企业在国际资本市场中往往被低估。
而 DeepSeek 的横空出世,让人们意识到:中国企业在 AI 核心技术、底层硬件加速与产业化整合能力上,正在快速赶超甚至部分领域实现反超。这种新的信心也传导到资本市场,引发普遍的“价值重估”。
在美国对 DeepSeek 的报道里,“Sputnik Moment” 频繁出现。这个典故源自 1957 年苏联成功发射人类第一颗人造卫星,引发美国在太空竞赛上的焦虑与大力追赶。
DeepSeek 的爆发式成功,足以称得上为全球 AI 产业注入了一条巨大的“鲶鱼”,搅动了整片水域。
正如业内人士所言,“在 AI 竞赛中,垂直化突破、开放式协作与长期主义方能赢得最终胜利。” DeepSeek 的横空出世,正是对这一论断最生动的诠释:它启示更多人,只有尊重技术内核、注重资源配置与开放共享,才能在激烈的全球竞争中脱颖而出。未来数年,我们或将见证更多来自中国本土的 AI 创新,为世界带来新的冲击与惊喜。