与大模型交手近 1500 天,智源仍在坚持原始创新

前言

2024 上半年, OpenAI 的成果从世界模拟器 Sora,到首个实现多模态 in 到多模态 out 的 GPT-4o ,仍在强势推进着迈向 AGI 的节奏。面对技术上的差距,追赶 OpenAI ——是这场人工智能革命浪潮发展至今, AI 界仍在追求的目标和努力的方向。

但其实,当下的 AI 技术尚处于高速迭代的过程,依然有非常多有挑战性的问题没有被解决,而其中的研究趋势和范式也不一定只有 OpenAI 才能引领。国内对人工智能对研究不应是亦步亦趋,也不应止于 OpenAI。

几乎与 OpenAI 同期捕捉到大模型的机遇,2018 即年成立的北京智源人工智能研究院推出我国首个大模型「悟道」,并一直承担着中国在人工智能行业原始创新的角色。一位悟道大模型的早期参与者告诉 AI 科技评论,「眼光和魄力」力是智源在在本次大模型浪潮中的可贵之处,甚至在最开始国内大模型起步阶段,智源会毫不犹豫地给予经费和算力支持。

如今的智源已走过 6 个年头,在第六届北京智源大会上值得注意的是,不同于以往从悟道 1.0 到 3.0 所推出的系列模型,本次智源推出了大模型全家桶,分别是大语言模型系列、多模态模型系列、具身智能大模型、生物计算大模型。这背后的原因是,今年 2 月王仲远接任智源研究院院长,带领智源团队基于大模型通往 AGI 的技术路径的研判,对未来三到五年的战略规划进行了重新的梳理和判断。

「智源不会去做各企业已经在做的、重复性事情,而是去做原始性的创新,要去攻克的是业界的关键痛点抑或是前沿技术的热点,真正为中国去做技术突破。」智源人工智能研究院院长王仲远说道。

基于这一理念,在具身智能、生物计算等十分前沿的领域中,智源起到提前布局的开创性引领作用,打出了「人无我有」的先手,推出了具身大模型,在机器人泛化动作执行和智能大小脑决策控制等方面取得了多项世界级突破性成果。在国内发展尚不成熟的生物计算大模型中,智源研发了全原子生物分子模型OpenComplex 2。

在国内争相突破万亿语言模型的节奏下,智源能做到「人有我优」,研发了全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T。多模态大模型层面,智源并没有采用 DiT 架构,而是押注自回归路线研发了原生多模态世界模型 Emu 3,同时也推出了轻量级图文多模态模型系列 Bunny-3B/4B/8B。

正如智谱 CEO 张鹏在智源大会上所说,智源从最早被定义成为 NGO 的偏新型研发机构,发展到今天已成为国内甚至国际人工智能领域的一面旗帜。智源也已经为中国人工智能界奠定了研究基础,培养了诸多当下业界中的顶尖人才,使得后人能够站在巨人的肩膀上进一步看到更广阔的 AI 世界。

而当下的智源亦坚持初衷,不懈怠脚步。「令人惊艳的东西不能只出现在大洋的彼岸。」王仲远说道。

1、0-1 的原始性创新

「大模型的思潮和很多技术都是从智源发展起来的。」百川智能创始人王小川在 2024 智源大会上说道。

当下,非营利性科研组织站位使得智源既有技术高度,又有智库的角色,能更多的进行0-1的原始性创新。

解决万亿参数模型的收敛痛点

万亿参数模型,是今年各大模型厂商的必争之地。

模型规模的提升,带来了模型精度的提升,但因为参数量规模过大,也对模型的训练带来了极大的挑战,包括内存需求大、网络通信量大、训练或推理性能低等问题,常常难以收敛。因此,今年市面上见到的更多为稀疏激活模型,较少有单体稠密的万亿参数模型。

可以说,现在的大模型生态格局中,缺少一个单体稠密万亿参数模型。王仲远告诉 AI 科技评论,智源在做的事是解决这一痛点,当某家厂商需要训练万亿乃至更大规模参数模型的时候,无需从头去解决收敛等一系列问题,开源社区中有一个好的初始化的版本,这时再基于更强的算力和数据量即可对模型进行进一步迭代,不再从头造轮子。

巨大算力消耗是大参数模型无法避开的问题。对此,智源联合中国电信人工智能研究院开发了基于模型生长和损失预测等关键技术,推出全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T能够提高训练效率,降低能耗,实现低碳生长。该模型与百亿级的 52B 版本,千亿级的 102B 版本共同构成Tele-FLM系列模型。

仅以业界普通训练方案9%的算力资源,基于112台A800服务器,用4个月完成3个模型总计2

你可能感兴趣的:(百度,语言模型,人工智能,金融,transformer,神经网络)