Deepseek两项关键发现:无需人类专家介入SFT、有自己

Deepseek R1-Zero关键两项发现:无需人类专家、有自己专业领域语言DSL,也就是没有SFT,有自己DSL!

ARC Prize基金会对DeepSeek发布的R1-Zero和R1“推理”系统的分析。

ARC Prize基金是谁?
ARC Prize基金会旨在定义、衡量并激励新的AGI(通用人工智能)想法。目前尚未实现AGI,主流AI行业和公众普遍认为通过扩大纯语言模型(LLM)的预训练规模就能实现突破,但ARC Prize基金会认为这并非通往AGI的正确路径。

DeepSeek发布了R1-Zero和R1系统
这些系统在ARC-AGI-1基准测试中表现与OpenAI的o1系统相当,但R1-Zero不依赖人类专家标注(SFT),仅使用强化学习(RL)。

性能对比:

  • R1-Zero:14%的准确率,无SFT,无搜索,平均11K tokens,成本0.11美元。

  • R1:15.8%的准确率,使用SFT,无搜索,平均6K tokens,成本0.06美元。

  • o1(低):20.5%的准确率,使用SFT,无搜索,平均7K tokens,成本0.43美元。

  • o3(低):75.7%的准确率,使用SFT,搜索+采样,平均335K tokens,成本20美元。

R1-Zero展示了在没有人类专家标注的情况下,通过强化学习也能实现有效的推理能力,这对于减少人类数据生成的瓶颈具有重要意义。

推理系统的三个关键维度

  • 人类标注(SFT):通过人类专家标注中间推理步骤,提升推理系统的准确性和通用性。
  • 推理搜索(CoT Search):通过并行的每步推理搜索,而不是线性推理,提升推理系统的适应性。
  • 整体采样(Whole CoT Sampling):通过并行轨迹推理,进一步提升推理系统的性能。

R1-Zero的关键发现

  • 无需SFT:R1-Zero证明在具有强验证的领域(如数学和编程),无需人类专家标注也能实现清晰且准确的推理。
  • 内部领域特定语言(DSL):R1-Zero通过强化学习在token空间中创建了自己的内部DSL,但目前还无法发现更广泛的共享词汇。
  • 未来研究方向:未来的研究可能会集中在如何通过强化学习发现更通用的词汇,以提升推理系统的通用性。

 AI推理系统的经济影响

  • 可靠性与成本:AI推理系统现在可以通过增加计算成本来提升准确性和可靠性,这将推动对推理计算的巨大需求。
  • 训练成本向推理成本转移:未来的AI系统将更多地在推理阶段投入成本,而不是在训练阶段。
  • 数据生成的转变:推理系统可以通过搜索、合成和验证生成“真实”数据,而不是依赖于传统的预训练数据。这种数据生成方式可能会导致AI系统开发者之间的权力集中,因为拥有更多付费用户的开发者能够生成更多高质量数据,从而提升模型性能。

R1的开放性和可复现性将促进更多团队探索推理和搜索的极限,推动创新,增加实现AGI的可能性。R1-Zero和R1的发布为AI领域带来了新的研究方向和经济模式,未来可能会看到更多基于这些系统的创新和突破。

其他DeekSeek相关:
1、微软免费为Copilot的所有用户提供了Think Deeper。现在,每个人都可以在Copilot中免费访问OpenAI世界级的o1推理模型。

2、DeepSeek-R1-Distill-Qwen-1.5B-ONNX模型完全在客户端使用 webgpu:

  • https://github.com/sdan/r1-web

https://www.jdon.com/77300.html

你可能感兴趣的:(javascript,reactjs)