kimi o1和deepseek o1对比,非常直观!

kimi o1和deepseek o1对比,非常直观!

刘俊是 丁师兄大模型 2025年01月25日 21:34 湖北

两家凑巧同一天放出了解题推理模型,简单对比着看了下实现方案,o1 类模型实现并没有和大家早期推测的那样用上 MCTS,PRM 这些方法,个人感觉也是太复杂的方法 scaling 不了。

目前各家用的方案看起来更像是 sft+rl 的加强版,把推理过程内含进生成,而不是用结构去引导生成。两家效果看报告比较接近,个有所长。

code 和 math deepseek 强了一点点,kimi 支持 vision。base 的 rl 基于 token o1 的 rl 基于思考过程

你可能感兴趣的:(LLM大语言模型,人工智能)