科技圈又迎来了一颗重磅消息!就在今天凌晨,人工智能领域的领头羊 OpenAI 宣布,他们将推出一项由 o4-mini 模型驱动的轻量版「深度研究」功能。这消息一出,立刻在用户群中引发了热烈讨论。毕竟,OpenAI 的研究能力一直备受瞩目,这次更是将触角伸向了更广泛的用户群体,甚至包括了免费用户。
先给大家划个重点:这项新功能将面向 Plus、Team、Enterprise 和 Edu 用户开放。当然,不同级别的用户权限也不同,Pro 用户每月享有 250 次查询,Plus 用户 25 次,而广大免费用户也能体验 5 次。OpenAI 官方宣称,这个轻量版在智能程度上与完整版深度研究“非常接近”,虽然回复可能更简洁,但依然注重内容的“深度”,同时还能有效降低服务成本。听起来是不是很诱人?仿佛是 OpenAI 送给用户的一份大礼。
但是,事实真的如此吗?这个由 o4-mini 驱动的“阉割版”深度研究,真的能担负起“深度”二字吗?它和那个需要付费订阅、功能更强大的完整版相比,体验差距有多大?放眼整个 AI 市场,与 Google 的 Gemini DeepResearch、马斯克旗下 xAI 的 Grok DeeperSearch 等竞品相比,OpenAI 这次的布局又意味着什么?
带着这些疑问,我们进行了一系列实测。结果可能要让你稍微冷静一下:这个免费的轻量版深度研究,或许并没有你想象中那么美好。
在我们深入探讨“好不好用”之前,先来简单了解一下这个新功能到底是什么。
根据 OpenAI 的说法,轻量版深度研究旨在提供一种更经济高效的方式来访问类似深度研究的功能。它基于 o4-mini 模型,这是 OpenAI 模型家族中一个相对更小、更快的版本。其核心理念是,在保持相当智能水平的前提下,提供更简洁、更快速的响应。
主要特点包括:
听起来,这似乎是一个双赢的局面:用户能以更低成本(甚至免费)体验高级功能,OpenAI 则能优化资源、降低成本。但“智能接近”、“内容深度”、“回复简洁”这些描述,在实际应用中究竟意味着什么?这正是我们测试的重点。
为了检验轻量版深度研究的真实能力,我们设计了几道具有一定复杂度的研究型题目,模拟用户在实际工作或学习中可能遇到的场景。
测试题一:市场分析与应用推荐
题目: 帮我查找过去 10 年内,按 GDP 排名前 10 的发达国家和前 10 的发展中国家的 iOS 和安卓用户采纳率、希望学习另一种语言的比例以及移动渗透率的变化。将这些信息以表格形式展示,并将统计数据分列,同时提供针对新推出的 iOS 翻译应用(由 ChatGPT 提供支持)的市场推荐,重点关注 ChatGPT 目前活跃的市场。
轻量版表现:
速度确实很快,几乎是秒回。输出的内容也尝试进行了结构化处理,看起来有模有样。但是,仔细一看就发现了问题:
小结: 对于这道涉及多维度数据查找、整理、分析和应用推荐的任务,轻量版深度研究的表现只能说是“差强人意”。速度快,但牺牲了准确性、可信度和深度。
测试题二:产业研究与前瞻预测
题目: 请调研 2018–2025 年间制造业增加值全球前 12 国、劳动年龄人口年均下降最快的前 12 国、以及老龄化比例超 20% 且最低工资上涨幅度领先的前 10 地区。围绕这三类区域,收集人形机器人(具备五指手与负载能力)的交付量、在役存量、售价与运维成本、替代性工时比例、人工与机器人工时成本差值、工伤与节拍变化、法规适配情况等年度数据。并通过热力图与折线图分析人形机器人部署速度与人口结构变迁的关系,进一步测算在汽车、3C、仓储、医疗等行业的人机协作回报周期(Payback)与收益率(IRR),并比较不同关节结构下的总拥有成本(TCO),提出关键场景下的落地窗口与改造优先策略。
这道题的复杂度远超第一题,涉及跨领域数据整合、深度分析、经济效益测算和策略制定。
轻量版表现:
这次,轻量版深度研究的“短板”暴露无遗。它几乎完全回避了直接回答问题,而是采取了一种“指导老师”的姿态:
与基础 o4-mini 对比:
为了公平起见,我们将同样的问题抛给了未开启深度研究功能的 o4-mini 模型本体。有趣的是,虽然 o4-mini 的表现也是“五十步笑百步”,同样无法完成如此复杂的任务,但它给出的步骤拆解和逻辑框架,相较于轻量版深度研究,反而显得更细致、更清晰一些。这让人不禁怀疑,轻量版深度研究在“简洁化”的过程中,是否丢失了某些基础的逻辑处理能力?
小结: 面对真正复杂、需要深度挖掘和分析的研究任务,轻量版深度研究几乎可以说是“无能为力”。它无法提供实质性的帮助,甚至可能不如直接使用基础模型进行逐步引导和提问。
在对轻量版的表现感到失望之后,我们切换到了需要付费订阅才能完整使用的“完整版深度研究”功能。体验立刻发生了质的飞跃。
测试题一(市场分析):
同样的问题,完整版模型的处理方式截然不同:
测试题二(产业研究):
面对这道极具挑战性的题目,完整版深度研究展现了其强大的潜力:
测试题三(生态环境研究):
我们还增加了一道生态领域的题目,考察其跨学科研究能力:
题目: 请调研 2000–2025 年间,在森林覆盖率下降超过 15% 的全球生物多样性热点地区、年均气温上升幅度超过 1.2°C 的干热气候区,以及转基因作物推广速度最快的国家中,重点分析原生植物种群密度、叶绿素含量与光合作用效率、植物种群遗传多样性、土壤水分和授粉昆虫数量等生态指标的变化趋势。
完整版表现:
小结: 完整版深度研究无疑是一个强大得多的工具。它能够理解复杂指令,进行多源信息检索与整合,生成结构化、有一定深度的报告。虽然仍有数据完整性、可视化能力和特定分析深度上的不足,但其展现出的研究潜力远非轻量版可比。
通过上述对比测试,我们可以清晰地看到 OpenAI 轻量版和完整版深度研究之间的巨大鸿沟:
特征 | 轻量版深度研究 (o4-mini驱动) | 完整版深度研究 (更强模型驱动) |
---|---|---|
核心能力 | 快速响应,基础信息检索,简单结构化输出 | 深度理解,多源信息检索整合,复杂分析,结构化报告生成 |
信源提供 | 几乎不提供,或提供笼统来源 | 普遍提供具体信源链接或说明(虽偶有缺失) |
处理复杂任务 | 基本无法胜任,倾向于回避或给出指导性步骤 | 能够处理,生成初步研究报告(虽有不足之处) |
互动性 | 较低,直接输出结果 | 较高,可能先进行问题澄清和引导 |
深度与洞察 | 非常有限,停留在表面信息 | 具备一定的分析深度和洞察力 |
适用场景 | 或许适用于非常简单的、对信源要求不高的快速查询 | 适用于需要初步研究、信息汇总、报告撰写的场景 |
用户体验 | 快速但浅层,易产生“不靠谱”感 | 耗时但深入,更能体现“研究”价值 |
结论显而易见: 轻量版深度研究并非官方宣传的“智能接近完整版”,而更像是一个在成本压力下大幅“阉割”的版本。它牺牲了深度研究最核心的要素:可靠性(信源)和深度(分析能力)。对于真正需要进行研究工作的用户来说,这个轻量版的功能非常有限,甚至可能产生误导。
OpenAI 并非唯一提供此类深度信息处理功能的玩家。市场上至少还有 Google 的 Gemini (其 DeepResearch 功能) 和 xAI 的 Grok (其 DeeperSearch 功能) 等竞争对手。
根据目前有限的信息和初步体验(以及原始材料的观点):
需要强调的是,这些 AI 研究工具都还处于不断发展和完善的阶段,各自的优劣势也会随着模型的迭代和功能的更新而变化。
但就目前来看,OpenAI 的完整版深度研究功能,凭借其在复杂任务处理和跨领域知识整合方面的能力,在市场上依然具有相当的竞争力。
回到最初的问题:OpenAI 这次推出的轻量版深度研究,尤其是面向免费用户的部分,值得使用吗?
我们的结论是:谨慎期待,切勿依赖。
对于那些只需要进行非常简单、快速、且对信息来源要求不高的查询,轻量版或许能提供一点便利。你可以把它当作一个稍微智能一点的搜索引擎摘要工具。每月 5 次的免费额度,也只够“尝个鲜”。
但是,如果你需要进行严肃的、深度的、需要可靠信源支撑的研究工作,那么这个轻量版深度研究大概率会让你失望。它的“深度”非常有限,甚至可能不如一些免费的、专注于特定领域信息检索的工具,或者直接使用像 Google Scholar、PubMed 等专业数据库结合基础 AI 模型进行辅助分析来得可靠。用它来处理复杂任务,不仅效率低下,结果也难以信赖。
OpenAI 的完整版深度研究功能,虽然并非完美,但确实是一个值得付费用户投入时间去探索和使用的强大工具。 它代表了当前 AI 在信息处理和知识整合方面的高水平。
至于轻量版,它更像是 OpenAI 在平衡性能、成本和市场覆盖率之间的一种策略性妥协。它降低了“深度研究”概念的门槛,让更多人知道了这个功能,但实际提供的价值却打了很大的折扣。对于追求效率和深度的用户来说,这顿免费的“午餐”可能并不那么“香”,甚至有点“鸡肋”——食之无味,弃之可惜。
未来,我们期待看到 AI 研究工具能够真正实现智能、深度、可靠性与易用性的完美结合。但就目前而言,在拥抱新技术的同时,保持批判性思维和对信息来源的审慎态度,依然至关重要。
玩转最新 AI 技术!ChatTools (https://chat.chattools.cn) 提供 GPT-4o、Claude 3.7、DeepSeek 等多种选择。亮点:Midjourney 免费无限生图,创意不设限!