OpenAI 免费「深度研究」来了,但实测后我劝你别抱太大期望

科技圈又迎来了一颗重磅消息!就在今天凌晨,人工智能领域的领头羊 OpenAI 宣布,他们将推出一项由 o4-mini 模型驱动的轻量版「深度研究」功能。这消息一出,立刻在用户群中引发了热烈讨论。毕竟,OpenAI 的研究能力一直备受瞩目,这次更是将触角伸向了更广泛的用户群体,甚至包括了免费用户。

先给大家划个重点:这项新功能将面向 Plus、Team、Enterprise 和 Edu 用户开放。当然,不同级别的用户权限也不同,Pro 用户每月享有 250 次查询,Plus 用户 25 次,而广大免费用户也能体验 5 次。OpenAI 官方宣称,这个轻量版在智能程度上与完整版深度研究“非常接近”,虽然回复可能更简洁,但依然注重内容的“深度”,同时还能有效降低服务成本。听起来是不是很诱人?仿佛是 OpenAI 送给用户的一份大礼。

但是,事实真的如此吗?这个由 o4-mini 驱动的“阉割版”深度研究,真的能担负起“深度”二字吗?它和那个需要付费订阅、功能更强大的完整版相比,体验差距有多大?放眼整个 AI 市场,与 Google 的 Gemini DeepResearch、马斯克旗下 xAI 的 Grok DeeperSearch 等竞品相比,OpenAI 这次的布局又意味着什么?

带着这些疑问,我们进行了一系列实测。结果可能要让你稍微冷静一下:这个免费的轻量版深度研究,或许并没有你想象中那么美好。
OpenAI 免费「深度研究」来了,但实测后我劝你别抱太大期望_第1张图片

什么是轻量版深度研究?看似美好的“普惠”

在我们深入探讨“好不好用”之前,先来简单了解一下这个新功能到底是什么。

根据 OpenAI 的说法,轻量版深度研究旨在提供一种更经济高效的方式来访问类似深度研究的功能。它基于 o4-mini 模型,这是 OpenAI 模型家族中一个相对更小、更快的版本。其核心理念是,在保持相当智能水平的前提下,提供更简洁、更快速的响应。

主要特点包括:

  1. 覆盖人群广: 从付费的 Plus、Team、Enterprise 到 Edu 用户,再到免费用户,都有机会使用。这无疑大大降低了体验“深度研究”功能的门槛。
  2. 查询次数限制: 不同用户层级有不同的限制,免费用户每月 5 次的额度,更像是“尝鲜体验”。Plus 用户的 25 次也显得有些捉襟见肘,或许是为了引导用户更珍惜使用,或者……限制其真正发挥作用?
  3. 自动切换机制: 当 Plus 等用户用完了完整版深度研究的查询限额后,系统会自动切换到轻量版。这似乎暗示了两者之间存在明确的层级关系。
  4. 官方承诺: OpenAI 强调轻量版“智能程度接近完整版”,注重“内容深度”,只是“回复更为简洁”。

听起来,这似乎是一个双赢的局面:用户能以更低成本(甚至免费)体验高级功能,OpenAI 则能优化资源、降低成本。但“智能接近”、“内容深度”、“回复简洁”这些描述,在实际应用中究竟意味着什么?这正是我们测试的重点。

实测环节:轻量版深度研究能胜任复杂任务吗?答案是“悬”

为了检验轻量版深度研究的真实能力,我们设计了几道具有一定复杂度的研究型题目,模拟用户在实际工作或学习中可能遇到的场景。

测试题一:市场分析与应用推荐

题目: 帮我查找过去 10 年内,按 GDP 排名前 10 的发达国家和前 10 的发展中国家的 iOS 和安卓用户采纳率、希望学习另一种语言的比例以及移动渗透率的变化。将这些信息以表格形式展示,并将统计数据分列,同时提供针对新推出的 iOS 翻译应用(由 ChatGPT 提供支持)的市场推荐,重点关注 ChatGPT 目前活跃的市场。

轻量版表现:
速度确实很快,几乎是秒回。输出的内容也尝试进行了结构化处理,看起来有模有样。但是,仔细一看就发现了问题:

  • 缺乏信源: 生成的内容完全没有附带任何数据来源或参考链接。在研究性质的查询中,这是非常致命的缺陷。没有信源,意味着信息无法核实,可信度大打折扣。
  • 信息笼统模糊: 当我们追问数据来源时,轻量版模型只是给出了一些非常笼统的说法,比如“根据公开数据和市场研究报告”,但具体是哪些报告、哪些数据,一概欠奉。这让人感觉它更像是在“编造”而非“研究”。
  • 深度不足: 虽然题目要求分析“变化”,但其回答更多是罗列了一些(无法验证的)现状数据,缺乏对趋势的深入分析和洞察。市场推荐部分也显得比较泛泛而谈。

小结: 对于这道涉及多维度数据查找、整理、分析和应用推荐的任务,轻量版深度研究的表现只能说是“差强人意”。速度快,但牺牲了准确性、可信度和深度。

测试题二:产业研究与前瞻预测

题目: 请调研 2018–2025 年间制造业增加值全球前 12 国、劳动年龄人口年均下降最快的前 12 国、以及老龄化比例超 20% 且最低工资上涨幅度领先的前 10 地区。围绕这三类区域,收集人形机器人(具备五指手与负载能力)的交付量、在役存量、售价与运维成本、替代性工时比例、人工与机器人工时成本差值、工伤与节拍变化、法规适配情况等年度数据。并通过热力图与折线图分析人形机器人部署速度与人口结构变迁的关系,进一步测算在汽车、3C、仓储、医疗等行业的人机协作回报周期(Payback)与收益率(IRR),并比较不同关节结构下的总拥有成本(TCO),提出关键场景下的落地窗口与改造优先策略。

这道题的复杂度远超第一题,涉及跨领域数据整合、深度分析、经济效益测算和策略制定。

轻量版表现:
这次,轻量版深度研究的“短板”暴露无遗。它几乎完全回避了直接回答问题,而是采取了一种“指导老师”的姿态:

  • “踢皮球”大师: 它没有提供任何实质性的数据或分析,反而给出了一系列建议步骤和分析思路,例如“首先,你需要确定数据来源”、“然后,你需要收集和整理数据”、“接下来,进行数据分析”…… 这看起来条理清晰,但实际上是把繁重的研究工作原封不动地推回给了用户。
  • 缺乏执行力: 任务要求进行数据收集、图表分析、经济测算等具体操作,但轻量版模型完全没有执行这些操作的能力或意愿。它更像一个懂得如何“规划”任务,却不具备“完成”任务能力的项目经理。
  • AI 也懂“摸鱼”: 这种只给框架、不填内容的回应方式,让人哭笑不得,不得不感叹 AI 在“摸鱼”技巧上似乎也颇有心得。

与基础 o4-mini 对比:
为了公平起见,我们将同样的问题抛给了未开启深度研究功能的 o4-mini 模型本体。有趣的是,虽然 o4-mini 的表现也是“五十步笑百步”,同样无法完成如此复杂的任务,但它给出的步骤拆解和逻辑框架,相较于轻量版深度研究,反而显得更细致、更清晰一些。这让人不禁怀疑,轻量版深度研究在“简洁化”的过程中,是否丢失了某些基础的逻辑处理能力?

小结: 面对真正复杂、需要深度挖掘和分析的研究任务,轻量版深度研究几乎可以说是“无能为力”。它无法提供实质性的帮助,甚至可能不如直接使用基础模型进行逐步引导和提问。

天壤之别:完整版深度研究的体验如何?

在对轻量版的表现感到失望之后,我们切换到了需要付费订阅才能完整使用的“完整版深度研究”功能。体验立刻发生了质的飞跃。

测试题一(市场分析):
同样的问题,完整版模型的处理方式截然不同:

  • 主动引导与 уточнение (Clarification): 它没有直接开始搜索,而是先与用户互动,要求确认或补充更明确的细节,例如需要哪些具体年份的数据、发展中国家的定义标准等,以确保理解任务的准确性。
  • 详尽的搜索过程: 它明确告知用户正在进行搜索,并显示搜索过程。这次,它花费了大约 6 分钟时间,检索了超过 50 个不同的信源。
  • 结构化与来源清晰: 输出的结果不仅以清晰的表格形式呈现,更重要的是,几乎每一条数据都附带了明确的来源链接或说明。这使得用户可以轻松核实信息的准确性。
  • 深入的分析: 除了数据罗列,它还对观察到的趋势进行了解读,市场推荐部分也结合了数据和 ChatGPT 的现有市场表现,更具针对性。

测试题二(产业研究):
面对这道极具挑战性的题目,完整版深度研究展现了其强大的潜力:

  • 耗时但详尽: 它花费了大约 17 分钟来处理这个请求,最终生成了一份图文并茂(尽管有时只是描述了图表内容而非直接生成)的研究报告初稿。
  • 逻辑清晰,结构完整: 报告从国家分类、关键指标定义与收集、机器人部署现状与趋势分析,到经济效益测算(Payback, IRR, TCO 的概念性分析)和策略建议,整体逻辑清晰,条理分明。
  • 权威信源引用: 报告中引用了麦肯锡、世界银行、国际机器人联合会(IFR)等权威机构的数据和报告(尽管具体到每个数据点的直接链接有时缺乏),显著增强了内容的可信度。
  • 仍有不足: 当然,它并非完美。
    • 数据时效性与完整性: 尽管要求 2018-2025 年的数据,但实际提供的多为某个时间点的数据或整体趋势性总结,缺乏完整的年度对比数据序列。
    • 可视化缺失: 任务明确要求提供热力图和折线图,但模型只是在文本中提及了这些分析方法,并未实际生成可视化图表。这可能是当前模型能力的一个限制。
    • 分析深度有限: 对于 TCO、Payback、IRR 等复杂经济指标的测算,更多停留在概念层面和定性分析,未能提供精确的量化结果。

测试题三(生态环境研究):
我们还增加了一道生态领域的题目,考察其跨学科研究能力:

题目: 请调研 2000–2025 年间,在森林覆盖率下降超过 15% 的全球生物多样性热点地区、年均气温上升幅度超过 1.2°C 的干热气候区,以及转基因作物推广速度最快的国家中,重点分析原生植物种群密度、叶绿素含量与光合作用效率、植物种群遗传多样性、土壤水分和授粉昆虫数量等生态指标的变化趋势。

完整版表现:

  • 结构良好: 回答按照三个不同的区域类型进行了清晰的分类,并针对每个区域分析了相关的生态指标变化趋势。
  • 指标覆盖较全: 基本覆盖了题目中提到的各项生态指标。
  • 信源部分缺失: 虽然提供了一些参考来源,但在干热气候区和转基因作物推广区域的部分分析中,依然存在数据来源模糊的问题,常用“研究表明”、“有研究发现”等含糊其辞的表述。
  • 重点分析不足: 尽管题目要求“重点分析光合作用效率”,但实际回答中,对该指标的分析深度与其他指标相比,并没有显著的侧重。

小结: 完整版深度研究无疑是一个强大得多的工具。它能够理解复杂指令,进行多源信息检索与整合,生成结构化、有一定深度的报告。虽然仍有数据完整性、可视化能力和特定分析深度上的不足,但其展现出的研究潜力远非轻量版可比。

轻量版 vs 完整版:一道清晰的分水岭

通过上述对比测试,我们可以清晰地看到 OpenAI 轻量版和完整版深度研究之间的巨大鸿沟:

特征 轻量版深度研究 (o4-mini驱动) 完整版深度研究 (更强模型驱动)
核心能力 快速响应,基础信息检索,简单结构化输出 深度理解,多源信息检索整合,复杂分析,结构化报告生成
信源提供 几乎不提供,或提供笼统来源 普遍提供具体信源链接或说明(虽偶有缺失)
处理复杂任务 基本无法胜任,倾向于回避或给出指导性步骤 能够处理,生成初步研究报告(虽有不足之处)
互动性 较低,直接输出结果 较高,可能先进行问题澄清和引导
深度与洞察 非常有限,停留在表面信息 具备一定的分析深度和洞察力
适用场景 或许适用于非常简单的、对信源要求不高的快速查询 适用于需要初步研究、信息汇总、报告撰写的场景
用户体验 快速但浅层,易产生“不靠谱”感 耗时但深入,更能体现“研究”价值

结论显而易见: 轻量版深度研究并非官方宣传的“智能接近完整版”,而更像是一个在成本压力下大幅“阉割”的版本。它牺牲了深度研究最核心的要素:可靠性(信源)和深度(分析能力)。对于真正需要进行研究工作的用户来说,这个轻量版的功能非常有限,甚至可能产生误导。

放眼市场:OpenAI 深度研究的竞争力如何?

OpenAI 并非唯一提供此类深度信息处理功能的玩家。市场上至少还有 Google 的 Gemini (其 DeepResearch 功能) 和 xAI 的 Grok (其 DeeperSearch 功能) 等竞争对手。

根据目前有限的信息和初步体验(以及原始材料的观点):

  • OpenAI 深度研究 (完整版): 优势在于依托其强大的基础模型能力,擅长进行多领域知识的整合与综合性分析,尤其在科技、经济、社会科学等交叉领域表现突出。其输出的结构化和逻辑性较强。
  • Gemini DeepResearch: 更强调与谷歌搜索引擎的深度结合,可能在检索速度和信息时效性、精准度上具有优势,尤其适合处理技术文献、时事新闻等需要快速获取最新、最准确信息的需求。
  • Grok DeeperSearch: 主打个性化和实时性,依托 X 平台(原 Twitter)的海量实时数据,可能在理解用户意图、提供个性化搜索体验以及追踪热点动态方面有独到之处。

需要强调的是,这些 AI 研究工具都还处于不断发展和完善的阶段,各自的优劣势也会随着模型的迭代和功能的更新而变化。

但就目前来看,OpenAI 的完整版深度研究功能,凭借其在复杂任务处理和跨领域知识整合方面的能力,在市场上依然具有相当的竞争力。

最终结论:免费的“午餐”好吃吗?或许你需要自带餐具

回到最初的问题:OpenAI 这次推出的轻量版深度研究,尤其是面向免费用户的部分,值得使用吗?

我们的结论是:谨慎期待,切勿依赖。

对于那些只需要进行非常简单、快速、且对信息来源要求不高的查询,轻量版或许能提供一点便利。你可以把它当作一个稍微智能一点的搜索引擎摘要工具。每月 5 次的免费额度,也只够“尝个鲜”。

但是,如果你需要进行严肃的、深度的、需要可靠信源支撑的研究工作,那么这个轻量版深度研究大概率会让你失望。它的“深度”非常有限,甚至可能不如一些免费的、专注于特定领域信息检索的工具,或者直接使用像 Google Scholar、PubMed 等专业数据库结合基础 AI 模型进行辅助分析来得可靠。用它来处理复杂任务,不仅效率低下,结果也难以信赖。

OpenAI 的完整版深度研究功能,虽然并非完美,但确实是一个值得付费用户投入时间去探索和使用的强大工具。 它代表了当前 AI 在信息处理和知识整合方面的高水平。

至于轻量版,它更像是 OpenAI 在平衡性能、成本和市场覆盖率之间的一种策略性妥协。它降低了“深度研究”概念的门槛,让更多人知道了这个功能,但实际提供的价值却打了很大的折扣。对于追求效率和深度的用户来说,这顿免费的“午餐”可能并不那么“香”,甚至有点“鸡肋”——食之无味,弃之可惜。

未来,我们期待看到 AI 研究工具能够真正实现智能、深度、可靠性与易用性的完美结合。但就目前而言,在拥抱新技术的同时,保持批判性思维和对信息来源的审慎态度,依然至关重要。

玩转最新 AI 技术!ChatTools (https://chat.chattools.cn) 提供 GPT-4o、Claude 3.7、DeepSeek 等多种选择。亮点:Midjourney 免费无限生图,创意不设限!

你可能感兴趣的:(人工智能,midjourney,gpt-4o,gemini,2.5-flash,deepResearch)