谷歌刚刚在其人工智能之旅中迈出了下一步,推出了最新、最伟大的人工智能模型Gemini 1.0!
详细信息请看:https://fostmar.online/archives/317/
谷歌推出Gemini语言模型,碾压GPT-4!谷歌Gemini 1.0革新,推出Gemini Ultra、Gemini Pro和Gemini Nano模型。Gemini Ultra强大但慢,Gemini Pro通用,Gemini Nano高效。Gemini模型在多领域与ChatGPT竞争,尤其Gemini Pro已应用于Bard。Gemini模型预计将在2024年通过Bard Advanced发挥更大作用。谷歌Gemini的灵活定价将融入Google产品,如搜索和Chrome。谷歌Gemini模型在AI领域显示出强大的性能和潜力。https://fostmar.online/archives/317/
Google 已经推出了其大型语言模型(LLM)Gemini 的三个不同版本,共同构成了“Gemini 1.0”,即该软件的首个版本。这些版本分别是:
目前,Google 已经发布了 Gemini Pro,并在 Bard 中使用。此外,Google 还为 Pixel 8 推出了 Gemini Nano,成为第一款使用这一技术的手机,为“录音机中的总结”应用程序和 WhatsApp 的智能回复等新功能铺平了道路。
至于 Gemini Ultra,谷歌仍在进行调整,计划在 2024 年发布 Bard 的新版本 Bard Advanced 时推出。
Google 还计划在 2024 年进一步扩展 Gemini 的应用范围,尽管具体细节尚未公布,但他们提到这将覆盖搜索、广告、Chrome 和 Duet AI 等主要产品领域。据谷歌称,他们已经在搜索中使用 Gemini 进行“实验”,并通过它实现了将延迟减少 40% 的成果。
谷歌声称 Gemini 能够超越 ChatGPT。事实上,超越 ChatGPT 是 Gemini 的一大卖点。但目前看来,Gemini 驱动的 Bard 是否能实现这一宣传目标还有待观察。
谷歌声称,只有“Ultra”版本的 Gemini 才能击败 ChatGPT。根据早期报告,Ultra 版本确实在多个领域中略胜一筹。然而,这个版本要到 2024 年才能正式发布。目前,人们更多地将 Gemini Pro 与 ChatGPT 的免费版本 GPT-3.5 进行比较,而且对比结果并不尽如人意。
能力分类 | 基准测试 | 描述 | 更高分数更好 | Gemini Ultra | GPT-4 |
---|---|---|---|---|---|
通用 | MMLU | 57个主题(包括STEM、人文等)的问题表示 | 是 | 90.0% | 86.4%(5-shot, 报告) |
推理 | Big-Bench Hard | 需要多步骤推理的多样化挑战性任务 | 是 | 83.6%(3-shot) | 83.1%(3-shot, API) |
阅读理解 | DROP | 阅读理解(F1分数) | 是 | 82.4(变量shots) | 80.9(3-shot, 报告) |
常识推理 | HellaSwag | 日常任务的常识推理 | 是 | 87.8%(10-shot*) | 95.3%(10-shot*, 报告) |
数学 | GSM8K | 基础算术操作(包括小学数学问题) | 是 | 94.4%(maj1@32) | 92.0%(5-shot CoT, 报告) |
数学 | MATH | 挑战性数学问题(包括代数、几何、预备微积分等) | 是 | 53.2%(4-shot) | 52.9%(4-shot, API) |
编码 | HumanEval | Python代码生成 | 是 | 74.4%(0-shot, IT*) | 67.0%(0-shot*, 报告) |
编码 | Natural2Code | Python代码生成,未泄露在网上的新保留数据集,类似HumanEval | 是 | 74.9%(0-shot) | 73.9%(0-shot, API) |
图像 | MMMU | 大学级多学科推理问题 | 是 | 59.4%(0-shot pass@1, 仅Gemini Ultra*) | 56.8%(0-shot pass@1, GPT-4V) |
图像 | VQAv2 | 自然图像理解 | 是 | 77.8%(0-shot, 仅Gemini Ultra*) | 77.2%(0-shot, GPT-4V) |
图像 | TextVQA | 自然图像中的OCR | 是 | 82.3%(0-shot, 仅Gemini Ultra*) | 78.0%(0-shot, GPT-4V) |
图像 | DocVQA | 文档理解 | 是 | 90.9%(0-shot, 仅Gemini Ultra*) | 88.4%(0-shot, GPT-4V) |
图像 | Infographic VQA | 信息图表理解 | 是 | 80.3%(0-shot, 仅Gemini Ultra*) | 75.1%(0-shot, GPT-4V) |
图像 | MathVista | 视觉环境中的数学推理 | 是 | 53.0%(0-shot, 仅Gemini Ultra*) | 49.9%(0-shot, GPT-4V) |
视频 | VATEX | 英语视频字幕(CIDEr) | 是 | 62.7(4-shot, Gemini Ultra) | 56.0(4-shot, DeepMind Flamingo) |
视频 | Perception Test MCQA | 视频问答 | 是 | 54.7%(0-shot, Gemini Ultra) | 46.3%(0-shot, SeViLA) |
音频 | CoVoST 2(21种语言) | 自动语音翻译(BLEU分数) | 是 | 40.1(Gemini Pro) | 29.1(Whisper v2) |
音频 | FLEURS(62种语言) | 自动语音识别(基于错误率,越低越好) | 否 | 7.6%(Gemini Pro) | 17.6%(Whisper v3) |
例如,《The Verge》的 Nilay Patel 曾指出,他曾向由 Gemini 驱动的 Bard 提出重要问题,结果 Bard 自信地提供了不存在的链接。《大西洋月刊》的 Matteo Wong 则认为,尽管 Gemini 在多数指标上都超过了 GPT-4,但这只是一次“迭代进步”,并非颠覆性的飞跃。
尽管 ChatGPT 也有其缺陷,比如偏好人工智能幻觉并存在一些需要修复的漏洞,但谷歌仍需证明 Gemini 真的能给 ChatGPT 用户留下深刻印象。至少到目前为止,它还没有做到这一点。
Gemini 是 Google 的一项增值服务,将被整合到众多产品中,从大家都在使用的搜索引擎到 Chrome 浏览器。这些服务中的许多是免费的,尽管技术上你需要为广告数据付费。
目前,你可以免费以有限的方式使用 Gemini。体验 Gemini 最简单的方法是通过 Bard,此外,你还可以在 Pixel 8 中体验 Gemini。但未来,这项 AI 工具可能会成为付费服务的一部分。目前还不清楚它会成为一个付费附加组件,还是会被包含在某些企业服务中。
与此相比,ChatGPT 拥有更简单的定价模式。任何人都可以通过分享电子邮件地址和电话号码来免费注册。此外,还有每月 20 美元的 ChatGPT Plus 付费等级,提供更高级的 LLM 服务和一些需要额外付费的 ChatGPT 插件。最后,还有面向企业的 ChatGPT 层,提供按需定价。
目前,谷歌已在其数十亿用户每天使用的免费产品中使用人工智能,包括搜索、YouTube、Gmail、谷歌地图、Google Play 和 Android。不久的将来,谷歌可能会悄悄地在这些服务中推出 Gemini。从一方面来看,你无需为每月订阅支付额外费用,但另一方面,你可能无法完全避免使用 Gemini。
目前,Bard 聊天机器人平台由 Bard LLM 和 Gemini Pro LLM 提供支持。Gemini 系列的全面推出将是一个缓慢的过程,可能会涉及旧的法律硕士与更新、更高效的 Gemini LLM 的类似组合。对于用户来说,这一切都将在幕后进行。
当 Ultra 在 2024 年发布时,它将挑战 ChatGPT 的地位。测试显示,它已在 32 个类别中的 30 个类别中超越了 OpenAI 的模型。
“我们最强大的模型 Gemini Ultra 在 32 个基准测试中的 30 个中提升了最先进水平,包括 12 个流行的文本和推理基准测试中的 10 个、9 个图像理解基准测试中的 9 个、6 个视频理解基准测试中的 6 个以及 5 个语音识别和语音翻译基准测试中的 5 个。” – Jeff Dean,谷歌 DeepMind 首席科学家。
与此同时,ChatGPT 的数据模型则是直接从互联网上获取的公开数据。GPT-3.5 和 GPT-4 模型都使用了截至 2021 年 9 月的数据。