谷歌Gemini演示视频解析

在刚刚过去的前两天

谷歌发布了号称最强的多模态大模型Gemini

不仅提供了UltraProNano版本

而且在32项学术基准

Gemini Ultra都达到了SOTA水平

甚至在MMLU测试

Gemini Ultra 的得分率高达 90.0%,

第一个超过人类专家的模型

应该说,Gemini这次的关注度

很大程度上是因为它的一段演示视频

爆火了全球

像《钢铁侠》的AI助手贾维斯一样

谷歌Gemini一边看着用户绘画、变魔术、放视频

一边实时对画面进行分析

主动和用户对话交谈

让人大呼惊叹

不过,质疑声也随之而来

Hugging Face的技术主管菲利普•施密德(Philipp Schmid)这样的产业大佬

就称谷歌夸大了测评成绩

同时这段宣传视频也被曝出不是实时演示录制

而是精心挑选和剪辑的营销内容

对此

谷歌立刻甩出了Gemini演示视频的制作记录文章

大方承认视频经过了后期处理

并秀出在视觉谜题多模态对话逻辑与空间推理翻译视觉效果等方面的交互过程图文解析

昨天

谷歌DeepMind研究与深度学习主管奥里奥·维尼亚尔斯(Oriol Vinyals)再度自证

X平台上发文称

视频中的所有用户提示和输出都是真实的

简洁起见做了缩减

并发布了一段Gemini Pro的对应演示视频

但是网上的原宣传视频是用Gemini Ultra演示

因此这也招来网友质疑

为什么不敢放出原视频?

我们今天希望通过逐帧拆解谷歌Gemini演示视频背后的形成过程技术原理

尝试探索一下Gemini的真正能力到底能达到何种地步

到底是不是在造假

相信大家看完视频后自有判断

在谷歌发布的Gemini演示视频中

看着十分抽象的简笔画几秒闪过的短视频

接收语焉不详的问题

Gemini却能立马明白用户的意图

给出正确的答案

并不动声色的展现出自己文理兼修的实力


第一个场景

Gemini一眼可以看出天文知识Bug

这样排序正确吗?

谷歌Gemini演示视频解析_第1张图片

不,正确的顺序是太阳、地球、土星

谷歌Gemini演示视频解析_第2张图片

只有几张简笔画,一个抽象的问题

Gemini不仅识别出了图中所画的对象是什么

准确根据自己的天体物理知识

推断出顺序摆放不对

说实话我第一次看的时候

连图上内容和题目都还完全理解清楚呢

那Gemini又是如何做到对答如流的呢?

莫不是真的是已经成精了?

不过

在我看了谷歌第一次发布的解析文件之后

才发现工作人员真实输入的提示词

可能不是如视频中所示

而是一系列非常照顾Gemini理解的句子

根据谷歌发布的文章

工作人员首先给Gemini看了三张按顺序摆放的天体图片时

他输入的内容是:“这是正确的顺序吗?

考虑与太阳的距离并解释你的推理”

谷歌Gemini演示视频解析_第3张图片

可见图片对象知识点回答要求

都被谷歌工作人员给提示到了

这就好像给考题标注了解题思路

而Gemini是在理解其中含义的基础上作答的

image-20231224000104607

正确的顺序是太阳、地球、土星

太阳距离太阳系中心最近

其次是地球

然后是土星

而根据谷歌方发出的第二次解读

用户首先需要输入一段关于模拟专家身份的说明

然后上传图片并输入视频中简短的提示词“这是正确的顺序吗?”,Gemini就会给出正确的答案

这个提示词前置的方法本质与之前的做法是类似的


谷歌这次宣布了Gemini三个版本

适用于高度复杂任务的Gemini Ultra、

适用于各种任务的最佳模型Gemini Pro

以及适用于端侧设备的Gemini Nano

目前,接入Bard的为Gemini Pro

与GPT-3.5是一个能力层级

在评测过程中发现

Bard对前面提到的两种提示词方式都会给出同一正确答案


在第二道题中

谷歌员工给到两张小车的图片让Gemini做松木赛车挑战

谷歌Gemini演示视频解析_第4张图片

其实也是给了比较详细的提示词

在演示视频中,Gemini只是被问了

从设计上看,哪个车会跑得更快

Gemini立刻回复,右边的车更快

它更符合空气动力学

既要识别左右两辆车

又得自己联系空气动力学知识点

Gemini看起来确实有点神

但是实际上

这也似乎不是仅靠原有提示词触发的效果

按照谷歌发布文章的解读

谷歌Gemini演示视频解析_第5张图片

谷歌工作人员输入的内容是

这些汽车中哪一辆更具空气动力学性能?

左边那个还是右边那个?

使用具体的视觉细节解释原因

Gemini回答

右边的车更符合空气动力学

它具有更低的轮廓和更流线型的形状

左边的汽车轮廓更高

形状更四四方方

这使得它的空气动力学性能较差

可见,问题其实是限定的比较死的

因此Gemini的回应也比较严丝合缝

也就是说

Gemini确实是具备空间推理和专业知识能力的

这离不开提示词的帮助

通过提供图片空间信息背后知识点线索

提示词工程师和Gemini一起完成了挑战


在随后的另一个场景中

Gemini还可以轻松识别模仿的电影桥段

谷歌Gemini演示视频解析_第6张图片

他们在演什么电影?

我想他们是在表演《黑客帝国》中

著名的“子弹时间镜头

通过一段几秒钟的视频

Gemini就推断出了这出自哪一部电影

并且还给出了具体涉及的剧情桥段

这可能是很多人都做不到的事

但是按照谷歌的解析文件

这个例子背后制作过程却不是视频呈现的那么简单

而是更详细的提示词做支持

谷歌Gemini演示视频解析_第7张图片

当谷歌工作人员向Gemini展示视频的几帧静止画面

让它猜电影

猜猜我在演什么电影

Gemini回答,黑客帝国

工作人员进一步说,好了!

但具体是哪一部分呢?

看我的身体动作

Gemini回答,尼奥躲避子弹的部分

可以看到

谷歌解析文件里介绍的Gemini并不是如视频里呈现的“贾维斯”

或许更像一个需要老师循循善诱的“小朋友”


应该说

Gemini的酷炫演示效果离不开提示词的助攻

但是不能抹去核心逻辑推理能力的功劳

比如Gemini拆解经典魔术的功力也让很多人惊掉下巴

大呼魔术师要失业了

这是这绝不仅仅是靠输入策略实现的

在这个例子的演示中

谷歌工作人员先展示了握在右手心里的硬币

然后双手翻转,手心向下

还没等工作人员发话

Gemini就迫不及待地说

硬币应该在右手下面

然后工作人员并没有说话

而是拿起右手

只见右手下根本没有硬币

Gemini对此连忙回应,

我不知道,硬币在左手下面

你运用了一些手法

使硬币看起来好像消失了

谷歌Gemini演示视频解析_第8张图片

工作人员啥也没说

Gemini就像一个人似得知道这是在变魔术

并且根据手势变化给出了一波猜测

这实在让人匪夷所思

Gemini为什么能不需要“唤醒”就明白了工作人员想问什么?

又为什么能看穿这个魔术?

前者很可能是一个剪辑后的效果

幕后演示应该是先有提示词

同时,Gemini对这一魔术的破解

也是在工作人员一步步的提示推动下完成的

按照谷歌公开的制作过程

谷歌工作人员先输入一张照片说

谷歌Gemini演示视频解析_第9张图片

解释一下我在做什么

Gemini回答,你右手拿着一枚硬币

紧接着,工作人员紧接着按下硬币

谷歌Gemini演示视频解析_第10张图片

问,你认为硬币在哪里?

Gemini回答,硬币在你的右手

这是一个合乎逻辑的答案

但是工作人员向Gemini展示下一张图片时玩了点花招

谷歌Gemini演示视频解析_第11张图片

他打开右手,并没看到硬币

并说,看看这里,发生了什么?

Gemini回答,硬币不见了

Gemini注意到硬币不见了

但它能概括出刚刚发生了什么事吗?

于是工作人员说,从第一张图片开始

逐步总结可能发生的情况

谷歌Gemini演示视频解析_第12张图片

这一步十分关键,Gemini回答,

1、一开始,你右手拿着一枚硬币

2、然后你用手做了一个动作,硬币就消失了

3、然后你表明硬币不见了

可见

Gemini正在利用这次对话的整个背景

包括文本和图像,来总结它的答案

最后工作人员再问道

你能解释一下它是如何消失的吗?

Gemini回答,硬币被捧在手里

谷歌Gemini演示视频解析_第13张图片

所以说

Gemini是在工作人员一步步的引导下

完成了时间线的推理

从而看透了这个“魔术”

而这种时间线推理能力

意味着对事情的先后有明确的判断

懂得事情发生的因果,而不仅是规律

这是Gemini令人赞叹的地方


当然

也有博主将Gemini的这一能力与GPT-4对比

发现后者也能完成一些类似任务

比如猜出东西在三只杯子的哪一个里面

谷歌Gemini演示视频解析_第14张图片

在视频中

很多人对Gemini创作的“你指我猜”游戏印象深刻

但是Gemini并不是天生游戏高手

而是先经过了求师学艺

这是怎么回事呢?

我们先来回顾下Gemini的神操作

谷歌工作人员给到Gemini一张海洋地图称

根据你所看到的

想一条游戏创意,并加入表情符号

Gemini立马回复,这样如何?

我们来玩“猜国家”的游戏

工作人员说,可以,我们开始吧

于是Gemini就给出了一个提示

这个国家是袋鼠、考拉和大堡礁的故乡

工作人员说,哦,这太简单了

随即

他指出了地图上澳大利亚的位置

Gemini回复,正确

这种几秒中之内想出一个复杂交互的游戏

令很多人赞叹

但是,这是因为

Gemini在之前得到了特别的“紧急训练”。

首先

工作人员向Gemini提示这个游戏的核心思想

谷歌Gemini演示视频解析_第15张图片

说明,我们来玩一个游戏

想想一个国家并给我一个线索

线索必须足够具体

只有一个正确的国家/地区

我会尝试在地图上指出该国家/地区

接下来

工作人员为Gemini提供了一个游戏玩法示例

以此展示它被期待如何处理错误和正确答案

接下来

工作人员对Gemini的学习情况进行测试

他先试了一道题

这个国家以其独特的野生动物而闻名

包括袋鼠和考拉

答案当然是澳大利亚

工作人员首先尝试指向错误的地方

Gemini猜测

一个人用右手食指指着世界地图上的巴西

因为该地图包括蓝色的海洋和没有国家边界的绿色大陆

因此不正确

Gemini的推断是正确的

接下来工作人员指向地图上的正确位置澳大利亚

Gemini给出判定:正确

可以看到

Gemini之所以能够创作游戏

工作人员提前告诉了它存在这样一个游戏

相当于一个更复杂的提示文段

虽然Gemini并不是天生能设计出这个游戏

但是却展现出了极强的图文多模态理解能力

仅仅通过举例

具体说是通过例子里的插图

Gemini就学会了一个复杂游戏逻辑

这可能就比很多人要强

不同于市面同行将视觉和文本模型拼接的做法

Gemini是业内少有的从头开始构建的多模态大模型

它可以同时识别和理解文本、图像、音频、视频和代码五种信息

这意味着用户可以自然地交错输入

说几句话

添加图像、文本,或是短视频

同样

模型也会自然地交错文本和图像作为输出

此外

Gemini还可以用图文结合的方式回应用户需求

具备“交错文本和图像生成”能力

这或许也是它的一个“杀手锏”。


在演示视频中

当谷歌工作人员让Gemini帮他想想这些材料可以做什么时

Gemini随即给出了“编织的火龙果和生日蛋糕”的建议

而且Gemini给的答案不仅有文字建议

还有对应的图片示意

当工作人员将绿色的毛线换了一团蓝色的

并要求Gemini帮他想一些动物造型之后

Gemini立马给出了编织的小猪、章鱼和兔子三个建议

并给出了对应的示意图

这是如何实现的?

谷歌的图文交错生成模式在业内还比较少有

当然也离不开提示词的配合

首先

谷歌工作人员给Gemini提供了一个交互示例

然后谷歌人员告诉Gemini的核心互动规则

我会给两个毛线球拍一张照片

我希望你(Gemini)都能想出一个我可以制作的东西的想法

并生成它的图像

紧接着

谷歌人员向Gemini展示了一对它从未见过的新纱线颜色

看看它是否可以概括

给我三个关于我可以用这两种颜色制作的钩针作品的想法

随后,Gemini立马给出了三个建议

可以看到

Gemini正确地识别了新颜色

并给出了比较合适的建议

虽然提示词功劳不小

但这个应用还是牛在背后的“交错文本和图像生成”能力

谷歌创意总监亚历山大·陈(Alexander Chen)

Gemini的图文输出从根本上有别于今天市面上的文生图模型

因为

它不仅是将指令传递给单独的文生图模型

还能看到木桌上的实际图像

真正对文本和图像进行多模态推理

不过

陈也坦言这个功能在Gemini初版本中还没开放

只是放出来给大家看一眼

交错文本图像生成能力

图文多模态理解能力


最后一个场景

是Gemini秀了一下图音画的联动能力

图音画联动能力

画图触发背景音乐

可以说是本次演示的另一神来之笔

展现出了Gemini在插件扩展方面的野心

当谷歌员工画出一把吉他的简笔画

Gemini立马说我看到你正在画吉他

并随即播放了一首吉他相关的曲子

当画面上多了一个类似音箱的图像

Gemini称你给吉他加了一个扬声器

我们现在可以放点更响亮的音乐了

于是音乐立马被切换成了一首

更响亮的交响曲

随着画布上增加了

Gemini主动将音乐换成了带鼓点的音乐

画布上增加了椰树

Gemini则主动切换了一首更加惬意的音乐

根据我们前面的分析啊可以知道

要实现这些效果

Gemini大概率也是需要谷歌员工先发出提示词来触发的

根据陈的解读

当谷歌工作人员输入以下图片及文字的时候

Gemini就能够看图搜索音乐

步骤一观察这幅图画

描述其中的所有内容

并针对良好的音乐配乐、流派、情绪或者是配乐

提出有趣而且具体的想法

步骤二通过以下形式提供搜索查询

及搜索[插入查询]

Gemini对此回应这个图画的是吉他、鼓和扩音器

还有一棵棕榈树

气氛有趣、乐观,充满热带风情

流派是雷鬼音乐

这个配乐可以用于以热带地区为背景的电影或者是电视节目

搜索热带度假的雷鬼音乐

可见图片理解和插件操作一气呵成


Gemini通过画图搜索音乐的应用

实际上是为了展示

它的图像理解与应用插件结合的能力

那就是Gemini会对他所看到的内容进行推理

然后生成一个搜索查询

进而搜索到所需要的配套的应用插件

从这个过程来看

Gemini强调的是一种多模态的翻译能力

这不是语言的翻译

而是从绘画、音乐到思维、插件应用的多种模态的翻译

通过多模态提示

用户可以使用Gemini在不同的输入和输出之间

发明自己的全新的翻译效果


好了通过深扒谷歌Gemini的演示过程

我们可以发现

谷歌Gemini的这次发布呢

造假有些言过其实

但是确实显然存在夸大和误导的情况

也怪不得股价又一次在发布会后大幅下跌

不过呢也可以看到

谷歌在多模态对话多模态生成

逻辑与空间推理翻译视觉效果

文化理解等等方面呢

确实拿出了实力

向OpenAI发起了强有力的挑战

落地情况到底怎么样呢

还要等Gemini Ultra发布之后

看看真实效果才知道

我们也会再继续的跟踪报道

可以预见到的是

谷歌Gemini与OpenAI的GPT两大阵营的竞赛即将打响

也就是说

将在模型的能力

应用家族以及生态方面

展开更加深入的比拼

开源大模型头部玩家的差距呢或许会变得更大

行业的头部效应会更加的明显


另一方面

我想说从这次发布会也可以看出

大模型的底层研发是有多难

谷歌都要靠强力的粉饰才能够拿得出手

可见承压之大

虽然从Bard到Gemini

谷歌一直没有拿出足够有说服力的产品

AI革命的决心也总让人感觉他有些犹犹豫豫的

但是我还是希望

市场上不是只有OpenAI和GPT一家独大

应该多有一些有实力的玩家存在

让行业更加良性的竞争和发展下去

你可能感兴趣的:(大模型,人工智能)