我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版,欢迎购买。点击进入详情
目录
为什么是谷歌?为什么现在?
GPT-4 与 Gemini:主要相似之处
GPT-4 与 Gemini:主要差异
Gen AI 基准如何运作?
Gemini 比 ChatGPT 更加多模式吗?
谷歌的演示视频真的“假”吗?
生成式人工智能(和云)的未来会是什么样子?
像 Gemini 这样的人工智能工具将如何影响软件工程师?
就在上周,谷歌推出了 OpenAI ChatGPT 的第一个合法竞争对手:Gemini。其专业版现已向公众开放。
Google Deepmind (Alphabet 的人工智能实验室)的最新成果可能是迄今为止最令人印象深刻的生成式人工智能。Gemini 与其他LLM的不同之处在于它注重多模态(本质上是它解析不同媒体格式的能力)。据报道,Gemini可以进行完整的对话,同时不断地在文本、音频、图像、视频和代码之间切换。
在谷歌的视频演示中,他们展示了 Gemini解析和响应视觉输入的能力。我们看到Gemini可以识别抽象的人类图画,并根据简单的上下文元素进行推理。谷歌希望我们认为这一切都是实时发生的,几乎没有延迟,但实际情况可能并非如此(稍后会详细讨论这一争议)。
话虽这么说,现在围绕 Gemini 有很多炒作,但并不是所有的炒作都像谷歌希望的那样积极。Gemini 是否有可能不是 Google 所声称的 Gen AI 的巨大飞跃?人工智能军备竞赛中发生了什么,以至于谷歌现在推出了这个工具?
今天,我想与 Gemini 讨论 Google 的总体战略,以及开发人员可以做些什么来为即将到来的下一波 Gen AI 产品、框架和应用程序做好准备。
开发人员现在可以通过Google Cloud Studio使用 Gemini Pro 进行构建!
让我们深入了解一下。
Alphabet 首席执行官桑达尔·皮查伊 (Sundar Pichai) 最近概述了 Gemini 如何与 Google 的使命 宣言直接保持一致—— “组织全世界的信息,让所有人都能访问和使用。”
我是这样理解的:随着近年来信息的广度和深度不断扩大,谷歌需要在技术上取得突破才能跟上。但是,Gemini 的发布不仅仅是一种组织世界信息的新方式。
谷歌的未来取决于其对生成式人工智能的投资。
如果用户转向聊天机器人提问而不是在搜索栏中输入关键字,那么谷歌的整个商业模式就会崩溃。这一变化不仅会影响谷歌。当用户搜索时由谷歌推广的数百万个网站也将受到威胁。
谷歌知道这一点,并且正在大力投资生成人工智能。如果他们能够领先于 OpenAI 和 Anthropic 这样的公司,他们就可以控制人们搜索信息的方式。
我认为可以肯定的是,Gemini 很可能会成为 Google 搜索的一部分。传统搜索引擎是一项被广泛理解的技术,我怀疑谷歌是否会完全放弃搜索,但我认为 Gen AI 产品将内置到搜索体验中。
当谈到他们如何对抗 OpenAI(和微软)时,我认为谷歌已经准备好迎头赶上。他们有大量资金可以投资 Gemini,并且不受 OpenAI 花费大量资金的巨大计算成本的限制。谷歌拥有充足的数据中心,可以满足像 Gemini Ultra 这样大型的模型运行的需要。
此外,谷歌在训练数据方面比竞争对手更具优势。谷歌运行着庞大的网络爬行操作,能够抓取和摄取大量人类生成的信息。OpenAI 能够在Reddit、Quora和Twitter等内容农场被关闭之前潜入并抓取这些内容农场;新的人工智能模型不再像几年前那样不受监管地访问训练数据。
我预测人工智能领域更多的巨头(主要是谷歌和微软)将出价购买 Reddit 和 Quora 等内容农场。生成式人工智能向前发展的最大挑战之一是新近度。Gen AI 工具无法立即访问当前事件。这对设计这些系统的工程师提出了真正的挑战,但即使开始,他们也需要访问新闻和时事内容作为培训数据。
X(前身为 Twitter)在利用 Gen AI 应对时事方面具有独特的优势。Grok是 X 的内部人工智能,可以访问推文,理论上可以成为第一代实时了解当前事件提示的人工智能。
最终,很明显,Google Gemini 是 Alphabet 在人工智能军备竞赛中为未来做好准备的游戏。但让我们看看它如何与当今该领域的主要参与者:Open AI 的 GPT-4 相比。
GPT-4 和 Gemini 都是大型语言模型,能够跨多种媒介理解并生成响应。
从高层次来看,它们看起来非常相似。
目前,两种LLM都有不同的规模。GPT-4 是 OpenAI 最大的产品,在总参数和功能方面可与 Gemini Ultra 进行比较。ChatGPT 的免费版本现在在 ChatGPT-3.5 上运行。而且,根据基准测试,GPT-3.5 与 Gemini Pro 进行了比较,后者目前在 Google 的聊天机器人 Bard 中可用。
Gemini 尺寸的全部产品概述如下。
到目前为止,Gemini 的主要出名之处在于它能够在准确性方面超越人类专家。在 Google 的 Gemini 发行说明中,他们进行了广泛的基准测试来比较 GPT-4 和 Gemini。
他们最引人注目的一项测试是大规模多任务语言理解(MMLU)基准测试。MMLU 涵盖了广泛的主题——从世界知识到问题解决——范围从初级到专业难度。根据谷歌的数据,大多数人类专家的准确率约为 86%,但 Gemini Ultra 的基准测试准确率为 90%。
也就是说,MMLU 只是衡量 LLM 的一长串测试中的一个基准。在总共 8 个文本基准测试中,Gemini 在其中 7 个测试中击败了 GPT-4。GPT-4 的一个败笔在于常识推理和问题解决,这是一个名为 HellaSwag 的基准测试。
您可以在下面查看两者在纸上的叠加情况。
注:该图中包含的值是由Google Deepmind自己计算得出的
尽管基准较高,Gemini的胜利似乎相对较小。这些模型在每次测试中仅相差几个百分点。
用于评估 Gen AI 性能的一长串基准是衡量这些极其复杂的工具的相对较新的一步。
AI 基准测试是针对 Gen AI 系统的测试。人工智能会被问到问题,并根据正确或预期的结果来衡量他们的回答。就 MMLU 基准而言,测试由多项选择题组成,涵盖广泛的主题和难度。这些测试题通常直接来自教育材料和现实世界的考试。
尽管如此,斯坦福大学的研究人员声称,当前的基准还不够,而且对于以有意义的方式塑造人工智能系统的发展几乎没有什么作用。目前还没有能够同时测量多个人工智能特征/特性的基准。另外,对于模型产生有毒或不安全响应的倾向,几乎没有基准测试可以进行。
为了更好地理解生成人工智能,我们需要更多样化、更全面的基准。
当谈到生成人工智能时,“多模态”是指模型跨多种媒体格式解析和生成数据的能力。从历史上 看,Gen AI 一直被归咎于阅读和编写文本,但最近它已经扩展到包括代码、图像、视频和音 频。
ChatGPT 还扩展到合并多模式提示(除了使用 Dall-E 生成图像之外),但看来 Gemini 可能领先一步。根据演示,Gemini 看起来拥有更复杂的多模式提示和响应能力,但事实果真如此吗?
谷歌发布的演示视频展示了 Gemini 的推理、理解上下文以及以各种媒体格式做出响应的能力。 该视频尤其令人印象深刻,因为它似乎是现场直播。Gemini 的低延迟使得实时肩上人工智能辅 助的遥远梦想似乎指日可待。
也就是说,直到您检查 YouTube 视频的描述,其中 Google 写了一个简短的免责声明:
“出于本演示的目的,为了简洁起见,延迟已经减少,Gemini 输出也已缩短。”
所以,现场摄像机直播毕竟不是现场直播。在斯特广告中,谷歌提示 Gemini 使用一系列静止图像与文字相结合。Gemini确实对所有这些视觉输入做出了反应,只是不是通过实时摄像头反馈。
许多人指责谷歌误导了 Gemini 的功能,称他们只是在挑选情况,一反常态地强调该模型的速度和性能。
那么,既然 ChatGPT 和 Gemini 提供了类似的多模式功能,而 Gemini 还不能真正实时产生响应,那么 ChatGPT 和 Gemini 之间的唯一区别是否只是纸面性能的轻微提升?
现在还不能说。我们必须等待才能确定。目前,我们可以将 Gemini Pro(在 Bard 中提供)与 GPT-3.5 进行比较,但真正的重量级对决尚未确定。当 Google 向公众发布 Gemini Ultra 时,用户将获得真正的 A/B 测试 Gemini 和 ChatGPT 的机会,我们将能够辨别更多细微的差异。
Gen AI 领域的竞争只会有助于在不久的将来开发出更好、更复杂的人工智能产品。
在我们实现个人人工智能助理之前,人工智能、机器学习和计算似乎还有很长的路要走,但 Gemini 代表了朝着这个方向迈出的一步。
目前,OpenAI 与 Azure 紧密相连,因此它们受到延迟的限制。OpenAI 运行 GPT-4 需要大量计算,特别是考虑到其用户数量。事实上,微软向 OpenAI 投入的大量资金都投入到了 Azure 积分中。
由于运行 LLM 的 GPU 要求,未来利用 Gen AI 的应用程序可能必须构建在与模型关联的云服务上。例如,如果您正在构建一个包含 Gemini 的应用,您可能会期望通过 Google Cloud 获得最佳集成(以及潜在的托管成本)。同样,Microsoft Azure 可能会为集成 GPT-4 的开发人员提供更好的支持。
目前尚不清楚情况是否会如此,但它可能会对云计算的未来产生重大影响。谷歌云和微软 Azure 托管的流量只是 AWS 的一小部分,但随着人工智能应用程序的增长,这种情况可能会发生变化。
我很好奇 Gemini(以及其他 Gen AI 产品)在 2024 年及以后会如何发展。如果Gen AI的未来归结为计算能力军备竞赛,那么谷歌绝对可以赶上OpenAI。简而言之,谷歌拥有更多资源(资金、数据中心、基础设施等)。
之前说过,人工智能跨产品的扩展将为开发者创造新的需求,我认为谷歌的 Gemini 公告强化了 这一说法。它是 ChatGPT 和 GPT-4 的第一个真正的竞争对手,但它似乎无法显着突破 Gen AI 的极限——至少目前是这样。
尽管Gen AI能够读写代码,但它并不会对开发人员的工作安全构成威胁。优秀的开发人员获得报酬是为了解决问题,而不仅仅是编写代码。Gen AI 将有助于提高包括软件工程在内的各个领域的生产力,但我质疑它是否有能力完全取代专业人才。
随着人工智能和机器学习成为越来越普遍的产品,软件开发人员将需要了解将人工智能工具集成到现有应用程序中或设计包含人工智能构建块的大型应用程序的基础知识。
很少有工程师会亲自研究实际模型,但很快就会有数十万工程师需要利用人工智能。就技术技能而言,如果您尚未具备以下任何领域的经验,则应考虑提升技能: