AI 大模型已经深入各行业的场景应用,作为云技术巨头的亚马逊云科技在今年也发布了多个生成式 AI 相关的技术与服务。在今年 7 月 亚马逊云科技中国峰会上,亚马逊云科技也表示正在与全球超过 12 万的合作伙伴一同转型、构建 AIGC 生态。
2023 年的 10 月 24 日,也是 CSDN 1024 程序员节的当天,亚马逊云科技举办了生成式 AI 构建者大会,这次的技术大会聚焦于生成式 AI 领域,分享了其完整的端到端生成式 AI 技术堆栈,可以说是继中国峰会之后,亚马逊云科技再一次全面强化生成式 AI 技术领先性的一次重要大会。
根据麦肯锡咨询 2023 年 6 月发布的生成式 AI 生产力前沿技术报告,在生成式 AI 技术带来的经济效益中,大约 3/4 来自四类主要的职能:营销与销售、产品与研发、软件工程和客户运营;而这四类职能,也是生成式 AI 应用使用的主力军。
不过在大会上,亚马逊云科技大中华区产品部总经理陈晓建也指出:“生成式 AI 不仅仅是大模型,今天,当我们谈论生成式 AI 时,大多数人都在谈论基础模型,而整个生成式 AI 应用就像是浮在海面的冰山,露在海面上方能被大多数人看到的冰山一角就像是基础模型,而在冰川的底部,同样需要大量的基础模型以外的服务来支撑,如加速芯片、数据库、数据分析、数据安全服务等等。亚马逊云科技提供了完整的端到端的生成式 AI 技术堆栈,从底层的加速层如加速芯片,存储优化,到中间层模型构建工具和服务,再到最上层的生成式 AI 相关应用,每一层都在针对客户的不同需求持续创新。”
在众多的基础模型中,应该如何便捷安全的选择最适合自己业务场景的基础模型,是每一家企业在构建生成式AI应用时面临的挑战。亚马逊云科技正式推出了Amazon Bedrock,该服务与Amazon SageMaker Jumpstart结合,助力对基础模型有着不同需求的客户轻松、安全地选择基础模型。
基础模型仍有局限性,单独的基础模型无法完成需要与外部系统交互并且没有最新知识来源的复杂任务。因此亚马逊云科技正式推出了Amazon Bedrock代理功能,这是一项全新的全托管功能,使开发人员能够更轻松地创建基于生成式AI的应用程序,以完成各种用例的复杂任务,并根据专有知识源提供最新的答案。
据介绍,Amazon Bedrock 是企业使用基础模型构建和扩展生成式 AI 应用程序的最简单方法,它是一项无服务器服务,提供了广泛的模型选择、数据隐私,并且能够自定义模型,无需管理任何基础设施。该服务提供的基础模型来自 Meta,、Anthropic、Stability AI、AI21 Labs、Cohere 等第三方领先提供商以及自身的 Amazon Titan 模型等,近期还加入了 Meta 的下一代开源大模型 Llama2 以及 Anthropic 的 Claude2 等热门基础模型。
除了 Amazon Bedrock,Amazon SageMaker 可以帮助用户管理应用程序架构中的模型部署、配置和托管,有更大的灵活度和自由度对基础模型进行定制,客户可以从 Amazon SageMaker Jumpstart 中选择开源的基础模型,然后根据自身需求可以选择全量微调,轻量微调等不同方式,进一步确定微调框架,利用分布式训练实现微调,从而更好的评估微调效果。
作为全球云计算巨头,10 多年来,亚马逊云科技对全球基础设施进行深度投资,能够为客户提供广泛的加速器选择,包括强大而灵活的基于 GPU 的解决方案,例如基于英传达最新 GPU 芯片 H100 Tensor Core 的 Amazon EC2 P5 实例,与上一代相比速度快 6 倍,训练成本节省 40%;还有基于亚马逊云科技自研的机器学习推理芯片 Amazon Inferentia2 推出的 Amazon EC2 Inf2 实例,与其他类似的 EC2 实例相比性价比高 40%;基于自研机器学习训练芯片 Amazon Trainium 推出的 Amazon EC2 Trn1 实例,与同类实例相比训练成本节省高达 50%。
面向生成式 AI 构建强大的数据“基座”,需要一套全面的服务,以便能够存储用于构建和微调模型的各种类型的数据;还需要服务间的集成,以打破数据孤岛,确保能够随时访问所有数据;还需要在构建生成式 AI 应用程序的整个生命周期中,确保数据安全并对其进行管理。
亚马逊云科技针对生成式 AI 领域的用户个人信息、会话信息管理、私域知识库等应用场景都提供了专门构建的数据库。针对检索增强生成(RAG,Retrieval Augment GenerationRAG)需要处理的向量数据,亚马逊云科技为 Amazon OpenSearch Service、Amazon Aurora PostgreSQL 和 Amazon RDS for PostgreSQL 加入了向量数据库功能,客户可以使用这些功能来存储和搜索其机器翻译和生成式 AI 应用中使用的嵌入,将向量与数据同地放置,可以更轻松地连接数据并减少数据重复。
数据集成方面,ETL(数据的抽取 Extract,转换 Transform,加载 Load)是端到端数据旅程迫切需要解决的问题,亚马逊云科技提出“Zero-ETL”的愿景,并采用了相应的创新,如推出的 Aurora Zero ETL for Redshift Integration, 允许存储在 Amazon Aurora 中实时产生的业务数据,无需 ETL 工具,以自动的方式同步到数据仓库 Amazon Redshift 中,以供近实时的进行海量数据的聚合分析。多年来,亚马逊云科技通过深化服务之间的集成,已经在 Zero ETL 中取得了一定成果,包括 Amazon S3、Amazon Aurora、Amazon Redshift、Amazon SageMaker、Amazon EMR、Amazon Athena、Amazon Kinesis 在内的各项服务之间的深度的数据集成正在帮助企业执行分析和机器学习,且无需移动数据。
数据治理方面,亚马逊云科技提供 Amazon DataZone 这一全新的数据治理服务。Amazon DataZone 让客户能够跨组织边界发现、访问、共享和治理大规模数据,并减少企业内部成员访问数据和使用分析工具时繁重的工作量。通过 Amazon DataZone,数据工程师、科学家和分析师等数据使用者可以通过统一的数据分析门户,在亚马逊云科技账户之间共享和访问数据,实现跨部门、跨组织地使用数据及开展数据协作。此外,数据所有者和数据管理者可以通过在用户界面中使用预定义的审批工作流来平衡数据访问治理,以及通过向数据添加业务上下文而简化数据发现。
虽然千模大战让大模型热度空前,但是亚马逊云科技认为,开发生成式 AI 应用是一个系统工程,并不是单纯的产品和服务拼接。亚马逊云科技通过开箱即用的生成式 AI 服务及工具,已帮助 1000+中小企业和初创公司快速实现生成式 AI 创新。
详细来说,亚马逊云科技通过将 Amazon Quicksight Q 功能与 Amazon Bedrock 提供的大语言模型功能相结合,为 Amazon QuickSight 提供生成式 BI(Business Intelligence 商务智能)功能。Amazon Quicksight 中新的生成式 BI 功能使业务分析师能够轻松地在几秒钟内快速编写和微调新的视觉效果,并使用自然语言将其添加到仪表板中。在 Amazon QuickSight Q 的支持下,这种新的创作体验还使得分析师无需查找或学习特定的语法,直接使用自然语言创建新的计算。现在,创建一个新的仪表板或计算只需问 Amazon QuickSight Q 几个问题,非常简便。
Amazon CodeWhisperer人工智能编码伙伴,可以在基础模型高级选项中使用,可以实时生成代码建议,从根本上提高开发人员的生产力。经测试,与未使用的参与者相比,使用Amazon CodeWhisperer的参与者完成任务的速度平均快57%,成功率高27%。最近亚马逊云科技还推出了Amazon Whisperer自定义功能,能够生成优于之前的代码建议,因为它允许客户使用私有代码库安全地定制 CodeWhisperer代码建议,这些私有代码库可涵盖内部API、数据库、最佳实践和架构模式等。
另外,亚马逊云科技以微服务化和事件驱动架构为核心的设计框架,松耦合的去处理每个功能模块之间的互相依赖,采用 Serverless First 简化运维提升效率。在 DevOps,基础设施即服务,自动化等现代应用治理理念持续投入,促进企业内部的应用资产与实践的分享,构建高效敏捷的构建者文化。
云计算加快了 IT 基础设施的普惠,在生成式 AI 领域,亚马逊云科技同样希望实现生成式 AI 技术的普惠化,以帮助企业和个人开发者加速创新。另外,亚马逊云科技提出“负责人的人工智能”,对于 AI 服务和技术的公平和偏见、稳定性、可解释性、治理、透明度、隐私和安全性,都在继续探索,也值得业界开发者去关注了解。