关键字: [Amazon Web Services re:Invent 2023, Amazon Bedrock, Generative Ai Models, Enterprise Data, Data Architecture, Responsible Ai, Model Customization]
本文字数: 3000, 阅读完需: 15 分钟
如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1PC4y1A73d
如何利用生成式 AI 将数据湖等现有数据架构转化为业务优势?在本讲座中,我们将探讨全球数据组织的领导者最关心的问题,即如何才能最有效地将专有数据集用于独特的差异化生成式 AI 解决方案。了解如何通过相似检索增强生成(RAG)等技术,将数据融入预训练基础模型和自定义模型。参加本讲座,了解使用生成式 AI 应用程序的三个关键数据考虑因素,以及亚马逊云科技如何利用向下兼容工作法,从客户出发帮助解决这些挑战。
以下是小编为您整理的本次演讲的精华,共2700字,阅读时间大约是14分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
亚马逊云科技的技术副总裁米兰·汤普森·布科维奇开始了她的演讲。作为技术副总裁,她介绍了自己及一些背景信息。布科维奇表示,她在开发亚马逊云科技云服务方面工作了13多年,专注于构建和改进大型数据服务,这些服务是任何云计算应用程序的基本基础,如存储、流处理、消息传递和可观察性服务。
布科维奇将演讲主题转向了当今社会对数据的依赖。她指出,每个现代企业都严重依赖数据来驱动决策和数字化转型。在与亚马逊云科技客户进行了长达13年的深入交流中,布科维奇深入探讨了如何充分利用云端数据来实现数字化转型。近期,这些对话开始关注客户如何将生成式AI的新功能与其数据相结合。
布科维奇解释了生成式AI的概念,即通过基于训练的模式和数据来创建新内容或产品(如图像、文本、音频、视频等)。她强调,这种生成能力有可能深刻改变企业思考和运营业务的方式。然而,要充分发挥这一潜力,企业需要深入了解其专有的商业数据在其自定义和塑造生成式AI响应方面的核心作用。
这为布科维奇演讲的主要主题奠定了基础:解释公司如何最好地利用和应用自己的数据来自动化生成式AI应用和系统。布科维奇概述了她认为在各行业和地区部署生成式AI的关键数据相关三项举措:(1)创建和使用定制数据集,(2)扩展现有的数据架构以支持新的生成式AI应用,以及(3)成为自己最出色的审计员。
布科维奇表示,她将在本周早些时候的大会上阐述三个关键数据举措之间的联系,以及亚马逊云科技的一些重要数据相关公告和发布。她的目标是要展示亚马逊云科技的服务和能力如何帮助客户利用自身数据来开发具有影响力的生成式AI解决方案。
她以数据量以惊人的速度增长为基础展开论述,这为生成式AI的发展提供了飞轮效应。她指出,在底层,像DALL-E这样的生成式AI模型是从Common Crawl等来源收集的大量数据集进行预训练的,这些数据来源包括互联网上数PB级的网页数据。然而,企业还会使用从这些基础模型中筛选出的较小的专用业务数据集,以便进一步定制模型并针对其特定需求进行调整。这导致了混合了基础模型培训数据和公司自有数据的中间数据集的产生。最终,这些定制的模型推动了新的生成式AI应用程序的开发,而这些应用又从客户互动中收集数据,从而更快地推动飞轮的旋转。
为了说明涉及的数据规模之大,布科维奇分享了一个来自IDC的统计数据,预测在未来五年内,全球每年产生的数据总量将以22%的复合年增长率增长。到2027年,IDC预计每年将产生229000艾字节的新数据。此外,大部分(超过90%)的数据爆炸将由视频、PDF文件、音频和文本文档等非结构化数据类型组成。
布科维奇强调,用于提高生成式AI系统准确性和可靠性的数据质量至关重要。她引述了一项针对首席数据官的最新调查,该调查揭示,在成功实施自定义生成式AI解决方案方面,有近一半(46%)的首席数据官将解决数据质量问题视为他们的顶级挑战。此外,参与调查的首席数据官中有93%表示,制定端到端的数据战略和架构对于使他们的生成式AI解决方案能够适应特定的业务至关重要。
总的来说,布科维奇认为企业在使用人工智能数据时应注重质量和责任,这是生成式AI成功的关键。在阐述了这一要点后,她开始深入讲解自己在演讲中提到的三个关键数据策略之一。
她指出,企业必须首先采取的措施是投资和创建用于训练及调整生成式AI系统的定制数据集。为了更好地理解这一策略的背景,她首先简要介绍了Claude和Anthropic的Constitutional AI等基础模型的工作原理:
接着,布科维奇为那些刚开始探索AI领域并想知道他们是否应该使用现有基础模型并进行微调或投资于从头开发全新模型的客户提出了建议。布科维奇表示,在绝大多数情况下,她建议基于经过验证的基础模型进行构建。原因是,领先的基础模型在其知识广度和能力方面正以惊人的速度发展。此外,通过利用公司的自有企业数据进行微调,可以轻松地为公司的特定需求定制现有基础模型。这使得在大多数情况下没有必要从头开发新的模型。
使用这种技术,可以从外部知识源(例如存储在Amazon S3中的文档)中检索相关信息,从而增强提供给模型的提示。这可以在不进行明确重新训练的情况下偏置模型的响应。实现这一效果的方式是通过以编码语义意义的嵌入形式预先加载外部数据。
在进一步的微调过程中,基础模型会在从企业自身数据集中整理出的领域特定数据集上进行训练,以便更好地适应企业的环境和风格。需要注意的是,这种方法需要一个高质量且经过清理的数据集。
在实际应用方面,布科维奇分享了一个令人兴奋的更新:现在,亚马逊的Bedrock服务支持使用客户数据来启用所有三种自定义模型的方法。一些关键亮点包括:
对于快速变化的数据(如天气),由于事实可以动态地提供给模型而无需重新训练,因此检索增强非常适用。Bedrock现在提供了针对此优化的Claude 2.1模型,并支持大型提示窗口。
对Titan和Llama2等模型的微调功能现在在Bedrock上普遍可用,允许专门针对企业领域的专门化。对Anthropic Claude的微调功能即将推出
对于Titan模型,继续使用无结构的企业数据集进行预训练得到了支持,使客户能够承接预训练结束的地方。
布科维奇注意到,复杂的客户通常会将其AI解决方案结合使用多种技术和模型。为了更好地提供现实世界的应用视角,布科维奇邀请Adobe Firefly GenAI & Sensei的副总裁亚历山大·科斯特林(Alexandru Costlin)上台发表演讲。
Adobe,一家拥有数十年历史的公司,通过运用颠覆性技术如数字摄影和社会媒体等来满足各行业客户的需求。在这过程中,Costlin首先向我们介绍了Adobe的背景。到了2022年,Adobe已经意识到AI将成为下一波重大变革的浪潮。为此,他们提前做出了战略决策,大力投资将其AI能力融入其产品线。
为了实现这一目标,Adobe在其客户群体中进行了广泛的推广,包括消费者、小企业、企业和创意专业人士。他们询问了关于如何负责任地应用生成式AI功能方面的期望。
收集到的关键反馈主题包括:
保持创意控制和满足客户的愿景
紧密集成到现有产品如Photoshop中
支持品牌身份和规模的定制
负责生成可用于商业用途的内容
这些见解直接塑造了Adobe用于训练其模型的数据策略。Costlin解释说,Adobe Stock内容库提供了强大的基础数据集,用于预训练。这个市场拥有超过1亿个资产,涵盖了图像、视频、3D模型和模板。Adobe还通过生成补充嵌入和增强来丰富此数据,以提高质量。
在幕后,Adobe利用一系列亚马逊云科技服务来驱动其数据工作流程:
Adobe Stock内容作为原始输入数据存储在Amazon S3中。
一系列辅助ML模型准备并优化数据,以便为其生成性模型训练做好准备。这包括过滤掉受版权保护的内容等技术。
通过减少重复计算,预计算的嵌入被添加以加速训练速度。
跨S3、ElastiCache和FSx的PB级存储提供了经济高效的扩展。
软件将数据直接从S3流式传输到GPU集群,以最大化效率。期待在未来使用S3区域存储来保持数据更近。
基于客户互动的强化学习提供了改进的反馈。
结果说明了一切——Adobe已成功推出了一系列生成性图像、插图、设计等功能。特别地,Firefly集成到Photoshop中已经在发布后几个月内成为了最受欢迎的功能,成为了有史以来最常用的Photoshop功能。
在总结中,Costlin建议听众大量投资高质量且合规的数据集,以便充分拥抱生成式AI的浪潮。她强调,随着全球法规的不断发展,透明度和治理的重要性将日益凸显。
布科维奇进一步阐述了Costlin的观点,认为尽管数据至关重要,但扩大现有数据架构以支持新的生成式AI应用同样重要。她指出,客户希望能够重用他们当前的数据管理基础,而不是创建全新的数据平台。这样可以利用现有的数据访问、治理和合规机制。
从概念上来说,布科维奇建议将生成式AI解决方案视为坐在现有数据湖、仓库和管道之上的一层新应用。通过插入诸如基于S3的数据湖之类的可用数据源,公司可以更快地将生成式AI功能集成到其系统中。
针对依赖于频繁更新的向量数据的检索增强使用场景,布科维奇推荐使用亚马逊OpenSearch和具有向量扩展的PostgreSQL等存储选项。此外,她还强调了亚马逊Kendra作为端到端向量化选项的重要性。
无论最终的技术选择如何,布科维奇强调应尽可能扩展现有的数据基础设施,而不是引入全新的系统。例如,她建议从基于Kinesis和Spark的现有流处理管道开始,并增强它们以实时将数据更改传播到向量存储。
布科维奇还提供了许多例子,说明亚马逊云科技的产品组合中的不断创新如何帮助加速使用现有数据架构构建生成式AI解决方案:
亚马逊S3支持超过700,000个数据湖。用于分析和业务过程的数据本身就已经为AI系统提供了高质量。本周推出的细粒度访问控制有助于共享数据集用于精调和检索增强生成。
Object Lambda使S3数据以优化后的格式供模型使用,无需转换。Glacier Instant Retrieval简化了对归档数据的访问。智能分层根据访问模式监控优化成本。
DataZone的新自动描述使用AI来丰富目录。Glue Data Insights使用ML检测训练数据中的异常。
增强EKS监控功能以及针对PyTorch的新S3连接器,这提高了机器学习工作负载的性能。S3 Express One Zone提供了低延迟的对象存储,从而缩短了训练时间。为了将这些概念与实际应用相结合,Pinterest数据工程副总裁Dave Burgess受邀发表了演讲。Burgess首先强调了Pinterest作为全球最大S3数据湖之一运营者的开创性规模,并在过去13年里一直利用Amazon Web Services。
Burgess解释说,Pinterest认识到了通过将生成性人工智能应用于长期存在的问题来提高分析生产力的机会:
需要不断地手动寻找合适的数据、评估定义和质量,并编写SQL查询
测试表明,给相关表提供文本到SQL生成,准确率为97%
使用语言模型从架构生成表描述,以推荐最佳数据集
通过用AI增强自动化部分工作流程,Pinterest能够为其分析用户群体实现40%的生产力提升。这主要归因于加速的数据发现和查询创建。
Burgess指出,他们利用现成的语言模型,专注于提供高质量的提示和经过筛选的数据集。这表明,即使是一般化的能力,在应用于高质量数据时也能迅速创造价值。
Burgess的最后一项关键举措是对快速发展的人工智能领域的自我审计进行了强调。他认为,企业应该深入了解其AI系统用于训练、定制和检索的数据,以及它们做出决策的方式。为了负责任地理解和信任结果,每个组织都必须做好准备应对不断变化的法规和合规要求。
Burges再次强调,每个组织都必须为未来的监管变化做好准备。唯一有效扩大可审计性和监督的方法是尽可能自动化整个过程。
他建议将数据来源的概念扩大到AI系统中使用的新的中间数据集,如测试集、提示工程数据和学习嵌入。这些数据文件应使用与核心企业数据资产相同的严格控制进行存储和访问。工作流程日志应记录这些数据在整个训练、定制和推理过程中的使用情况。
布科维奇详细阐述了亚马逊云科技的治理服务组合(如CloudTrail、CloudWatch和OpenSearch)如何协助客户了解他们的AI数据使用情况。她强调了强大的新型负责任AI功能:
在CloudTrail中记录模型调用的Bedrock日志,以便进行审计和解释中间模型步骤。
CodeWhisper通过引用日志提高透明度。
AI服务卡片分享预期用例的最佳实践。
IP赔偿为输出内容提供保障。
Guardrails和SageMaker Clarify自动执行责任人工智能评估。
最后,布科维奇总结道,演讲涵盖了创建自定义数据、扩展现有数据系统和审核人工智能使用情况的策略。她将这些举措与亚马逊云科技的主要宣布相结合,如S3对象Lambda和Bedrock微调,以帮助将数据用于生成性人工智能。
核心主题包括利用现有的数据源和架构,专注于高质量的数据,以及自动化负责和合规的人工智能使用。布科维奇表示,我们仍在学习如何最佳应用生成性人工智能技巧并负责任地使用数据的旅程中。然而,亚马逊云科技致力于提供持续的创新和合作伙伴关系,以支持客户每一步的发展。
下面是一些演讲现场的精彩瞬间:
米兰·汤普森·布科维奇,担任亚马逊云科技的副总裁技术,分享了她在亚马逊云科技大规模数据服务领域长达13年的经验。
这位行业领袖总结了一些技巧,以帮助专家和初学者实现定制化的人工智能体验。
RAG技术通过在不改变模型本身的前提下,为用户请求添加上下文,使模型能够适应不断变化的数据。
领导者们强调了审查生成性人工智能模型的重要性,以便应对未来的监管需求。
为了支持AI系统的开发和应用,数据来源需要扩大,涵盖更多中级数据集。
借助Amazon SageMaker Clarify,开发者可以根据负责的人工智能指标(如准确性、健壮性和毒性)来评估和选择机器学习模型。
领导者们强调了亚马逊的核心原则,即保持好奇心并积极探索新兴技术,如生成性人工智能。
本次演讲的核心主题在于探讨企业如何运用生成性人工智能(AI)推动数字化转型并构建定制化模型。生成式AI能够根据数据中的模式创建新内容。为了充分发挥其潜力,企业需制定一套全面的数据策略。
演讲者列出了三个关键的数据策略,以支持生成式AI的发展。首先,企业应采用诸如提示工程、检索增强生成(RAG)、精细调整以及持续预训练等技术,以其数据为基础定制基本模型。其次,他们可以利用现有的数据架构(如数据湖)而非从头建设。例如,Pinterest通过应用大型语言模型并结合数据湖的检索增强生成(RAG)技术,实现了分析生产力提高40%的成果。最后,企业必须对其生成式AI系统及数据来源进行审核,以确保透明度并与监管规定保持一致。亚马逊云科技提供的服务,如CloudTrail和SageMaker Clarify,有助于实现可扩展且负责任的AI。
总之,尽管生成式AI正在改变商业领域,但企业仍需关注使用高质量、经过良好治理的数据,以便负责任地发掘其潜在价值。亚马逊云科技为企业提供了与之共同发展的数据应用能力。
https://blog.csdn.net/weixin_40272094/article/details/134736480
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
【免费】亚马逊云科技“100 余种核心云服务产品免费试用”
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。