关键字: [yt, Amazon Bedrock, Generative Ai Data Access, Persona-Based Access Control, Retrieval Augmented Generation, Enterprise Data Governance, Knowledge Bases For Amazon Bedrock]
本文字数: 400, 阅读完需: 2 分钟
演讲者Bonnie Sherman和Hardik Vasa阐述了如何利用Amazon Bedrock的知识库为生成式人工智能应用程序实现基于角色的访问控制。他们探讨了生成式人工智能应用程序中数据访问的挑战,例如身份验证、受控访问、可扩展性、统一信息访问和无缝用户体验。他们解释了Amazon Bedrock的知识库如何通过从企业数据创建向量数据库并使用它来增强提示的相关上下文,从而实现检索增强生成(RAG)。他们演示了如何通过集成身份提供程序、根据用户角色应用过滤器以及仅限于该角色的元数据可访问的数据范围来实现基于角色的访问控制。他们还介绍了手动更新元数据、使用知识库的默认元数据以及与外部身份提供商集成的架构模式。
以下是小编为您整理的本次演讲的精华,共100字,阅读时间大约是0分钟。
在当今生成式人工智能(GenAI)应用程序的世界中,为不同用户提供对数据的适当访问权限是一个值得关注的问题。根据亚马逊云科技(亚马逊云科技)解决方案架构师Bonnie Sherman的观察,在现场观众中,只有少数人制定了相关策略。在本次演讲中,Bonnie Sherman和Hardik Vasa将介绍如何在企业数据的GenAI应用程序中实现基于个人角色的访问控制。
演讲首先阐述了GenAI应用程序中常见的5个数据访问挑战。首先是需要一个健全的身份验证机制,以确保用户身份的合法性。一旦用户通过身份验证,还需要确保用户只能访问其应有的数据,而不是获得无限制的数据访问权限。此外,系统必须具有可扩展性,能够随着更多用户加入而无需对应用程序进行更改。另一个挑战是避免数据孤岛的形成,确保对所有数据都有统一的信息访问。最后,所有这些严格的安全控制措施都应该无缝集成到现有的用户体验中,不会对用户体验产生影响。所有这些挑战都归结为数据治理的问题。
接下来,Bonnie介绍了检索增强生成(RAG)的概念,这是一种利用现有企业数据作为大型语言模型的提示,从而提高GenAI应用程序(如聊天机器人)响应质量和准确性的机制。RAG包括两个主要部分:数据摄取工作流程和文本生成工作流程。在数据摄取工作流程中,企业数据源会被转换为数据块,通过嵌入模型将这些数据块转换为嵌入向量,并存储在向量数据库中。在文本生成工作流程中,用户在GenAI应用程序中提出自然语言问题,该问题也会被转换为嵌入向量。然后在向量数据库中搜索相似文档,将检索到的结果作为上下文发送给大型语言模型,生成最终响应。
值得庆幸的是,Amazon Bedrock的知识库服务可以为用户管理RAG工作流程的所有步骤,包括创建向量数据库、执行相似性搜索和生成最终响应。知识库通过单一API提供端到端的RAG工作流,在后台使用向量数据库进行搜索,可选的向量数据库包括Amazon OpenSearch Service、Redis、Pinecone或Amazon Aurora PostgreSQL向量等。在亚马逊云科技环境中,数据源可以是存储在Amazon S3存储桶中的数据。
接下来,Bonnie演示了知识库如何与应用程序集成的一个场景。假设某公司拥有大量营销数据(如”潜在客户”文档)和财务数据(如”利润或亏损”文档)。该公司已经使用这些现有文档创建了向量数据库,并为公司内部的不同角色(如财务主管、执行官等)构建了一个聊天机器人应用程序。当财务主管与文档交互,提出诸如”给我一份2022年和2023年的利润和亏损报告”的问题时,该问题会被发送到Amazon Bedrock知识库。知识库会在向量数据库中搜索相关文档,并将检索到的结果作为上下文发送给大型语言模型,生成最终响应。如果财务主管询问与营销相关的问题,同样的工作流程会被触发,他仍然可以从营销文档中获得答案,因为搜索的范围是整个向量数据库。
但是,如果不希望财务主管访问任何与营销相关的数据呢?这就需要实现基于个人角色的访问控制。除了营销和财务相关文档之外,还需要上传一些元数据文件。可以将现有的身份提供商(如Okta或Amazon Cognito)与GenAI应用程序集成。当财务主管提出问题时,请求会被传递到API层,该层会根据财务主管的访问级别检索一个过滤器。该过滤器与财务主管的问题一起发送到Amazon Bedrock知识库,只对与过滤器匹配的文档进行搜索。
当过滤器与创建向量数据库时使用的元数据匹配时,相关文档会被检索出来。由于财务主管有权访问所有财务相关文档,过滤器与元数据匹配,因此只有相关文档会被检索并发送给大型语言模型生成响应。但是,当财务主管询问与营销相关的问题时,过滤器与元数据不匹配,相关文档就不会被返回。这样就防止了财务主管访问他不应该访问的营销数据,从而减小了搜索范围,仅限于过滤器标准。
接下来,Hardik介绍了实现该功能的三种架构模式。第一种模式是手动更新元数据:有一个需要创建聊天机器人应用程序的用例,有许多不同的角色和文档(可能已上传到Amazon S3存储桶)。在这种模式下,需要手动为S3存储桶中的每个对象更新相应的元数据文件。当用户通过身份提供商(如Amazon Cognito)登录时,应用程序层会根据用户或用户所属角色添加过滤器。在创建Amazon Bedrock知识库时,这些文档及其元数据会被传播到Amazon OpenSearch向量存储中。当用户提示连同过滤器一起到来时,过滤器会映射到向量存储中的元数据,从而确保用户只能访问他们应该访问的文档,而不是整个向量存储。
第二种模式是使用知识库的默认功能:当在Amazon Bedrock中创建知识库时,它会自动将S3前缀作为默认元数据。组织中有许多不同的角色,并在S3存储桶中存储了大量文档。这些文档存储在每个用户的前缀(即S3中的文件夹结构)中。知识库会将这些信息传播到向量存储。当用户通过身份提供商登录时,过滤器会被添加到提示或查询中,并映射到用户或角色。应用程序会根据这一信息了解需要将哪个S3前缀添加到过滤器中。通过这种方式,过滤器会映射到元数据,用户只能访问对应S3前缀中的文档,而无法访问整个向量存储。
第三种模式是使用外部身份提供商:作为一个组织,可能会使用外部身份提供商,如Microsoft Active Directory、Azure Active Directory、Okta或PingFederate等。在这种模式下,元数据是通过S3访问授权传播的。S3访问授权允许为外部身份(而不仅仅是IAM用户和角色)提供临时凭证。使用S3访问授权,这些元数据会通过知识库传播到Amazon OpenSearch向量存储。当用户通过某个身份提供商登录时,过滤器会被添加,并通过访问授权请求获取临时凭证。然后,应用程序层会添加过滤器,该过滤器会映射到元数据,从而使用户只能访问自己的文档集合,而无法访问向量存储中的所有内容。
最后,Bonnie和Hardik进行了一个快速演示,展示了如何在聊天机器人应用程序中根据用户角色(如信息主管或营销经理)应用不同的过滤器,从而控制用户对数据的访问权限。在演示中,他们选择了”信息主管”这一角色,应用了”FUNCTION INFORMATION”和”SUBFUNCTION STRATEGIC MERGER”这两个过滤器。当提出”任何公司都在采取什么方法进行并购?“这一提示时,系统能够从OPENSEARCH中检索到相关内容并由大型语言模型进行总结,生成最终响应。但是,当提出与营销相关的”什么是潜在客户生成策略?“这一提示时,由于过滤器与元数据不匹配,系统无法返回响应。接着,他们切换到”营销经理”这一角色,应用了”FOCUS LEADS”这一过滤器。在提出相同的营销相关提示时,系统就能够正确返回响应,因为过滤器与元数据匹配。
总之,本次演讲介绍了在Amazon BEDROCK知识库中实现基于个人角色的数据访问控制的方法和架构模式,以解决GENAI应用程序中的数据治理挑战。通过元数据过滤和与身份提供商的集成,企业可以确保每个用户只能访问与其角色相关的数据,从而提高数据安全性和隐私保护。这种方法不仅可以应用于聊天机器人等GENAI应用程序,也可以扩展到其他需要基于角色控制数据访问的场景。亚马逊云科技提供了知识库服务、向量数据库选项(如AMAZON OPENSEARCH SERVICE)、身份提供商服务(如AMAZON COGNITO)等产品和服务,为实现这一目标提供了完整的解决方案。
在生成式人工智能领域,企业面临着为不同用户提供适当数据访问权限的挑战,同时还需确保健全的身份验证、受控访问、可扩展性、统一的信息访问和无缝的用户体验。亚马逊Bedrock知识库通过实现检索增强生成(RAG)工作流程提供了解决方案,利用企业数据实现了大型语言模型的上下文感知响应。
RAG过程包括将数据源摄入向量数据库、将用户查询转换为嵌入、在向量数据库中搜索相似文档,并在生成最终响应之前使用检索到的上下文增强提示。知识库通过提供单一API来简化这一过程,管理端到端的RAG工作流程,包括数据摄入、向量数据库创建和提示增强。
为解决基于角色的访问控制问题,知识库利用元数据文件与企业文档相结合。通过与身份提供商集成,根据用户角色应用过滤器,将搜索范围限制在与用户访问级别匹配的文档上。这确保了用户只能访问他们被授权查看的数据,防止对敏感信息的未经授权访问。
亚马逊Bedrock提供了各种实现基于角色的访问控制的架构模式,包括手动更新元数据文件、利用知识库的默认元数据传播,以及通过S3访问授权与外部身份提供商集成。这些模式使企业能够根据特定需求和现有基础设施定制访问控制机制。
总之,亚马逊Bedrock知识库使企业能够利用生成式人工智能的力量,同时保持健全的数据治理和基于角色的访问控制,确保不同用户角色和身份对企业数据的安全和受控访问。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 -- 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。