Revolutionizing Creation on Roblox with Generative AI - Roblox Blog
https://blog.roblox.com/2023/09/revolutionizing-creation-roblox
#MixCopilot
作者:
Roblox 首席技术官 Daniel Sturman
摘要:
Roblox分享了他们在生成AI和AI工具方面的愿景,旨在使每个用户都能成为创作者。他们介绍了新的工具和技术: Roblox助手,使创作者能够更轻松地进行创作。此外,还介绍了如何改进头像创建和语音通信的方式,以提供更好的用户体验和更安全的环境。
精华:
"Generative AI models in Roblox will simultaneously increase efficiency for more experienced creators and enable even more people to bring great ideas to life."
- Roblox的生成AI模型将提高创作者的效率,并使更多的人能够实现他们的创意。
"Assistant is our conversational AI that enables creators of all skill levels to spend significantly less time on mundane tasks and more time on high-value activities."
- Roblox助手是一种对话型AI,可以帮助创作者节省时间,从而更专注于创作。
"We believe that providing creators with these tools will lower the barrier to entry for less experienced creators and free more experienced creators from tedious tasks."
- 相信提供这些工具将降低创作门槛,使经验不足的创作者能够更轻松地开始创作,同时让经验丰富的创作者从繁琐的任务中解放出来。
以下为全文机翻:
# 产品与技术
今年早些时候,我们在 Roblox 上分享了对生成式人工智能的愿景,以及新工具,使每个用户都能成为创造者。随着这些工具在整个行业的快速发展,我想提供一些最新信息,介绍我们所取得的进展、生成式 AI 创作大众化仍然面临的问题,以及为什么我们认为生成式 AI 是 Roblox 的关键发展方向。
生成式 AI 和大型语言模型 (LLM) 的进步为解锁沉浸式体验的未来提供了绝佳的机会,让您能够更轻松、更快速地进行创作,同时保持安全性且无需大量计算资源。此外,多模态 AI 的进步意味着它们接受了多种类型的内容(例如图像、代码、文本、3D 模型和音频)的训练,这为创作工具的打开了新大门。我们认为这些人工智能突破是一个巨大的机会,可以同时提高经验丰富的创作者的效率,并使更多的人能够在 Roblox 上将伟大的想法变为现实。在今年的在 Roblox 开发者大会上,我们宣布了几款新工具,这些工具将把生成式 AI 引入 Roblox Studio 及相关场景,以帮助 Roblox 上的任何人更快地扩展、更快地迭代并增强他们的技能以创建更好的内容。
Roblox 始终为创作者提供构建沉浸式 3D 体验所需的工具、服务和支持。与此同时,我们看到Roblox 的创作者开始使用第三方生成式和对话式人工智能来帮助他们进行创作。虽然它们有助于减少创建者的工作量,但这些现成的版本并不是为端到端 Roblox 工作流程而设计的,也不是接受过 Roblox 代码、俚语和行话培训的。这意味着创作者在使用这些版本为 Roblox 创建内容时面临大量额外工作。我们一直在研究如何将这些工具引入 Roblox Studio,并且在 RDC 上我们分享了 Assistant 的早期示例。
Assistant 是我们的对话式人工智能,它使各种技能水平的创作者能够在创作过程中花在重复性任务上的时间显着减少,而将更多时间花在高价值活动上,例如叙事、游戏和体验设计。Roblox 在为沉浸式 3D 世界构建对话式 AI 模型方面拥有独特的优势,这要归功于我们可以访问大量公共 3D 模型进行训练、将模型与平台 API 集成的能力以及不断增长的创新 AI 解决方案套件。创作者将能够使用自然语言文本提示来创建场景、编辑 3D 模型以及将交互行为应用于对象。Assistant 将支持创建的三个阶段:学习、编码和构建:
学习:无论创作者是 Roblox 开发的新手还是经验丰富的老手,Roblox Assistant 都将帮助使用自然语言回答各种表面的问题。
编码:助手将扩展我们最近的代码辅助工具。例如,开发人员可以要求助手改进他们的代码,解释一段代码,或者帮助调试并建议修复无法正常工作的代码。
构建:助手将帮助创作者快速构建新想法的原型。例如,新创建者只需输入“沿这条路添加一些路灯”或“用不同种类的树木建造一片森林”等提示即可生成整个场景并尝试不同的版本。现在添加一些灌木和花朵。”
与 Assistant 的合作将是协作、互动和迭代的,使创作者能够提供反馈并让 Assistant 提供正确的解决方案。这就像有一位专家创作者作为合作伙伴,您可以与他交流想法并尝试想法,直到找到正确的想法。
为了让 Assistant 成为最好的合作伙伴,我们在 RDC 上发布了另一项声明:我们邀请开发者选择贡献他们的匿名 Luau 脚本数据。这些脚本数据将有助于使我们的 AI 工具(例如 Code Assist 和 Assistant)能够更好地建议和创建更高效的代码,从而回馈使用它们的 Roblox 开发人员。此外,如果开发者选择在 Roblox 之外共享,他们的脚本数据将被添加到第三方可用的数据集中,以训练他们的 AI 聊天工具更好地建议 Luau 代码,从而回馈各地的 Luau 开发者。
为了感谢那些选择参与与 Roblox 共享脚本数据的人,我们将授予访问由这个社区训练模型支持的更强大版本的 Assistant 和 Code Assist 的权限。那些尚未选择加入的人将继续访问我们现有版本的 Assistant 和 Code Assist。
最终,我们希望 6550 万日常用户中的每一位都拥有一个能够真正代表他们并表达他们身份的头像。我们最近向我们的 UGC 计划成员发布了创建和销售头像身体和独立头部的能力。如今,该过程需要访问 Studio 或我们的 UGC 计划、相当高水平的技能以及多天的工作才能实现面部表情、身体运动、3D 绑定等。这使得头像的创建非常耗时,可用选项数量有限。我们想走得更远。
为了让 Roblox 上的每个人都拥有个性化、富有表现力的头像,我们需要让头像非常容易生成和定制。在 RDC,我们宣布将于 2024 年发布一款新工具,该工具将支持从一张或多张图像轻松创建自定义头像。有了这个工具,任何有权访问 Studio 或我们的 UGC 程序的创作者都可以上传图像,为他们创建头像,然后根据自己的喜好进行修改。从长远来看,我们还打算在 Roblox 的体验中直接提供此功能。
为了实现这一目标,我们正在 Roblox 的头像架构和一组 Roblox 拥有的 3D 头像模型上训练 AI 模型。一种方法利用从 2D 图像生成 3D 风格化头像的研究。我们还在考虑使用预先训练的文本到图像扩散模型通过 2D 生成技术来增强有限的 3D 训练数据,并使用基于生成对抗网络 (GAN) 的 3D 生成网络进行训练。最后,我们正在研究使用ControlNet对预定义姿势进行分层,以指导生成的化身多视图图像。
此过程会为头像生成 3D 网格。接下来,我们利用 3D语义分割研究,在 3D 头像姿势上进行训练,获取 3D 网格并对其进行调整以添加适当的面部特征、笼子、索具和纹理,本质上是将静态 3D 网格变成 Roblox 头像。最后,网格编辑工具允许用户变形和调整模型,使其看起来更像他们想象的版本。所有这一切都发生得很快(几分钟之内),生成一个新的化身,可以将其导入 Roblox 并在体验中使用。
人工智能对我们来说不仅仅是创造,它还是一个更有效的系统,可以确保大规模的多元化、安全和大众社区。当我们开始推出新的语音功能(包括语音聊天和 Roblox Connect)、新的呼叫作为您的头像功能以及 RDC 宣布的 API 时,我们面临着新的挑战 - 实时调节口语。当前的行业标准是一个称为自动语音识别 (ASR) 的过程,该过程本质上是获取音频文件,将其转录为文本,然后分析文本以查找不适当的语言、关键字等。
这对于小规模使用它的公司来说效果很好,但当我们探索使用相同的 ASR 流程来调节语音通信时,我们很快意识到这对于我们的规模来说是困难且低效的。这种方法还会丢失在说话者的音量和语气以及更广泛的对话背景中编码的极其有价值的信息。在我们每天必须用不同语言转录的数百万分钟的对话中,只有很小一部分可能听起来不合适。随着我们不断扩展,该系统将需要越来越多的计算能力才能跟上。因此,我们仔细研究了如何更有效地做到这一点,
最终,我们能够使用 ASR 对内部语音数据集进行分类,然后使用分类后的语音数据来训练系统,从而构建内部自定义语音检测系统。更具体地说,为了训练这个新系统,我们从音频开始并创建一个文字记录。然后,我们通过 Roblox 文本过滤系统运行脚本来对音频进行分类。该文本过滤系统非常适合检测 Roblox 上违反策略的语言,因为多年来我们一直在针对 Roblox 特定的俚语、缩写词和行话优化同一过滤系统。在这些层训练结束后,我们有了一个能够直接从音频实时检测策略违规行为的模型。
虽然该系统确实能够检测脏话等特定关键字,但违反政策的情况很少只是一个词。一个词在一种上下文中通常看起来有问题,但在不同的上下文中却很好。从本质上讲,这些类型的违规行为涉及您所说的内容、说话的方式以及发表言论的背景。
为了更好地理解上下文,我们利用基于变压器的架构的原生功能,该架构非常擅长序列总结。它可以获取一系列数据(例如音频流),并为您进行总结。这种架构使我们能够保留更长的音频序列,这样我们不仅可以检测单词,还可以检测上下文和语调。一旦所有这些元素结合在一起,我们就有了一个最终的系统,其中输入是音频,输出是分类——违反政策或不违反政策。该系统可以检测关键字和违反政策的短语,还可以检测语气、情绪和其他对于确定意图很重要的上下文。这个新系统可以直接从音频中检测违反策略的语音,其计算效率明显高于传统的 ASR 系统,
我们还需要一种新的方法来警告那些使用我们的语音通信工具的人这种语言的潜在后果。有了这个创新的检测系统,我们现在正在尝试影响在线行为以维护安全环境的方法。我们知道人们有时会无意中违反我们的政策,我们想了解偶尔的提醒是否有助于防止进一步的违规行为。为了解决这个问题,我们正在尝试通过通知来获取实时用户反馈。如果系统检测到您多次说过违反我们政策的言论,我们会在您的屏幕上显示弹出通知,告知您您的语言违反了我们的政策,并引导您查看我们的政策以获取更多信息。
然而,语音流通知只是审核系统的要素之一。我们还会关注平台上的行为模式以及 Roblox 上其他人的投诉,以推动我们的整体审核决策。这些信号的聚合可能会导致更严重的后果,包括撤销对音频功能的访问,或者对于更严重的违规行为,完全禁止使用该平台。保持我们社区的安全和文明至关重要,因为多模式人工智能模型、生成人工智能和法学硕士的这些进步结合在一起,为创作者提供了令人难以置信的新工具和功能。
我们相信,为创作者提供这些工具既可以降低经验不足的创作者的进入门槛,也可以让经验丰富的创作者从这个过程中更繁琐的任务中解放出来。这将使他们能够花更多的时间在微调和构思的创造性方面。我们所有这一切的目标是让世界各地的每个人都能将他们的想法变为现实,并大大增加 Roblox 上可用的头像、物品和体验的多样性。我们还共享信息和工具来帮助保护新创作。
我们已经在想象惊人的可能性:假设有人能够直接从照片创建化身分身,然后他们可以自定义自己的化身,使他们更高或以动漫风格呈现。或者,他们可以通过要求 Assistant 添加汽车、建筑物和风景、设置照明或风力条件或更改地形来构建体验。从那里,他们只需通过助手来回输入即可迭代完善内容。
我们知道,当人们使用这些工具时,他们所创造的东西将远远超出我们的想象。
欢迎加入VR生产力社群,探索新一代生产力工具