昨晚 Redmi K70 系列发布会大家收看了吗?那肯定知道 AI 扩图&魔法消除 Pro 又双叒叕上发布会啦!!!
作为连登10月小米14系列发布会和此次 Redmi K70 系列发布会的技(实)术(力)功(派)能(选)点(手),还被王一博称赏不已的功能,这个含金量大家都懂吧~
王一博盛赞的 AI 扩图功能
王一博盛赞的魔法消除 Pro 功能
那究竟什么是 AI 扩图?魔法消除 Pro 又上线了哪些新 buff ?话不多说,下滑文章一起揭秘
01
AI 扩图是什么?它能够理解图像中的细节和结构,并根据这些信息预测和生成缺失的部分,智能地填补图像中的空白区域,使得整个图像呈现出更大的画面范围和更广阔的视野。让拍摄者得到一张艺术化处理后的创意 AI 扩增照片。
AI扩图前(上) AI扩图后(下)
功能体验入口:选取照片后进入照片编辑模式→裁切旋转→点击智能扩图。
小米AI实验室视觉团队观察到,传统的构图方法往往是基于一张大图进行裁切形成构图,这具有很强的局限性。如果当我们具备“扩图”能力时,是否可以在原有的基础上,向外构图,再得到一张全新的美学构图呢?于是,团队基于自有的图像裁切构图技术,进一步推出了全新的 AI 构图方法——美学 AI 构图算法。
美学 AI 构图算法能够不拘泥于图片大小实现向外构图,理解图像中的细节和结构,并根据这些信息预测和生成缺失的部分。让拍摄者得到一张艺术化处理后的创意 AI 扩增图。
AI 扩图功能效果演示
扩图填充算法结合 AI 美学构图算法,实现了美学定向图像扩增,即使拍照技术有少许“不解风情”也能够使用 AI 扩图挽救回来。为用户在艺术创作和图像处理的过程中带来更多可能性玩法和创意思路,也有机会留住那个差点因为拍照不好看而绝交的好朋友!
光是实现图片向外构图可不行,也得补足画面细节,里内有料才是。视觉团队也同步推出了美学 AI 构图算法的搭档—— AI 扩图填充算法。它的作用是智能地填补图像外围大量未知空白区域,使得整个图像呈现出更大的画面范围和更广阔的视野。
由于这些“填充区域”是基于图像外围信息进行的填充,它可以借鉴的原图信息相较“向内填充”信息量较少,难度也增大很多,那么是如何做到扩图填充的呢?首先 AI 扩图填充算法将待填充部分在隐空间(即将高维的图像特征压缩到低维度的空间)中进行预填充,提高后续场景识别的准确率,然后使用生成式大模型进行正式填充。并结合团队沉淀的 AI 超分、AI 融合模块,显著缓解了原图与扩增区域的接缝、色差等问题,使之融为一体。
最后,AI 扩图不仅提供了常见的等比扩图、自由扩图功能,还提供了基于图片内容进行自动构图、扩图的能力。能一站式生产最优选构图的照片,为创作者带来玩转图像不设限的可能性。
02
魔法消除 Pro
全新的大模型内核,图像细节随心控
魔法消除技术想必大家都体验过,那么这次新一代的 Pro 版本,又升级了哪些地方呢?
第一代魔法消除技术的主脑,使用的是普通消除的生成对抗网络(GAN)。自小米图像编辑大模型正式上线后,魔法消除技术也做了迭代升级,用小米图像编辑大模型替换原先的生成对抗网络(GAN)。可以实现更强大的场景识别、纹理模仿、物体生成能力,并重构出高度自然的画面。即使遇到大面积的填充、复杂的背景,也不会有传统消除填充的“涂抹感”。
使用魔法消除Pro前(上) 使用魔法消除Pro后(下)
升级后的魔法消除 Pro 能基于内容,AI 背景填充扩增,画面自然过度,甚至能让“断桥重连”,做到“以假乱真”。
同时,也不用担心想上传美照去体验最新的 AI 功能时,会泄露自己的隐私。因为模型部署到端侧后,信息不用上传到云端,所有计算都在本地进行,可以从根本上保证用户隐私不被泄露。即使在端云结合的服务框架下,隐私信息会存储在端侧,涉及它们的计算也尽可能在端侧完成。即使偶尔需要使用云端的合规审核功能,信息也会经过处理和加密,大家可以放心的体验。
功能体验入口:在进入魔法消除界面后,点击右上角的 Pro 按钮,即可体验生成式大模型的强大算力。使用方式与上一代相同,通过智能分割或者手动涂抹的方式精准选出需要消除的范围,点击下方“开始消除”按钮。
03
图像编辑大模型落地端侧的技术挑战
2022年,一款名为 Stable Diffusion 的模型横空出世,作为一种基于扩散模型的视觉生成式大模型,它主要能实现文生图(txt2img)和图生图(img2img)等任务。是体现 AI 行业从传统深度学习时代走向 AIGC (AI-Generated Content)时代的标志性模型之一。此后生成式大模型便一鸣惊人,迅速成为了一众图像编辑软件和功能的核心。
我们更是使用生成式大模型赋能传统功能以及打造新功能,快速展开了端侧部署的研发以及模型效果的优化,成为业绩首家也是唯一一家在端侧落地图生图产品的手机厂商。基于此项技术,我们为相册编辑产品打造出了可扩展图片边界的“AI 扩图”功能,并将已有的“魔法消除”功能升级到消除填充效果更好的 Pro 版本,如下图所示。这皆是源于端侧生成式大模型的加持。
AI 扩图功能效果
魔法消除 Pro 功能效果
对于生成式大模型,例如 Stable Diffusion、GPT,想必大家都已经有所耳闻,它们的模型参数量可达几十上百亿,需要极强的服务器硬件才能跑得起来。可是想要能在手机端本地化运行,模型的体量和资源占用要求将变得非常严苛。
小米端侧生成式大模型在保证生成质量相当的情况下,模型大小从 3G 瘦身至 1.2G ,减小了超过 60% ,目前还在持续瘦身中。在模型的减肥计划中,我们广泛参考业内经验,精准操刀,通过知识蒸馏等方法,将在服务器的大模型网络中的知识提取到为端侧定制的轻量化大模型中,在不改变模型基本结构的前提下剔除了众多冗余的模块。此外,在生成模型中 Decoder 模块与出图质量直接相关,通过多次尝试不同结构与体量的 Decoder,积累大量的摄影数据做效果调试,直至达到性能与效果的最佳平衡,最终锤炼出能完美运行在手机端侧的轻量化生成式大模型。
众所周知,手机终端的芯片算力是远低于云端深度学习服务器算力的,如何让我们端侧方案的最终成片效果在使用云端方案的竞品面前也不落下风,是我们面临的一大挑战。
针对这一挑战,我们对底模和生图流程都进行“小米场景”的专项调优。首先是对生成式网络的优化:对生成式大模型进行模型压缩,优化 Unet 网络迭代步数,增加高质量摄影数据重新训练。另一个重点是生图流程的优化:团队结合多年来沉淀的自研图像融合、超分算法,以及新提出的 AI 美学构图算法,构建了全新的图生图 pipeline 。在业界首家落地端侧,并且效果媲美竞品的云端方案。
-
AI 扩图技术和魔法消除 Pro 技术,是小米相机部和 AI 实验室深度合作,探索图像编辑大模型应用的诚意之作。
未来我们也将不断迭代推出轻量化、速度快、效果优、交互效率更高的图像编辑大模型,同时充分挖掘用户需求,落地到具体应用,为用户提供更加自然、高效的图像编辑体验。让每个人都能够享受到大模型带来的美好生活。
文章内容支持:
小米 AI 实验室产品经理 何嘉
小米 AI 实验室实习生 万泽宇