12月的一天,华为云AI高级研究员任星一大早就忙着出发,从北京飞往西昌,落地后从西昌机场驱车4个小时,在山林峡谷间来回穿梭,再换乘有经验的本地车随“之字形”的盘山公路蜿蜒而上,辗转大半天,他来到了身处大凉山腹地、海拔2360米的四川省凉山彝族自治州美姑县采红村晓明爱心小学。
这次来大凉山采红村晓明爱心小学,任星一是希望为孩子们带去一堂生动的科技AI课,从“衣、食、住、行”这些贴近生活的维度,让孩子们亲身体验到人工智能、“数字人”、VR等前沿科技;二是他和同事们还为孩子们带去了一份特别的新年礼物——一件由华为云盘古AI大模型和时谛智能一起设计出的新年新衣。
▲点击观看完整视频
当天,拿到新衣服孩子们非常高兴,他们欢呼雀跃着,将衣服抛向高空又紧紧抱住,穿上新衣服的他们,不仅开心地围成圈跳起了彝族达体舞,还头一次真切地感受到了科技所带来的神奇和温度。
那么,这件由“AI”编织的新衣,究竟有何特别之处?在这背后,华为云和时谛智能的小伙伴们又付出了哪些努力呢?
这件新年新衣有点“小特别”
“这件衣服呀,有点小特别,它是人工智能和人类设计师共同设计的。”任星在课堂上告诉孩子们。
确实如此,不久前,任星在接到其朋友同时也是采红村晓明爱心小学校长乔丹的电话,乔丹此次来电是希望华为云能为学校的71名学生带去一堂AI科普课,此外尽管孩子们已经“不愁吃,不愁穿”,但大凉山的冬天气温较低,加上孩子们平时活泼好动,长得快,对于温暖结实的新衣依然有着很大的需求。
“时间紧,任务重”——为了能够保证在新年前为孩子们送上新衣,正在从事华为云盘古大模型研发工作的任星和他的同事们,很快就想到了快速解决这一问题的办法,那就是可以基于华为云盘古多模态大模型中的“以文生图”能力,为孩子们设计新年新衣,为此他们第一时间还联合了时谛智能,希望能够借助时谛智能的在线协同设计、实时渲染技术以及完整的产业链协同能力,在短时间内完成新衣的设计、制作。
为此,双方选定“派克服”作为新年新衣的版型设计,这种版型设计更加保暖、耐磨、耐脏,且能够一衣四穿;同时新衣还巧妙地融入了彝族窗格纹、羊角纹、马缨花纹等民族服饰元素,更兼顾了实用和美观。
更为关键的是,这件有点“小特别”的新年新衣,居然在不到一周时间内就设计完成了,这打破了传统上需要三周的设计周期限制,要知道传统的服装打样方式通常需要经历企划、设计款式图、确认平面版型、备料配料、制作样衣、修改样衣、拍照、定样、核价、出工艺单等一系列步骤,开发周期通常需要17—30天;其中,设计师搜集素材的时间往往占整个制作周期的70%以上,真正花在设计上的时间仅为30%。
但是,这次在这件新衣的设计过程中,借助华为云盘古多模态大模型的“以文生图”能力,时谛智能的设计师们在企划阶段就能够获得数百张符合预期、可二次设计的服装图片,大幅节省了在寻找资料和淘汰款式环节所耗费的时间。此外,通过华为云提供的数据和算力加持,时谛智能的设计师们将盘古大模型给到的“派克服”参考版式,用线稿的方式快速绘制出,随后将服装线稿、花纹等导入时谛智能AI服装设计系统,进行在线材料、颜色、图案的搭配。在此过程中,时谛智能的实时渲染技术,在线生成3D样衣供设计师选择。
随后,时谛智能调动其时尚产业不同领域的丰富供应链资源,对确定的3D样衣进行快速生成以及二次花纹烫印,将设计、生产时间压缩到了短短的两周。
最终,在出发之前,任星非常从容地带上了这批新年新衣,圆满的完成了乔丹校长给他交代的“特别任务”,而坐在教室中的大凉山的孩子们,听着任星给他们介绍这件衣服是如何做出来的时,既懵懂,又兴奋。黑板屏幕上,盘古大模型演示着快速批量生成羽绒服、派克服等衣服样式,而孩子们轮番上台按自己的喜好在时谛智能设计软件上,切换面料、颜色和图案……
可以说,这件有点“小特别”的新年新衣,不仅点亮了大凉山孩子们的科技梦,更带去了科技的温暖和温度。
当时尚设计师加持了“盘古”
事实上,这次为大凉山的孩子们设计新年新衣,仅仅只是华为云盘古多模态大模型的一次“牛刀小试”,为了更好的帮助时尚设计师、时尚和服务企业展开工作,华为云盘古多模态大模型基于亿级自然图像进行预训练,并在十万级时尚产业数据上进行微调和优化,从而得到了非常适合应用于时尚和服装行业的盘古时尚多模态大模型。
也正因此,今后时尚设计师们就能够借助华为云盘古多模态大模型提供的强大能力,更好地完成设计创作工作,而时尚和服务企业也可以籍此在快速变化的市场中,挖掘到更多的商机,具体而言:
首先,是可以帮助设计师洞察流行趋势。盘古多模态大模型可对十万级时尚产业数据的颜色、版型、图案等元素进行分析后,批量生成与流行趋势接近的服饰,将当下流行的时尚元素视觉化地提炼并呈现给设计师,帮助时尚企业与行业洞察用户的消费意向,预判行业流行趋势。
其次,是支持生成多样化的服饰。盘古多模态大模型基于亿级自然图像和十万级时尚产业数据,支持以文生图,向设计师推荐风格多样、款式多样的服饰图片,包括派克服、羽绒服、开衫等款式,这样就可以减少设计师搜集素材的时间,让设计师能够在创作前期根据不同的推荐结果快速积累灵感,快速地进入二次创作。
第三,是帮助批量生成符合要求的服饰图片。传统设计过程中,设计师在搜索引擎寻找参考时,通常会遇到信息冗杂、搜索结果不精确等问题,从而需要花费大量时间反复搜索、反复收集,而应用盘古时尚多模态大模型后,设计师仅需输入目标款式的对应文本描述,如“条纹开衫”,就可以快速获得与文本描述相匹配的服装图片,缩短创作构思过程。不仅如此,盘古多模态大模型经过一系列量化等工程优化方案,还能够有效降低模型推理显存占用量,从而提升单次推理生成的图片数量,当前可支撑“一站式”批量呈现128张推理生成的服饰图片。
最后,是具备分钟级设计推理能力。面向亿级数据的训练,假设仅仅利用单节点8卡V100来训练盘古大模型,耗费的时间往往需要以年计算。为了应对并行处理海量数据的挑战、提高模型预训练的效率,盘古团队融合了多个先进的优化策略,如模型并行、数据并行、混合精度运算、稀疏训练等。同时,基于华为云高效的节点并行调度算法,盘古多模态大模型最终能够以天级为单位训练完成,而盘古时尚多模态大模型,更利用了Attention Cache等技术加快推理速度,在华为云提供的单卡V100支持上,目前就实现了支撑分钟级推理速度,由此大大提升了时尚设计师和服装企业的设计开发效率。
据介绍,目前面向时尚行业的盘古多模态大模型已具备跨模态检索、图文生成、时装辅助设计、文案生成等相关能力,并在多项数据集上实现领先性能,如在COCO以文搜图的零样本任务中,盘古多模态大模型就已经超过了业界标杆算法CLIP、ALIGN,达到业界最佳精度。
在此基础上,华为云也正在将盘古多模态大模型接口开放给多家时尚设计公司调用,希望能更好的赋能时尚设计产业。例如,作为一家集数字创意与智能互联的新型科技公司,时谛智能目前就正在基于盘古大模型的技术和时谛智能的在线协同设计、实时渲染以及完整的产业链协同能力,让服装设计周期从三周缩短至3-5天,由此能够更好地化解中国时尚设计产业中过去常常面临的开发设计周期长、生产成本高等一系列的难题。
客观地说,今天的中国已成为全球第二大消费市场、第一大贸易大国。以中国服装市场为例,服装市场在过去的几十年中一直保持着两位数的增长,如今更是已赶超美国成为全球最大的市场,规模近3000亿美元。从这个角度来看,盘古时尚多模态大模型的“应运而生”,对于整个服装产业和时尚设计领域无疑有着非常重要的意义。
一方面,时尚设计某种意义上也是一种新的生产力,随着盘古时尚多模态大模型的“入场”,对于那些缺乏设计团队的中小企业或者代工企业而言,将会提供一种强有力支撑,这是因为这些企业可以利用AI来创作生产所需的图案纹样,从而弥补设计团队人力资源的不足,由此进一步强化中国服装产业的市场竞争力;另一方面,它还能够为更多的时尚设计师们提供源源不断的创意和灵感,极大地提升中国时尚设计产业的的原创力和原创量,进而加快整个服装和时尚设计产业的数字化转型升级。
盘古大模型的“七十二变”
回头来看,自今年4月份华为云盘古系列超大规模预训练模型发布以来,就以超强的实力“震撼”了业界。盘古系列超大预训练模型包括了中文语言(NLP)、视觉(CV)大模型,多模态大模型、科学计算大模型。这其中,盘古NLP大模型是业界首个千亿级生成与理解中文NLP大模型;华为云在视觉领域打造的包含超过30亿参数的CV大模型,也在不断突破行业的极限。
华为云人工智能领域首席科学家、国际欧亚科学院院士、IEEE Fellow田奇表示,下一阶段,盘古研发团队将继续对盘古多模态大模型进行迭代演进,持续开发上游通用能力;同时也会将把大模型拓展到更多的行业领域,让盘古多模态大模型演化成诸多盘古行业多模态大模型,从而加速盘古系列预训练大模型的“上天”(通用能力打造)与“入地”(行业落地)步伐。
在“上天”方面,华为云目前就正在针对盘古大模型的预训练技术、大模型的微调技术以及大模型的应用技术,展开了持续的探索与创新。
一是,在盘古大模型的预训练技术领域,华为云的目标是希望能够以更低的成本得到更大的模型,并且能够快速地迁移到不同的行业,适配不同的语言。为此,在预训练技术的结构、初始化和训练方面盘古大模型也都展开了新的实践。以结构环节为例,盘古大模型就基于同网络的多模型融合技术,以更少的GPU卡,更少的训练时间,来训练更大更优的模型;初始化环节方面,华为云通过自适应网络参数迁移等创新方案,也大幅度降低了模型的训练难度,提升了训练的速度;在训练环节,华为云也正通过模型融合技术、领域融合技术以及跨语言映射技术等,实现了更快更稳地训练。
二是,在盘古大模型的微调技术领域,华为云的目标是希望在大模型的基础上,用更少的样本、更短的选择时间来得到更好的微调的结果。为此,华为云通过多任务微调技术、知识积累技术、零样本推理技术等,有效地降低了微调过程中所需要的样本训练数量和训练时间。此外,在模型参数微调方面,华为云也正通过数据降本、样本主动标注、样本能力挖掘等技术,实现微调方面的改进和优化。
三是,在盘古大模型的应用技术领域,华为云重点关注生成、搜索、翻译等领域的技术创新。以“生成”为例,华为云希望通过大模型助力文学的创作、对话、问答;“搜索”方面,华为云的目标是让盘古大模型能够更好地支撑文本、图片、视频、音频等不同模态的搜索,在搜索领域更好的发挥出大模型的价值;而“在翻译”方面,华为云主要基于不同语言的大模型来支持多种语言之间的相互翻译等等。
“入地”方面,盘古大模型同样也成为了整个AI产业发展的关键底座,正在千行百业中发挥越来越重要的价值,除了上文中提到的时尚设计产业,华为云盘古大模型还在超过100个实际场景中取得应用,覆盖金融、医疗、工业、气象、电力、零售、政务等多个领域。
比如,盘古CV大模型目前已经在医学影像、金融、工业质检等100余项实际任务中得到了验证,平均缩短开发时间80%以上,极大地提升了开发效率以及模型性能。再比如,盘古NLP大模型具备广泛的运用场景,在金融领域,可以辅助识别企业风险,助力企业尽调和项目审核。
在制药行业,盘古大模型还学习了17亿个药物小分子的化学结构。因此,在药物生成方面,就能够对小分子化合物的独特信息的深度表征、对靶点蛋白质的计算与匹配,以及对新分子生化属性的预测,从而高效生成药物新分子;在药物优化方面,盘古大模型也可以对药物的药性进行判断,如针对毒性、溶解性、蛋白质靶点的预测,由此实现了对筛选后的先导药进行定向优化等等。
而展望未来,除了赋能千行百业之外,华为云也正在联合更多的行业伙伴构建全新的行业生态,在标准制定、中小微企业模型算力方面持续努力,让盘古大模型实现更快的落地和扎根,最终通过降低AI开发和使用门槛,更好地推动人工智能规模化的商用,由此开启AI的千亿、万亿市场,将人工智能带入全新的时代。
全文总结,在大凉山深处,孩子们穿上了华为云盘古大模型“编织”的新年新衣,感受到了AI带来的温度;而越来越多的企业和行业,也正在借助华为云盘古大模型的“七十二变”能力,感受到了AI带来的创新速度和高度,相信在不久的将来,华为云盘古大模型也必将开启新一轮的AI应用浪潮,在千行百业中爆发出更多的价值。
申耀的科技观察,由科技与汽车跨界自媒体人申斯基创办,18年企业级科技媒体工作经验,长期专注企业数字化、产业智能化、ICT基础设施、汽车科技内容的观察和思考。