随着生物识别种类的不断增加,以语音为基础的身份验证方式似乎比其他方式更容易让人接受,因为语音识别具有非接触、非侵入性和易于使用的特点,所以语音识别特别受大众消费者的喜欢。
2022年7月21日,由中国开源软件推进联盟主办,赛迪传媒、《软件和集成电路》杂志社联合承办,CSDN独家直播的“第十七届开源中国开源世界高峰论坛”上,小米集团副总裁崔宝秋带来了《智能时代的开源创新》主题演讲。
以下为崔宝秋演讲实录:
尊敬的各位嘉宾、各位同行,线上的各位老朋友和新朋友,大家好。非常高兴能够再次参加开源中国开源世界高峰论坛,感谢大家对小米的关注。
开源不仅是理念、是运动、是一个团队协作的模式,更是一个创新的平台。在智能时代,开源运动如火如荼。从云计算到大数据,再到人工智能;从视觉到语音,再到自然语言处理;从手机到智能家居,从智能音箱到智能可穿戴设备,从智能制造到智能汽车,AI无处不在,开源也无处不在。
在开源界出现了一种声音,我认为是对开源比较片面的理解——“开源的本质就是软件分发的方式,没有其他噱头,没有更加关键的东西,开源和创新没关系”。我认为对于某些开源项目,以及某些利益驱动的公司而言,可能确实如此,但如果讲到开源的本质,我不敢苟同。
开源的本质就是协同和创新,协同是各方开源力量的协同,创新是技术的创新。在20世纪80年代初,GPL开源协议诞生,当时希望打造一个免费的、自由的Unix替代品。正是因为有了比较理想的追求,所以从1991年开始打造Linux。当时Linux问社区中的人,你们对Unix怎么看,有什么建议和反馈。这问题引起了更多人的关注和参与,开始有了Linux的成型。
下面我用几个案例分享一下为什么开源的本质是协同和创新,不仅仅是一个软件分发的方式。
Kaldi是一个国际知名的开源语音识别工具集,它被用在了很多智能语音助手以及语音识别产品中,在过去多年成为全球语音识别事实的标准。Daniel Povey博士被称为Kaldi之父。他的梦想就是想打造一个开源的Kaldi,让Kaldi永远开源下去。他选择小米的理由是因为小米多年来极致追求开源,在开源上做了很多长远的布局。所以他认为小米可以给他长期、稳定的投入,能够让他安心地打造Kaldi。
那么他为什么要打造Kaldi?作为研究人员,后来成为约翰·霍普金斯大学的教授。他的初心不是为了分发Kaldi,而是为了真正帮助那些中小企业做语音识别,希望用开源模式让全球更多的开发者一起打造,这是他的梦想。
在过去多年来,第一代的Kaldi已经被很多智能语音助手所用,例如小爱同学、苹果的Siri等也都用到了Kaldi基础框架。
还有个例子表明了开源为什么可以促进创新,为什么叫站在巨人肩膀上的创新。58同城在2021年发布了一篇文章,讲述他们基于Kaldi等开源技术,三个人用半年就打造了语音识别引擎。为什么能用很短的时间、很少的投入就可以打造自己的语音识别引擎?这里面离不开开源的Kaldi。
2019年Daniel加入小米,就开始打造他梦寐以求的下一代Kaldi。在去年8月31日他正式向外宣布新一代Kaldi正式成型,里面分为三个子模块——LHOTSE、K2、ICEFALL。
Kaldi依赖的是开源社区所有人的共同打造,当我们把国际的开源社区、开源项目引到中国之后,来自于小米和国内的参与者大量增加。所以从下一代Kaldi的三个子模块中,可以看到参与者来自全球各地,但来自于小米和国内的参与者居多。如下图所示,K2是第一红线,表明了Kaldi社区的活跃度。
开源是一个协同的平台,没有群众的参与,Daniel博士和小米的工程师不可能快速迭代新一代的Kaldi。我们用建立微信群模式来运营社区,昨天有个同学告诉我,他们有两个活跃的微信大群,里面至少有25家大中小企业在密切关注新一代Kaldi的进展。这些企业覆盖了很多领域,包括智能制造、互联网、手机、搜索引擎、智能芯片、电子商务、智能助手、社交、培训,还有差旅、金融,甚至房地产。我们没想到有这么多行业的人都在关注语音识别。最近小米的Kaldi团队正式设立了一个公众号,这个公众号的关注度也在快速增长。
过去一年多来,新一代Kaldi取得了长足的进展,中文词错率已经低到4.26%,英文词错率最低达到2.0%。在万小时的中英文数据级上,新一代Kaldi更是领先同行。
在新一代Kaldi上实现了全链路的GPU加速,运行效率大幅度提升,解码速度相对于实时超过了400倍,400秒的音频一秒钟就可以解码完成,并且支持单台32GB机器可运行200路的识别。所以在未来小米的各种产品上,性能提高的同时能降低语音识别的成本,这对于有海量用户的企业来说是一个好消息。
新一代Kaldi的高性能也崭露头角,在2022年国际语音声学领域顶级大会ICASSP语音信号处理挑战赛上,Kaldi技术在两个赛道中分别获得了冠军和亚军。在今年Magichub重口音对话语音识别挑战赛上,也拿到了第一名。这些奖项背后代表了新一代Kaldi的技术,参赛者不乏世界来自于各个团队的高手。
正是因为新一代Kaldi在技术上的创新和突破,也因为开源社区的活跃度、影响力,让新一代Kaldi获得了两个重磅的奖项。第一个是去年获得东北亚开源的优秀项目奖,第二个是中国国际大数据产业博览会领先科技成果奖。新一代Kaldi获得了全球产业界、学术界的高度关注,从去年8月底发布以来,国内外企业、高校纷纷跟进,目前已经有至少8篇论文,这些作者有来自北大的,有来自Daniel博士过去的学校约翰·霍普金斯大学的,还有卡耐基·梅隆大学、腾讯、英伟达。这代表了开源的语音识别工具级可以快速推进语音领域技术的创新与迭代。
大家都非常关注新一代Kaldi技术的应用,现在小爱同学的月活跃用户数已经达到了1.07亿,有3.2亿的AIoT产品都接入了小爱同学,覆盖了76个品类、4000多款应用。所有这些产品都需要Kaldi来赋能,我们正在快速地把新一代Kaldi高性能、低功耗、低成本落地到更多的产品中。
基于Apache Licence 2.0协议开源的Kaldi,真正想做到与行业的同行分享技术发展带来的红利。我认为两年多之后的今天,Daniel博士和我的承诺正在实现。
第二个分享的是MACE案例。在2018年开源中国开源世界高峰论坛上,我们正式对外开源来自小米的移动端深度学习框架MACE Moblle AI Compute Engine,用于在终端和智能设备端上加速AI的推理以及速度。MACE发布之后也受到业界的关注,前段时间我们发布了基于MACE体系的边缘侧的推理框架MACE Micro。它支持低功耗的智能设备,把AI推理能力、AI计算能力在智能设备上真正加速,同时降低对功耗的要求。
当时为什么我们要开源MACE?不是为了分发MACE,更多的是用开源的模式集合更多业界的同行一起打造端上的AI计算能力。从健康监测到耳机降噪、行为识别、儿童玩具、语音唤醒,都是MACE Micro的落地场景。
MACE也有很多应用案例,小米手机上的AI相机功能就离不开MACE的贡献。比如魔法换天,左边天空是灰色的,但通过魔法换天,可以让天空变得蔚蓝,直接改变人的心情。还有魔法消除,把照片中你不想看到的场景一键消除。
NuttX是一个RTOS系统,就是智能设备上的嵌入式操作系统。在移动时代,Android早期存在很多碎片化的现象,Google和全球很多手机厂家一起努力解决这些碎片化的现象。但面向未来,在万物互联时代或者AIoT时代,碎片化现象会更加严重,所以小米很早就开始关注NuttX,希望通过开源的嵌入式实时操作系统来解决碎片化现象。2019年,小米和NuttX团队创始人进行战略级合作,在我们的推动下,NuttX正式进入Apache孵化器。
去年,根据Apache 2021年年度报告,指出Apache NuttX是比较火的前五大开源项目,小米工程师肖翔同学也进入了Apache社区的前五大Committers,这些都代表了NuttX的活跃度。
在过去一年,小米为NuttX贡献了超过一半的代码量,成这个社区的绝对主力。
通过这三个案例,算是回应了开源圈中有很多人对开源的片面理解和解读。开源是什么?很多人说开源仅仅是一个推广分发软件的手段,或者说开源是一个促进用户增长的渠道。有人说开源是提升技术品牌的方法。有人说开源是提升公司估值的噱头,更有投资界的人说开源是一个快速盈利的商业模式。我认为在互联网、大数据和人工智能时代,如果你相信软件定义一切,相信AI赋能万物,那么开源是人类技术进步的最佳平台和模式。
非常感谢大家,谢谢。
点击2022(第十七届)开源中国开源世界高峰论坛-CSDN直播,查看更多精彩演讲内容!