小米AI 连接智能生活

近年来,人工智能(AI)技术在多个领域落地并不断取得发展与突破。在互联网的推动下,AI语音助理、智能家居、眼镜相机等产品相继推出,打造了更加便捷的生活体验。

秉承着“技术为本”的理念,小米始终致力于前沿技术的探索。2016年,小米正式成立AI实验室,覆盖计算机视觉、语音声学、自然语言处理(NLP)、知识图谱、机器学习等多个研究方向。曾获百万美金技术大奖的Cyberdog铁蛋仿生机器人就融入了计算机视觉、自然语言处理和声学语音等多项AI技术。

那么,什么是视觉AI技术呢?小米的AI技术又有哪些新进展?让我们跟随小米AI实验室主任王斌、声学语音技术总监王育军、语音首席科学家 Daniel Povey一起走进AI技术。

01

AI视觉

AI视觉主要研究方向包括图像、视频的处理和理解,人脸、人体算法等。小米技术团队重点研究了手机相机的基础画质算法、图像视频的智能编辑、识别和理解。

  1    硬核算法,助力手机影像

近年来,小米AI实验室陆续为小米手机贡献了HDR、超级夜景、万物追焦、AI相机、单摄人像模式、美颜、人脸解锁、人脸相册、魔法换天、智能挑片、照片文字搜索等多个重点功能的核心算法。这些算法为相机系统架构“小米影像大脑”提供了强有力的技术支撑,其中,HDR、人像超清、边缘画质提升等技术曾助力小米手机3次登顶DXO。

小米AI 连接智能生活_第1张图片

“超越人眼,感知人心”是小米提出的全新影像理念,让用户通过快门记录每个感动人心的瞬间是小米一直以来的愿景,而AI使这变得更加容易。例如,打开相机后,AI场景检测就会判断用户所处的场景是白天还是夜晚,室内还是室外。按下快门,HDR、超级夜景等算法会通过不同参数智能化地对当前场景进行处理,进而拍摄出适宜的动态范围、明暗对比强烈且细节细腻的照片。在小米全新影像理念背景下,HDR、超级夜景、AI场景检测等算法助力徕卡双画质,在手机上赋予用户单反级相机的影像体验。

小米AI 连接智能生活_第2张图片

基于计算机视觉技术打造的“万物追焦”功能可以自动识别和聚焦人、猫、狗等动物,并针对不同拍摄距离进行焦点实时跟踪,随手一拍都清晰。“万物追焦2.0”在追焦1.0的基础上进行了大量功能更新,加入动物、花朵等多类目标的精准识别对焦,目前已在 Xiaomi 13系列、Redmi K60系列落地。

小米AI 连接智能生活_第3张图片

  2    所见即所得,高效办公“神器”

为普通用户带来更好的科技体验与便捷应用,实现“科技向善”,是小米视觉的技术愿景之一。除了影像画质,AI视觉还涵盖了多种实用功能。基于深入的用户调研,泛文档类对象是小米用户的核心拍照场景之一,通过前沿的对抗生成网络技术、三维模拟建模等AI技术,小米视觉逐渐落地了包括超级文档、AI去影、畸变恢复、手写消除、终端实时文字提取、表格识别等多个功能。

值得一提的是,终端实时文字提取、表格识别、手写消除等多项功能,最近在小米新系列机型先后上线,提升了小米手机商务应用方向的产品竞争力。其中,表格识别技术一经推出,就成为了日常办公中的“神器”:小米AI实验室利用 Visual AI 开发出表识别功能,可高效准确地提取纸质表格信息,实时转换为可编辑的电子表格,极大提升了办公效率。

小米AI 连接智能生活_第4张图片

图| 雷总在MIX FOLD2发布会上介绍表格智能提取功能

小米视觉将文字识别功能实现了终端化,并成功内置在小米13系列相机预览中,实现了业内一流的文字识别准确性,且可涵盖中英文等多种语言,达成实时“所见即所得”的文字识别能力。结合语音播报,为视障视弱人士提供了生活便利,提升了小米手机的无障碍应用能力。

小米AI 连接智能生活_第5张图片小米AI 连接智能生活_第6张图片小米AI 连接智能生活_第7张图片

图| 结合相机预览的实况文字识别

02

AI声学语音

小米声学语音技术发展已久,并在自研部分领域持续领先。其中,语音识别、语音唤醒、声纹识别、口语评测、语音合成、歌唱合成、AI作曲与编曲等方面均取得了重大突破。截至2022年,小爱同学月活跃用户数量为1.15亿,是世界上最忙的语音助手之一。声学语音团队承接了小米手机×AIoT设备上日均12.6亿次请求,为4.59亿设备累计提供了2158亿次交互语音服务。

  1    语音交互,声入人心

从学术角度来看,AI语音交互的三个终极目标分别是语境理解、情感对话和个性化。

“咖啡还是茶?”大多数时候,应该从两种特定饮料中选择一种,而不是回答“这是咖啡”。因此,使AI能够理解不同语境下人类语音的模糊性是自然语言处理的最终目标之一。

同时,小米将情感带入智能语音助手“小爱同学”,把原先只用来“定闹钟”“查天气”的“小爱同学”打造成一个可以吐槽、可以聊天的朋友。在专业心理研究团队的指导下,AI学会了理解情感,并可以给出同理心的答案。去年“520”情人节,小爱同学甚至举办了一场脱口秀。

小米AI 连接智能生活_第8张图片

在语音交互的个性化、拟人化领域,小米AI实验室语音团队创新性地推出了个性化歌唱技术。依托AI语音的技术创新,通过复杂的语言和声学建模,使用户能够通过Text to speech引擎构建自己的声音个性,以此帮助不擅长、不敢唱歌的人克服障碍,让他们可以用歌声表达自己的情感。

此外,小米AI实验室还将自研的声音适配算法和超级拟人语音合成技术应用于无障碍领域,通过声音捐赠、模型训练、语音调制等过程完成声音的定制,为语言障碍者打开“有声”世界,兑现了小米“科技向善”的承诺。

  2    声学交互,声临其境

声学方面,目前AI通话降噪、空间音频,主动降噪等技术已在手机、电视、小爱、耳机手表等60余款产品中落地。

自研手机通话降噪技术,通过传统信号处理降噪和神经降噪的融合与相互助力,获得了更加深度的上行降噪量,同时使用丽音增强技术对远端语音根据环境自适应提升下行音质。在把手机通话降噪算法应用于耳机这样的可穿戴设备上,自研算法利用骨导传感器的输入,虚拟一颗耳内麦克风,使得在极低信噪比下的降噪变为可能。这些算法的创新应用于小米10至尊版、小米Note12 Pro系列手机,以及小米Bud4 Pro,以及小米手表S1 Pro等设备。

小米AI 连接智能生活_第9张图片

小米自研全新独立空间音频技术,实现了空间音频技术在耳机内部芯片上的独立计算,无需依赖外部设备,即可营造出水平360° 的立体听感,即使头部转动,声源仍然保持固定,宛如置身现场。基于此项技术,小米Buds 4 Pro 在多个方面都达到了行业领先水平。

此外,小米AI实验室声学团队自主研发的主动降噪技术已落地应用于小米Buds 4 (Pro),最大降噪深度可达43dB,不仅最高可阻隔99.3%外部噪音,更能针对虫鸣、啼哭等宽频噪音进行优化处理,从而实现各种场景条件下良好的降噪体验。

03

自然语言处理(NLP)

在自然语言处理(Natural Language Processing)领域,小米目前研究的内容主要包含人机对话、机器翻译、机器写作、舆情分析等技术。已累计申请专利近80项,在 IWSLT 2020 开放域翻译、IWSLT 2022 机器同传以及 NAACL 2022 机器同传等国际机器翻译挑战赛上获得多项冠军,在IJCAI/AAAI/ICASSP/COLING/ACL/SIGIR等国际会议发表学术论文十余篇,“小米在线机器翻译系统”获2020年中国信息通信研究院机器翻译系统性能良好型评估认证,“端云协同机器翻译平台”获2021年中国国际大数据产业博览会“领先科技优秀项目”。

  1    机器翻译,跨越语言鸿沟

在全球化和国际化背景下,智能设备用户在跨语言交流、出境旅游、获取外语信息等场景下普遍需要机器翻译功能。目前,小米自研机器翻译技术已广泛落地应用于小爱翻译、小爱同学、AI通话助手、浏览器、传送门、笔记、扫一扫等小米手机软件产品,以及小爱老师学习机、小爱音箱、小爱鼠标、米兔手表、小米手环、米家眼镜相机等智能硬件产品,月活跃用户数超千万。

小米AI 连接智能生活_第10张图片

图| MIUI全场景翻译

  2    人机对话,跨越心灵沟通

自然语言处理任务是人工智能皇冠上的明珠,对话系统又是自然语言处理中最难、最核心的任务之一。小米自研的闲聊对话能力,经历了从早期的检索算法到现在的对话生成模型,从只有基础的IQ到也包含EQ,正朝着以用户体验为中心的目标不断努力。目前自研闲聊服务通过小爱赋能了76个品类、4000余款设备,月活用户数超5000万。

  • 情绪感知能力:基于度量学习的情绪(语义)表示模型,可以识别6大类情绪,理解45种情绪原因或者状态,落地小米CyberOne铁大人形机器人,为业内首创。

小米AI 连接智能生活_第11张图片

  • 共情对话能力:基于情绪原因和积极聆听的共情对话策略,让用户在和小爱闲聊时感受到共情。

小米AI 连接智能生活_第12张图片

  • 多轮情感对话能力:首创在自研常识图谱上根据因果推理生成混合疏导策略,使得小爱的回复更有温度。

小米AI 连接智能生活_第13张图片

  • 心理咨询技法嵌入:首创将认知行为疗法、焦点解决短期疗法等引入情绪疏导对话中,帮助用户减轻情绪问题。

    小米AI 连接智能生活_第14张图片

  • 语言风格个性化:通过独创的语言风格迁移技术,仅用小数据就可以实现多种角色语言风格的快速打造。

小米AI 连接智能生活_第15张图片

  3    交互游戏,沉浸休闲体验

除了闲聊对话,各种交互游戏也是智能助手必备的技能。下面这些倍受用户欢迎的小爱技能,就是利用结构化信息、知识挖掘和AI生成等自然语言处理技术打造的。

小米AI 连接智能生活_第16张图片

04

知识图谱

小米AI实验室在图谱构建和图谱应用领域也取得了重大突破。在图谱构建方面,技术团队联合OpenKG进行了知识图谱的开源工作。在实体链接技术方面,两次获得中文短文本实体链接比赛第一名。

目前建立的知识图谱包含13个行业,高质量关系数量超百亿,已经广泛落地到智能问答、智能客服、广告、信息流等产品中。

  1    知识问答,小爱在线求考

小爱同学每日承接数亿次query请求,智能问答业务利用知识图谱平台丰富多样的数据不断优化用户体验。以学生场景为例,图谱加持下的智能问答功能和体验不断完善,增加了飞花令、猜灯谜、写春联等趣味功能,词典全面覆盖用户需求,内容和结果更加精品。学生场景的功能深受用户喜欢,近一年日活增长近一倍。

小米AI 连接智能生活_第17张图片  小米AI 连接智能生活_第18张图片 小米AI 连接智能生活_第19张图片

此外,依托图谱平台实体链接服务提供的核心词,智能问答业务不断优化语义理解能力,提出了多轮场景下基于核心词的意图改写模型,根据多轮会话还原用户真实意图,有效地解决了缺省、冗余、ASR错误等问题,从而能够准确地满足用户需求。基于图谱的问答技术能力在业界处于领先,获得过中文知识图谱问答比赛第一名。

  2    智能客服,轻松舒心的陪伴

智能客服业务依托知识图谱平台,打造了在线客服机器人、智能外呼、智能IVR等产品,为公司每年节省上千名客服人力。

  • 在线客服:基于NLP和深度学习技术,通过文字与用户进行交互,达到解决用户问题的目的,年接待用户咨询约2150w,用户咨询拦截率(用户咨询智能客服机器人后离开,不再转人工咨询)73%+,领先业界同类竞品6-7个点。

小米AI 连接智能生活_第20张图片

  • 智能外呼:通过多轮问答技术,以语音方式主动与用户进行通话,一方面提升用户的购买和售后体验,另一方面达到去人工降本提效的目标,年呼出电话量3000w,其中中国区满意度回访场景72小时服务有效率提升3.85%,提前完成目标;核心场景接通率76%-80%,比竞品高出6个点。

  • 智能IVR:根据用户对话内容进行实体识别(NER)和用户问题理解,进而实现人工队列的智能路由,以及通过多轮对话引导解决用户问题,小米网智能路由准确率90%左右,有品场景通过IVR能够拦截用户咨询10-15%。

小米AI 连接智能生活_第21张图片

05

技术共享:新一代Kaldi

Kaldi作为最流行的开源语音识别软件,被业界公认为语音识别框架的基石。一直以来,小米致力于通过技术创新,让世界上每个人都享受更美好的生活。为实现这一使命,由小米集团首席语音科学家、Kaldi 之父Daniel Povey 牵头组建团队研发“新一代 Kaldi”

小米AI 连接智能生活_第22张图片

“新一代Kaldi”是小米纯自主研发的全新的面向未来的开源语音识别框架,该项目在推动语音识别技术发展的同时,也将提高小米语音识别技术的国际竞争力和影响力。

目前,该项目的核心工作主要有两部分,一是继续提升语音识别性能,重点研究包括新的声学编码器、半监督及无监督训练、高效的解码方法、大模型训练等技术,力求取得技术突破,将语音识别准确率推上一个台阶,促进语音技术的进一步发展;二是推进“新一代Kaldi”的工程化、产品化落地,并赋能小米语音产品。

开源的本质是技术共享,我们希望“新一代Kaldi”能够惠及全球开发者、各大中小企业,以及每一位用户,让智能语音更加触手可及。

世界的美好源自于科技的进步,技术创新只有与社会、行业和人的紧密结合,才能最大限度推动技术成果落地,从而真正做到改变人们的生活。未来,小米将不断探索科技新高度,让更多人享受科技带来的美好生活。

小米AI 连接智能生活_第23张图片

小米AI 连接智能生活_第24张图片

你可能感兴趣的:(人工智能,生活)