AI芯片逐渐成为了智能手机中的的必备功能之一,其实,深度学习(机器学习,神经网络)并不一定要求特定的硬件,神经网络可以在任何形式的处理器上面,包括CPU,GPU,DSP,FPGA上面运行,只是说,针对智能手机这种应用产品形态,使用专用的NPU硬件去做神经网络推理,技术上已经成熟了,经济上也是一件值得去做的事情。如果炫丽的AI特效可以撬动消费者钱包里更多的钱的话,大家都愿意去做。
先看一段介绍:
AI通话作为小米MIUI12中新增的一个智能语音电话系统,是为了帮助障碍人士更好地进行语音通话。当不方便接取电话时,使用小爱同学的“AI通话”(电话助理)功能,可以接起电话并将对方的话用文字显示在屏幕上,小爱同学会根据对方说的话,自动生成几条最合适的回答,您可以选择其中一句回答,小爱将用语音的方式说给对方。
可以看到不但可以实时将语言范围成文字显示,还能在你不方便的的时候帮你接电话打电话,乖乖,妈妈再也不用担心我忘接老婆的电话了。
电话不能随便打,就白嫖了一下10086的免费小姐姐,果然如同功能介绍的,AI通话助手直接把语音翻译成文字了,有图有真相:
这个应用的本质是语音转文字,他一定用到ASR网络,语音识别功能是基础,其次应该也用到了文字纠错网络.
FestaVR - 在线商店3D试衣间
模型:openpose
github地址:https://github.com/CMU-Perceptual-Computing-Lab/openpose
AI-PQ AI画质增强.
AI-SR AI超级分辨率.
AI 语音助手.
AI健身,出厂配套电视摄像头,AI健身主要用于体位检测,姿态检测。
AI人脸,人形检测,识别,可能已经builtin到电视逻辑中了。
文字识别是AI的一个重要应用场景,文字识别过程一般由图像输入、预处理、文本检测、文本识别、结果输出等环节组成。
其中,文本检测、文本识别是最核心的环节。文本检测方面,在我的 OCR_detection
专栏相关文章中已介绍过了多种基于深度学习的方法(有的还没完成,待整理后都会放入该专栏),可针对各种场景实现对文字的检测,详请见专栏中的相关文章。
在以前的 OCR 任务中,识别过程分为两步:单字切割
和 分类任务
。我们一般都会将一连串文字的文本文件先利用 投影法
切割出单个字体,再送入 CNN 里进行文字分类。但是此法已经有点过时了,现在更流行的是基于深度学习的端到端的文字识别,即我们不需要显式加入文字切割这个环节,而是将文字识别转化为序列学习问题,虽然输入的图像尺度不同,文本长度不同,但是经过 DCNN 和 RNN 后,在输出阶段经过一定的 CTC 翻译转录后,就可以对整个文本图像进行识别,也就是说,文字的切割也被融入到深度学习中去了。
现今基于深度学习的端到端 OCR 技术有两大主流技术:CRNN OCR
和 attention OCR
。其实这两大方法主要区别在于最后的输出层(翻译层),即怎么将网络学习到的序列特征信息转化为最终的识别结果。这两大主流技术在其特征学习阶段都采用了 CNN+RNN
的网络结构,CRNN OCR
在对齐时采取的方式是 CTC
算法,而 attention OCR
采取的方式则是 attention
机制。本部分主要介绍应用更为广泛的 CRNN
算法。
OCR的前处理,需要进行去重,选择,拼接,这是ocr很标准的流程,就是你拿比扫的过程中,可能不稳定,也可能一个字被扫了几次,他们前处理就把这些字都拼起来,高度一致,然后作切分送给网络,比如上下抖动,子都不齐了,被扫了几次是因为扫描帧率很高,比如240,120这种,都是很高的帧率,你在每个字上停留半秒,一个字就有几十张重复的照片,所以要选择一个,去重,选择,拼接。
ALI方案120帧每秒,没有去重,之前跑CPU,后面要看下能否到NPU上,有图像拼接的,拼接完后是一张图。
IPC品类的不止会用到人形,也会用到人脸识别
DS-2CD7A87FWD-(I)(L)(X)Z(S)(G)(/JM)(/DN)(/NMFC)(/ZJ)(B) | 7系列智能网络摄像机 | Hikvision
这是一个纯视觉方案的BSD实现,没有用到雷达,而是NPU跑一个目标检测网络,检测到对应目标后,交给处理器做后处理分析,后处理逻辑上应该包括盲区接近分析,接近报警等逻辑,然后再屏幕上或者喇叭上做报警。V833方案。核心是NPU跑一个目标检测网络。
人(脸识别),证(件扫描),(扫)码,(测)温一体机
门禁,考勤的人脸识别是本地的还是联网的?一般都有几百到上千张的的本地识别库,如果是联网的话,还要本地库干什么。
回答:本地的,联网做数据上报,断网了也能提供门禁功能,只是无法上报信息对吧。
从山上到下可以依次为展现层(APP,应用,小程序),应用层( 场景业务逻辑层的展现), 平台层(framwork层), 网络层. 感知层(各类传感器).
保护用户隐私和数据安全,不需要用户的彩色照片即可进行数据加密演算方法完成身份验证,保证身份识别功能并从物理层面隔绝用户隐私数据。避免数据外露,保证用户的隐私安全。
保护用户隐私:旁人无法用肉眼直接识别出屏幕中3D城乡的真是身份,也无法用一般彩色相机或摄像机进行翻拍。
数据安全:身份数据可用不可见,可选择不存储用户广泛被使用的彩色人脸数据,仅通过加密算法进行身份匹配和识别。
识别算法整合3D TOP摄像头,无惧无光,强光,逆光等极端大光比场景识别。
多模混合型生物识别:掌静脉,指纹,指静脉。