卫朋丨第112篇原创文章
阅读提示丨5775字 30分钟
实操干货,大家可先收藏
虚实结合,打造最强产品人
上到战略规划,下至元器件选型,本号力图为读者呈现一整套的产品落地化打法。
市面上的内容 90% 以上都是启发式的,而启发式最大的问题是很难落地,对个体悟性要求极高。
有一句万金油式的说法“量变引起质变”,问题是绝大多数人都等不到质变的点。
更有效的学习方式是“实践+失败+再实践”的轮回,这也是每个人从小畜成长起来的底层逻辑。
这也是本号想要解决的问题,通过“启发+实践”的新形式带大家高效进阶。
言归正传,今天聊聊产品选型的落地打法。
最近在做产品的低成本替代方案,涉及到元器件的重新选型。
这里卫 Sir 以电子部分的语音模块为例,带大家全面了解一下选型过程。
这部分内容偏技术侧,你可能暂时用不到,建议收藏以备不时之需。
目录如下:
1. 选型基础
2. 语音基础知识扫盲
3. 方案 A
4. 方案 B
1. 选型基础
首先,选型要以整体方案为基准,没有这个基点,后续的所有工作都是白费。
其次,你需要明确选型的目的。
本篇案例主要针对降成本,其中隐含两个层面的信息。
一个是满足降成本业务层面的需求;
一款产品一般由几百甚至几千个元件组成,这些元件必须按期备齐,以便制造产品。
哪怕缺失一个小小的阻容件,生产也无法正常开展。
不仅所有生产所需元件需要按时到位,而且要保证这些元件尽可能价格低廉。
在这个过程中你会面临多个挑战:
(1)元件来自多家供应商,经常有几十个供应商为一款产品供应元件;
(2)通常元件购买支出占产品总成本的最大头,采购者需要跟供应商协商争取一个好价格,不然就会产生不必要的成本支出;
(3)某个元件供应商突然中断供货,比如经销商把所有存货卖给一个大客户或地震造成工厂停工等,这时必须尽快找到其他供应商,以免影响正常生产;
(4)所用元件都可能被淘汰,供应链的工作人员需要负责找到合格的可替代元件,并且可能需要工程师参与修改元件的重新设计工作;
(5)元件的交货期不一样,常见元件可能第二天就到货,甚至当天就到,但是有些元件,比如定制的 LCD 可能要等上几个月。
以 LCD 为例,如果你发现到货的 LCD 有缺陷,则可能需要再等上几个月才能拿到合格的元件。
(6)确保元件是正品,市面上会有一些品质低劣的货源,可能会引发安全性和可靠性问题。
如果发货的产品包含劣质元件,可能会导致产品召回,甚至是更严重的后果。
针对上述问题,你可能已经想到了一种简单的解决办法,那就是在项目开始时就预定好生产需要用到的所有元件,然后把它们存放在库房中。
这样生产时可以直接从库房取用已经备好的元件,这样就永远不会出现元件供应中断的问题了,因为所有元件都可以随时从库房中取用。
但是,就财务和管理来说,库存一般是需要花钱买来的,而且在做成成品之前,这些元件无法直接带来任何收益。
换句话说,库存就意味着把投入的资金摆在货架上,不但无法产生收益,而且占空间。
从财务和管理的角度看,最理想的情况是元件到达的当天就投入使用,它们存入库房的时间最多几个小时。
正常情况下,你可以存放可供几天生产的元件库存,以便元件的供应不中断。
而那些比较少见的元件可存放较大量的库存,因为供给链断裂产生的风险也相应较高。
与制造商和分销商进行谈判:
一方面要确保所需元件能够正常供应;
另一方面要尽可能地减少购买支出。
在元件供应问题解决之后,你就有了生产所需的所有元件,接下来就要开始生产了。
另一个是满足最低使用要求,如果客户不认可,也代表选型失败。
继续以语音选型为例。
2. 语音基础知识扫盲
将语音应用于智能硬件就绕不开模拟信号的数字化,也就是指语音信号的量化。
涉及的三个关键词分别是:
采样:将语音模拟信号转化成数字信号;
采样率(f):每秒采样的个数(byte);
波特率(T):每秒钟采样的位数(bit),波特率直接决定音质,bps: bit per second。
采样位数(n):是指在二进制条件下的位数,一般在没有特别说明的情况下,声音的采样位数指 8 位,由 00H--FFH,静音定为 80H。
采样率
嗓音的频带宽度为 20~20KHZ 左右,人们说话的语音频率范围是300Hz~3400Hz,比如电话机电路就是按照这个指标设计的。
根据奈奎斯特定律,采样频率只要高于最高频率的两倍,就可以实现声音不失真还原。
而小于两倍频谱最高频率时,信号的频谱就会有混叠。
因此,只要采样率大于 6.8k=3.4k*2,即可还原电话语音。
一般针对普通的语音 IC,采样率做到 16K 就足够了。
说话声一般取 8K(如电话音质)或 6K 左右,低于 6K 效果比较差。
在应用到单片机的过程中,采样越高,定时器中断速度越快,会影响到其他信号的监控和检测,所以要综合考虑。
考虑到硬件损耗和破音情况,一般将语音转化为数字声音时,采样频率至少需要 8KHz,采样位数为 16 位。
也就是说 1 秒就可以采集 15.625KB 的数据。
8000*16=128000bit=128000bit/8=16000byte=16000byte/1024=15.625K。
语音压缩技术
由于语音数据量庞大,对语音数据进行有效压缩是很有必要的,能够在有限的 ROM 空间里录入更多的语音内容。
以唯创生成的语音 bin 文件为例,对于采样率为 8KHz,采样位数为 16bit 的语音文件,实际码率为 8*16=128kbps,而设置的目标码率为 16kbps,数据压缩率在 8 倍左右。
压缩有以下几种方式:
(1)语音分段
将语音中可以重复的部分截取出来,通过排列组合将内容完整地回放出来;
(2)语音采样
一般使用的喇叭频响曲线在中频部分,较少用到高频。
所以,在喇叭音质可以接受的情况下,适当降低采样频率,达到压缩效果,这种过程是不可逆的,无法恢复原貌,叫有损压缩;
(3)数学压缩
主要是针对采样位数进行压缩,这种方式也是有损压缩。例如,采用 ADPCM 压缩格式,是将语音数据从 16bit 压缩到 4bit,压缩率是 4 倍。
MP3 是对数据流进行压缩,涉及到数据预测问题,它的波特率压缩倍率为 10 倍左右。
以 Speex 进行压缩为例:
下载地址:
https://www.speex.org/downloads/
Speex 是一套主要针对语音的开源免费,无专利保护的音频压缩格式。
Speex 工程着力于通过提供一个可以替代高性能语音编解码来降低语音应用输入门槛 。
另外,相对于其它编解码器,Speex 也很适合网络应用,在网络应用上有着自己独特的优势。
同时,Speex 还是 GNU 工程的一部分,在改版的 BSD 协议中得到了很好的支持。
Speex 是基于 CELP 并且专门为码率在 2-44kbps 的语音压缩而设计的。
它的特点有:
窄带(8kHz),宽带(16kHz)和超宽带(32kHz)压缩于同一位流;
强化立体编码;
数据包丢失隐蔽;
可变比特率(VBR);
语音捕捉(VAD);
非连续传输(DTX);
定点运算;
感官回声消除(AEC);
噪音屏蔽。
因为 speex 的压缩率为16:1。
1s 无压缩的数据为 15.625KB,使用 Speex 压缩后只有 15.625KB/16=0.9765625KB。
通常,以上几种压缩方式都是综合起来使用的。
常用语音格式
(1)PCM 格式
Pulse Code Modulation 脉冲编码调制。
它是将声音模拟信号采样后得到的量化后的语音数据,是最基本最原始的一种语音格式。
类似的还有 RAW 格式和 SND 格式,它们都是纯语音格式。
(2)WAV格式
Wave Audio Files 是微软公司开发的一种声音文件格式,也叫波形声音文件。
WAV 被 Windows 平台及其应用程序广泛支持。
WAV 格式支持许多压缩算法,支持多种音频位数、采样频率和声道。
WAV 文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据,这些数据包括采样频率和位数,单声道还是立体声等。
(3)ADPCM 格式
是利用对过去的几个抽样值来预测当前输入的样值,并使其具有自适应的预测功能与实际检测值进行比较,随时对测得的差值自动进行量化级差的处理,使之始终保持与信号同步变化。
它适用于语音变化率适中的情况,而且声音回放过程简短。
它的优点是对于人声的处理比较逼真,一般达到 90% 以上,已广泛地应用于电话通信领域。
(4)MP3 格式
它是利用 MPEG Audio Layer 3 的技术,采取了名为“感官编码技术”的编码算法。
编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的 mp3 文件。
并使压缩后的文件在回放时能够达到较接近原音源的声音效果。
它的实质是 vbr(Variant Bitrate 可变波特率)可以根据编码的内容动态地选择合适的波特率。
因此编码的结果是在保证了音质的同时又照顾了文件的大小。
mp3 压缩率 10 倍甚至 12 倍。
(5)Linear Scale 格式
根据声音的变化率大小,把声音分成若干段,对每段用线性比例进行压缩,但是它的比例是可变的。
(6)Logpcm 格式
基本上对整个声音进行线性压缩,将最后若干位去掉。
这种压缩方式在硬件上很容易实现,但音质比 Linear Scale 差一些,特别是音量较小声音比较细腻的情况下效果较差。
声音处理软件
(1)SoundForge;
(2)Cooledit;
(3)GoldWave
卫 Sir 使用到了 GoldWave 这款软件来修改采样率。
语音选型从大的方向分为两种方案:
方案A:主控制器(内置DAC数模转换)+ 功放 + 喇叭;
方案B:主控制器(低成本,无内置DAC)+ 语音芯片 + 喇叭。
3. 方案 A
方案A:主控制器(内置DAC数模转换)+ 功放 + 喇叭。
硬件选型
仅做示例参考,实际设计需要综合公司资源、成本需求等选择具体实施方案。
主控芯片选择STM32F103;
在PC端使用语音转化工具将需要的文字转化为语音,例如生成wav语音文件;
将生成的语音烧录到内置或外接Flash内;
使用主控自带DAC进行语音播放,需要外接功放,也就是放大电路,再接上喇叭就可以播放语音。
注:
ADC = Analog Digital Change,是指模数转换 ;
DAC = Digital Analog Change,是指数模转换。
4. 方案 B
方案B:主控制器(低成本,无内置DAC)+ 语音芯片 + 喇叭。
该方案需要使用到语音芯片。
目前市场上可供选择的语音芯片、模块,可以根据时间长短和功能来选择。
语音芯片定义
基本原理与方案 A 类似,通过将语音信号通过采样转化为数字,存储在语音芯片的 ROM 中,再通过电路将 ROM 中的数字还原成语音信号。
语音芯片根据集成电路类型来分,凡是与声音有关系的集成电路被统称为语音芯片(Voice IC),但是在语音芯片的大类型中又被分为语音 IC(Speech IC),音乐 IC(Music IC)两种。
(1)普通语音芯片放音功能实质上是一个DAC过程,而ADC过程是由电脑完成,其中包括对语音信号的采样、压缩、EQ等处理。
(2)录音芯片则包括ADC和DAC两个过程,都是由芯片本身完成的,包括语音数据的采集、分析、压缩、存储、播放等步骤。
设计一个使用语音芯片的产品,首先要考虑是否使用录制现场语音,如需要录制语音则选用带有录音功能的语音芯片,否则就选用只有放音功能的语音芯片。
通常带有录音功能的语音芯片都具有回放语音的功能,但是在播放语音时,音质都没有专门的放音语音芯片好,所以在选择语音芯片时要权衡功能及音质方面等因素。
安防系统、会议记录系统、录音玩具等产品都要求具备录音功能,这类型产品的开发都会用到录音语音芯片。
市场上有录音功能的芯片主要有 ISD1110、ISD1400、ISD1700、ISD1800、ISD2500、ISD3300、ISD4000、WTR030、WTR050、WTV040、WT2000 等。
利用录音芯片开发的录音模块,拥有更为简洁的外围电路和更佳的效果。
如 WTR030M01、WT2000B02 录音模块,这些模块利用外部的 FLASH 作为存储中心,因而能够录制更长时间的语音。
仅用到放音功能的设备很多,像治疗仪、倒车雷达、报站器、报警器等。
这类型的产品不需要录制现场的语音,将已经处理过的语音利用工具下载到语音芯片播放就可以。
音质的优劣取决于 ADC 和 DAC 位数的多少,以唯创语音芯片为例:
WTV 系列,ADC 和 DAC 均为 16bit,接近 CD 音质;
WTB 系列 DAC 为 8bit,为普通音质。
语音芯片公司为了表述的形象化,由语音长度来表示存储 ROM 的大小。
普通语音芯片以 6K 采样率为语音长度计算标准;
录音 IC 以 4K 采样率为语音长度计算标准。
相同品类语音芯片的成本与芯片的大小成正比:
I/O 口的分配和 ROM 的大小(语音秒数)决定芯片成本,低秒数语音芯片其 I/O口 较少;
音质提高,采样提高,语音秒数缩短;
音质降低,采样降低,语音秒数变长。
语音秒数的计算方法:
M/(n*f):
M:ROM大小(bit);
n(采样位数)*f(采样率):波特率。
一般情况下,语音芯片默认存储是 OTP 的。
OTP 的英文全称是 One Time Programable,是指一次性可编程语音芯片,语音只能烧写一次,适合应用在不需要修改语音、语音长度短的场合。
从放音的长度上可以分为 10 秒、20 秒、40 秒、80 秒、170 秒、340 秒。
OTP 语音芯片的特点是单芯片方案、价格便宜,适合中小型批量生产,即便是小数量生产也可以及时拿货。
主要应用在门禁安防、家用电器、汽车电子等行业上。
这种方式声音清晰、时间短、价钱低、制作容易,订货数量不限、出货速度快,所以是产品试验阶段首选方案,缺陷是不可以重复多次烧写。
一般情况下,用户订货时,由厂家将内容烧写好,然后交给用户。
存储方式
语音芯片根据存储方式可分为 OTP ROM、FLASH ROM、EEPROM 及 MASK 四种。
关于 OTP ROM 方式上文已有介绍。
FLASH ROM 和 EEPROM 的共性是可重复擦写、存储空间大,可随意更换控制方式和语音内容,能存储更大的语音文件。
EEPROM 通常都会集成在芯片中,此类型语音芯片价格比较昂贵,如 ISD1700、ISD2500 等。
一般可以外挂的 FLASH ROM 有 1Mbit~32Mbit,因需要用“语音芯片+FLASH”才能工作,价格比 OTP 的稍高,但整体售价比EEPROM 的低,适合制样或者中小型批量投产。
使用 FLASH ROM 的语音芯片有 WT588D、WT2003S 等。
上面讲解了语音芯片,那什么是语音模块呢?
它的结构是:MCU+外挂存储器,所以它的存储容量会比芯片大得多,从 10~30 分钟都有。
但是,价钱一般从 20~80 元不等起,是芯片的好几倍,体积也比芯片大,功耗也稍微要大一点。
唯创出了一些可以重复擦写的模块,比如:WT588D 系列语音模块, WT2003S 系列语音模块等。
一些可以通过专用的烧写器来更换内容;
一些可以直接通过 USB 口来更换语音内容,甚至还可以在现场下载内容,进行语音的更新。
音质与语音长度
语音存放的长度由音频采样率及芯片内部(或外挂)ROM 空间所决定,音频采样率的大小直接影响音频输出的音质。
同一型号芯片的音频采样率越高,音质越好,但是需要占用更多的 ROM 空间。
芯片的成本也因存储空间的增大而有不同幅度的上涨。
如果对音质要求较高、语音时间在5分钟内,可以考虑选用ISD语音芯片、WTV语音芯片、WT588D语音芯片、ISD语音芯片。
要求音质高、语音时间长可以选用WT2003B01模块、WT2000B03模块。
对音质要求不高、语音时间在340秒以内可选用WT588C语音芯片。
从录音长度方面考虑:
要求录音长度在340秒以内,可选用ISD1700、ISD2500语音芯片;
要求录音长度在30分钟内,可选用WTR030M01录音模块;
录音长度达到数小时,则要用WT2000B02录音模块。
卫朋
人人都是产品经理受邀专栏作家,CSDN 资深技术博主。2020 年 8 月开始写产品相关内容,截至目前,人人都是产品经理单渠道阅读 44 万+,鸟哥笔记单渠道阅读 130 万+,CSDN 单渠道阅读 180 万+,51CTO单渠道阅读 160 万+。
卫朋入选 2021 年人人都是产品经理年度最具影响力作者,光环国际学习社区首批原创者、知识合作伙伴,商业新知 2021 年度产品十佳创作者。
文章被人人都是产品经理、运营派、产品壹佰、鸟哥笔记、光环国际、商业新知等头部垂直类媒体转载。文章见仁见智,各位看官可策略性选择对于自己有用的部分。