双音多频DTMF(Dual Tone Multi-Frequency)信令,逐渐在全世界范围内使用在按键式电话机上,因其提供更高的拨号速率,迅速取代了传统转盘式电话机使用的拨号脉冲信令。近年来DTMF也应用在交互式控制中,诸如语言菜单、语言邮件、电话银行和ATM终端等。
由于DTMF在传统通信领域中的广泛使用,所以在VOIP中,DTMF仍是发挥着重要的作用。
一个DTMF信号由两个频率的音频信号叠加构成。这两个音频信号的频率来自两组预分配的频率组:行频组或列频组。每一对这样的音频信号唯一表示一个数字或符号。产生DTMF信号,就是利用两个不同频率的正弦波叠加以后形成的波形,解码时则采用改进的Goertzel算法,从频域搜索两个正弦波的存在。
下表描述了每个DTMF信号的频率。
1209 Hz 1336 Hz 1477 Hz 1633 Hz
ABC DEF
697 Hz 1 2 3 A
GHI JKL MNO
770 Hz 4 5 6 B
PRS TUV WXY
852 Hz 7 8 9 C
oper
941 Hz * 0 # D
由于在IP网中的通信传输是采用包交换(packet switch)而不是传统领域中的线路交换(circuit switch)以及IP网的不稳定的特性,DTMF在VOIP中应用的解决方案和传统有所不同,并且暂时还未统一,有多种解决方案。
下面简单介绍现有的各种方案。
该方法是用SIP信令的INFO方法来明文定义来代表DTMF信号。该种方法还在研究讨论当中,有专家认为其并不适用,主要缺陷是因为SIP控制信令和媒体传输(RTP)是分开传输,很容易造成DTMF信号和媒体包不同步。
简单举个例子,在 Voice Mail应用中,用户根据提示音输入一个DTMF信号,随后开始留言。Server是在接受到该DTMF信号后开始保存用户的留言。然而由于DTMF信号是通过SIP信令来传输的,而媒体流是通过RTP来传输的,有可能用户留言的RTP包先到,而该DTMF信号的INFO消息延迟,导致Server不保存用户的语音留言直至接受到INFO消息。
该方法是将DTMF信号和媒体流一样,用RTP包来传输,因而没有DTMF信号和媒体流不同步的问题,使用H323信令的VOIP就是采用该种方法,相对来说比较成熟。
而其中又分In band和Out of band(RFC2833)两种。
l In Band DTMF
In Band DTMF是指直接将DTMF的音频数字信号不经任何处理直接打成RTP包在IP网中传输。其中可能和用户的语音媒体流混合(mix)在一起传输。程序要获知哪个包有DTMF信号,是什么DTMF信号,必须实时检查每个RTP包里面的媒体流数据,分析它的频域。
l Out of Band DTMF(RFC 2833)
Out of Band DTMF是DTMF信号用专门的RTP包进行标识,在RTP包的头域中就可得知该包是DTMF包,并且知道是什么DTMF信号。RFC2833专门对此有定义。
当程序需要产生一个DTMF音频数字信号时,当然可以读取已经录制好的文件。
在这里介绍如何利用算法程序动态产生单个DTMF音频数字信号。
前面介绍过DTMF信号的原理是两个不同频率的正弦波叠加。
简单的生成正弦波的公式:sample=sin(n*2*PI*f/samplerate)
n:采样序数,由0开始递增
f:正弦波的频率
samplerate:采样频率
sample:序数n时的得出的采样值
如果要生成一个采样频率是8000hz,采样位是8bit的DTMF信号,则公式:
sample(n) = 128 + 63*sin(n*2*pi*f1/8000) + 63*sin(n*2*pi*f2/8000)
f1和f2分别是该DTMF信号的两个正弦波频率
其中128 = 256/2
63 = 128 /2 – 1
同样地,如果要生成16bit的DTMF信号,则公式:
sample(n) = 32768 + 16383*sin(n*2*pi*f1/8000) + 16383*sin(n*2*pi*f2/8000)
计算DTMF信号是一个耗费资源的过程,你可以通过不同途径去优化你的代码,最简单的是预先计算好2*pi*f1和2*pi*f2的值,减少CPU的计算时间。
关于DTMF信号的时间间隔,CCITT对DTMF信号规定的指标是,传送/接收率为每秒10个数字,即每个数字100ms。代表数字的音频信号必须持续至少45ms,但不超过55ms。100ms内其他时间为静音,以便区别连续的两个按键信号。
在输入信号中检测DTMF信号,并将其转换为实际的数字,这一解码过程本质是连续的过程,需要在输入的数据信号流中连续地搜索DTMF信号频谱的存在。
整个检测过程分两步:首先采用Goertzel算法在输入信号中提取频谱信息;接着作检测结果的有效性检查。
Goertzel算法
DTMF解码即是在输入信号中搜索出有效的行频和列频。计算数字信号的频谱可以采用DFT及其快速算法FFT,而在实现DTMF解码时,采用Goertzel算法要比FFT更快。通过FFT可以计算得到信号所有谱线,了解信号整个频域信息,而对于DTMF信号只用关心其8个行频/列频及其二次谐波信息即可(二次谐波的信息用于将DTMF信号与声音信号区别开)。此时Goertzel算法能更加快速的在输入信号中提取频谱信息。
[1] “Generating DTMF tones using soundcard” Tomi Engdahl
[2] “双音多频DTMF技术在DSP系统中的实现” 管庆徐胜
[3] “RTP Payload for DTMF Digits, Telephony Tones and Telephony Signals” RFC2833
H. Schulzrinne, S. Petrack
[4] “RTP: A Transport Protocol for Real-Time Applications” RFC1889
H. Schulzrinne,, S. Casner, R. Frederick, and V. Jacobson,
http://happyyangxu.home.sunbo.net/show_hdr.php?xname=N50SQV0&dname=LC81RV0&xpos=179