3.2.5 自适应差值脉冲编码调制( ADPCM)
自适应差值脉冲编码调制( Adaptive Differential Pulse Code Modulation, ADPCM)是一种为提高数字通信系统的频带利用率而发展起来的语音压缩编码技术, ITU-T 为此制定了G.721 推荐标准,它可在 32 kb/s 数码率上达到 64 kb/s 的 PCM 数字电话语音质量。
ADPCM 是在差分脉码调制( DPCM)的基础上发展起来的,所以首先介绍 DPCM 的原理。
1.差分脉码调制( DPCM)
语音信号和图像信号经抽样后得到样值序列,经分析可知,当前时刻的样值与前面相邻的若干时刻的样值之间有明显的关联。这样,可以根据前一时刻的样值来预测当前时刻的样值,预测值和实际值之差为差值。
大量统计的结果是,在大多数时间内,信号本身的功率比差值的功率要大得多,如果只传送这些差值来代替信号,那么码组所需的位数就可以显著减小。差分脉冲调制就是利用样值之间的关联进行高效率波形压缩编码的一种典型方法。
图 3-9 是差分脉码调制( DPCM)原理组成框图,图中模拟信号 x(t)和预测信号 xq(t)输入到比较器,输出误差 e(t)=x(t)-xq(t)。对 e(t)进行抽样、量化和编码得到了 DPCM 信号,这是一个二进制的数字序列。此信号分成两路,一路送至信道上传输,另一路送至反馈支路,经过本地译码器译码产生预测信号。在接收端,可以用相同的译码器译码,并经过低通滤波器后恢复模拟信号。
图 3-9 差分脉码调制( DPCM)原理组成框图
DPCM 与 PCM 的区别是:在 PCM 中是对信号的抽样值直接进行量化、编码后传输,而DPCM 则是对信号抽样值与信号预测值的差值进行量化、编码后传输。由于差值信号的动态范围一般比信号小, 如果输入信号统计特性已知, 则进行适当预测可使差值信号范围更缩小。
实验表明,在较好图像质量的情况下,每一抽样值只需 4 bit 就够了。因此大大压缩了传送的比特率。另一方面,如果比特速率相同,则 DPCM 比 PCM 信噪比可改善 14~17 dB。
DPCM 的缺点是较易受到传输线路噪声的干扰。因为 DPCM 能压缩比特率的实质,是由于声音和图像信号相邻的抽样值之间,存在明显的相关性,因此用一般的 PCM 传输时,信号含有多余信息。 DPCM 预测减少了多余信息,所以抗传输噪声的能力必然降低。
DPCM 预测效果与信号统计特性有密切关系,要使声音和图像信号(统计特性随时间变化)获得最佳的效果,预测电路应跟踪信号性质的变化。
2.自适应差分脉码调制( ADPCM)
为了能进一步提高 DPCM 方式的质量,在语音相当宽的变化范围内仍能得到最佳的性能,特别是适应因人、因时不同的语音信号变化,在 DPCM 中增加自适应系统,这里的自适应包括自适应预测和自适应量化,增加自适应系统 DPCM 的称为自适应差分脉冲编码调制( ADPCM)。
1)自适应量化
自适应量化是对 DPCM 误差 e(t)信号非均匀量化过程中,让量化间隔大小的变化与输入信号方差相匹配,即量化间隔随输入信号的方差而变化。
现有的自适应量化方案有两类:一是其输入信号幅度或方差,由输入信号本身估算,这种方案称为前馈自适应量化器;二是其量化阶距,根据量化器的输出来进行自适应调整,或等效地用输出编码信号进行自适应调整,这类自适应量化方案称为反馈自适应量化器。
无论采用哪种自适应量化方案都可以改善动态范围及信噪比,比相同电平数固定量化改善 10~12 dB。
反馈控制的优点是:量化阶距的信息由码字序列提取,不需要传输或存储额外的阶距信息,但在重建输出信号时,传输误码对质量的影响比较明显。
前馈控制时,要求码字与阶距一起传输,以用来得出信号,虽然增加了复杂性,但它有可能在差错控制保护下传输阶距,减少传输误码的影响,即使在高误码率传输时,也有较好的输出信号质量。
2)自适应预测
自适应预测是对 DPCM 预测信号 xq(t)进行自适应预测,并将根据前面一个抽样,确定下个预测值称为一阶预测,采用前面若干个样值,作为参考来推算预测值称为高阶预测。
为了在接收端,根据差值的编码产生下一个输入样值的准确预测(估计),可以对前面所有样值的有效信息冗余度进行加权求和,加权系数又称为预测系数。
自适应预测是使预测系数的改变与输入信号幅度值相匹配,从而使预测误差为最小值,这样预测的编码范围可减小,可在相同编码倍数情况下提高信噪比。
3) 32 kb/s ADPCM 系统
ITU-T G.721 建议提出了与现有 G.712 建议 64 kb/s PCM 系统兼容的 32 kb/s ADPCM 的实现,其主要技术指标满足 G.712 对语音质量要求。
32 kb/s ADPCM 编码器的方框图如图 3-10 所示。它由 PCM 码/均匀量化线性码间的变换器、自适应量化器、自适应逆量化器、自适应预测器和量化尺度适配器组成。
编码器输入的信号为非均匀量化 PCM 码,可以是 A 律和μ律 PCM 码。为了便于进行数字信号运算处理,首先将 8 位非均匀量化码变换为 12 位均匀量化码,然后进入 ADPCM 部分。
均匀量化的 PCM 信号与预测信号相减获得预测误差信号。自适应量化器将该差值信号进行量化并编成 4 位 ADPCM 码输出。
ADPCM 码流通过自适应逆量化器产生量化差值信号。量化差值信号与信号预测值相加形成再建信号。自适应预测器对再建信号及量化差值信号进行运算形成对输入 PCM 信号的预测信号估值。
量化尺度适配器包括定标因子自适应和自适应速度控制两电路。编码器中的量化器和逆量化器的自适应均受量化尺度适配器中的定标因子的控制。
32 kb/s ADPCM 解码器的方框图如图 3-11 所示。它由自适应逆量化器、自适应预测器、均匀量化线性码/PCM 码变换器、量化尺度适配器以及同步编码调整器组成。译码器中有与编码相同的电路,只是多了一个同步编码调整器,其作用是使级联工作时不产生误差积累。
3.2.6 子带编码( SBC)
把语音信号的频带分割成不同的频带分量(称为子带),然后再分别对这些子带独立地进行抽样编码的方式,称为子带编码( Sub-Band Coding, SBC)。
子带编码将信号分解成不同频带分量的过程去除了信号的冗余度,得到了一组互不相关的信号。这同 DPCM 方式的机理虽然不同,但从去除冗余度角度这两者又是相似的。
SBC 主要有两个优点:
首先是可以通过分配给各子带不同的量化间隔和编码比特数来分别控制它们的信噪比,以较低的总码率获得较好的语音质量。这主要靠利用人耳听觉的“掩蔽”效应实现的。例如,语音信号低频部分涉及语音基音周期和第一共振峰等,对语音清晰度等主观品质影响较大,信噪比应高些,即量化间隔选小些,分配较多的编码比特数;对语音的高频部分,量化噪声对语音质量的影响小些,信噪比可低些,所以量化间隔可以稍大些,用较少的比特编码。这样,便可在保证语音质量的前提下,使编码的总比特数降低。基于此原因,子带编码方式既不是纯粹的波形编码又不是纯粹的参量编码,它是二者的结合,应属于混合编码,这类编码方式也称为频域编码。
其次,子带编码各子带的量化噪声相互独立,被束缚在自己的子带内,这样就能避免输入电平较低的子带信号被其他子带的量化噪声所淹没。
实现子带编码原理的系统组成方框示意图如图 3-12 所示。
在发端,首先通过带通、调制将各个子带信号转换成低通信号,然后再根据低通抽样定理对各子带信号进行抽样,由于子带信号转换成了低通信号,所以可使抽样频率降低到各子带带宽的两倍。接着分别量化编码,最后将各路数字流,合在一起,送往信道中传输。
在收端,再将它分接(即分路)、解码并恢复各个子带信号,然后将各个子带信号解调,组合起来还原成原语音信号。
实验证明, 16 kb/s SBC 系统的语音质量相当于 24 kb/s 的 ADPCM 系统,其典型参数如表 3-5 所示。
子带编码器可应用于模拟线路, 并兼容传输数字化语音, 和在一般线路上传输数字语音。目前有人还提出了可变子带编码器,其比特速率最低可达 4.8 kb/s,其语音质量可与 7.2 kb/s的固定子带编码相比拟。
3.3 语音参量压缩编码技术
参量压缩编码的原理和设计思想与波形压缩编码完全不同。
波形压缩编码的基本思路是忠实地再现语音的时域波形,为了降低比特率,可充分利用抽样点之间的信息冗余性对差值信号进行编码,在不影响语音质量的前提下,比特率可以降至 32 kb/s。
参量压缩编码根据对语音的形成机理分析,着眼于构造语音生成模型,要了解参量压缩编码原理,首先必须了解语音形成机理,以及语音产生的数学模型。
3.3.1 语音产生的过程及数学模型
语音是由人类的发声器官产生,气流通过声带、声门,由咽腔、口腔和鼻腔等共同控制而发音,完整的发声系统还包括由肺、支气管、气管组成的次声门系统,次声门系统是产生语音能量的源泉。当空气从肺中呼出来时,气流由于声道某一地方的收缩而受到扰动发出声波。语音形成的大致过程可如图 3-13 所示。
语音按其激励分为 3 种形式:浊音、清音和爆破音。
1.浊音与基音
浊音又称有声音,伴有声带振动的音,发浊音时声带在气流的作用下准周期地闭合或开启。即气流通过声门、声带的张力使得声带发生张弛式的振荡,这时就会产生一股准周期气流,这股气流激励声道时就产生浊音,如图 3-14 所示。
由于声带振动有不同的频率,因此浊音就有不同的音调,称之为基音频率,这个倒数称为基音周期,若基音周期为 TP,则基音频率为 fP。基音频率与个人声带有关,在很大程度上反映了个人的特征。一般而言,男性基音频率大致分布在 50~250 Hz 左右,女性和小孩的基音频率在 100~400 Hz 左右。2.清音和爆破音清音又称无声音,声带不振动的音,由声学和流体力学知,当气流速度达到某一临界速度时,就会引起湍流,此时声带不振动,声道被噪声状随机波激励,产生较小幅度声波,其波形与噪声很像,这就是清音,清音信号没有准周期特性,如图 3-15 所示。
图 3-15 清音
如果声道完全闭合,在闭合后产生气压然后突然释放,这就得到了爆破音。从语音信号的频谱分析可知,语音信号除基音外还存在基音的多次谐波,浊音信号的能量主要集中在各基音谐波的频率附近,而且主要集中于低于 3 kHz 的范围。另外,气流压的不同强度就对应为声音的音量大小。3. 共振峰及声道模型参数
人的声道和鼻道都可以看成非均匀截面的声道管,如图 3-16 所示,声道管的谐振频率称为共振峰频率。共振峰频率和声道的形状和大小密切相关,每种形状都有一套共振峰频率作
为其特征,改变声道的形状参量(数) a1, a2, a3,…, aN,就产生不同的声音。
图 3-16 声道模型(口腔和鼻腔)
由流体力学知,声道频率特性(唇口声速与声门声速之比)与谐波类似,频率特性对应的谐振点叫做共振峰频率,共振峰只会出现在浊音频谱中。
共振峰频率由高到低依次为第一共振峰,第二共振峰,第三共振峰…,分别用 F1, F2, F3…表示。一般浊音有 5 个共振峰,前 3 个最重要。
4.语音信号产生的数学模型
根据以上对实际发音器官和发音过程的分析, 可将语音信号发生过程抽象为如图 3-17 所示的数学模型,也就是说,语音是语音激励源激励一个参数变化的声道而产生的。这里,以具有一定周期的脉冲源表示浊音的激励,以分布平坦的噪声源来表示清音激励。
周期信号源表示浊音激励源,随机噪声信号源表示清音激励。根据语音信号种类,由浊/清音开关决定连接哪一种激励源。
声道模型(口腔和鼻腔)可以看成一个时变线性系统对声波系统起滤波作用,其参数随口腔运动缓慢变化,增益控制代表语音的强度。
3.3.2 参量编码与声码器简介
语音信号的特征参数主要有:基音周期、共振峰频率、清/浊音判决和语音强度。基音周期和清/浊音判决可以同时获得,其方法主要有三大类:
( 1)时域法,指直接用语音信号波形来估计的方法;
( 2)频域法,指将语音信号变换到频域来估计的方法;
( 3)混合法,指综合利用语音信号的频域和时域特性来估计的方法。
语音信号参数编码始于 1939 年美国人 Homer Dudey 发明的声码器,它是根据语音信号的特征参数来编码,又称声源编码,也称为声码器编码,又叫“声码器技术”。
参数编码是以发音机制的模型为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特征参量并进行量化编码,从而实现语音信号到数字信号的转变的。
构成声码器的主体是一个滤波器,这个滤波器的作用相当于人类的发音器官——喉、嘴、舌的组合。声码器中滤波器的系数和若干声源参数,由语音信号的频谱特性所决定。
在发送端,对输入语音信号加窗(截取一帧语音),对该帧语音信号进行分析,模拟发声结构,求出这帧语音信号的激励参数(包括清浊音判决信息和基音周期参数)和声道参数。然后,对语音信号的特征参数进行提取和编码,最后输出。
在提取语音信号的特征参数时,利用语音信号生成模型,幅度谱上要逼近原语音,并在编码前进行清浊音判断, 力图使重建语音信号具有尽可能高的可懂度, 即保持原语音的语意。
在接收端,根据接收到的参量编码和上述模型还原生成发话者的音素。即在浊音段,激励信号采用具有该浊音段基音周期的周期脉冲序列;在清音段,激励信号采用白噪声序列。在合成端将激励信号通过代表声道特性的时变线性系统滤波器产生合成语音。
具体来说,用上述模型模拟语音的发声过程,语音信号可以看做不同激励信号通过时变线性系统产生的输出。发送端对该模型的参量(参数)进行编码,相当于对该语音信号的主要特征而并非具体的语音波形幅值编码。
根据分析可知,模型参数的更新频度较低,并可利用抽样值间的一定相关性,故可有效地降低编码比特率。
声码器主要有通道声码器、 共振峰声码器、 相位声码器、 线性预测( LPC: Linear Predictive Coding)声码器等, LPC 声码器是重要的一种。
其中 LPC 声码器是以线性组合模型均方误差最小意义下逼近原始波形的方法提取参数,较好地解决了编码速率和语音质量的问题, 以其成熟的算法和参数的精确估计成为研究的主流,并已走向实用。美国政府 1980 年公布的 2.4 kb/s 线性预测编码算法 LPC-10 就是采用的这种方法。 1986 年,美国第三代保密电话装置采用了 2.4 kb/s 的 LPC- 10e( LPC- 10 的增强型)作为语音处理方法。