语音参数编码器的研究概况

processor · 发表于 2007-6-4 22:59:31

自LPC10和LPCIOe语音编码标准出现以来，在2kb/s-4kb/s的低速率语音编码领域的研究仍十分活跃，主要原因是人们对LPC10的语音质量不满意。在长期的研究中，人们逐步认识到，LPC10参数模型中所采用的二元激励模型过于简单，是其合成音质难以提高的主要原因。由此出现了很多基于LPC语音生成模型激励源改进的编码算法，这些算法大致可分为三类，即插值类、谐波类和混合激励类。

1、波形插值（WI）与时频插值(TFI)编码
  1991年美国AT&T贝尔实验室的W.B.Kleijn博士提出了典型波形插值（PWI-Prototype Waveform Interpolation）的语音编码方法[1][2]。PWI算法就是在一定的时间范围内（20-30ms）以慢变的基音周期波形为基础，在浊音帧里提取和传送一段典型波形，用波形插值恢复未传送的信号。W.B.Kleijn博士的实验结果表明，运用PWI原理在 kb/s能获得优良的浊音语音质量。但PWI也有其局限性，如PWI仅适用于浊音语音，必须与CELP或其他方法结合起来才能实现一个完整的编码系统，从而导致清浊音两种工作模式转换处附近产生明显的听觉失真。再者，基音周期的线性插值引入了过强的周期性，有时会产生“嗡嗡”声。另外PWI编码器的算法过于复杂。
  当编码速率低于3kb/s时，PWI重建语音质量会明显下降，鉴于此，W.B.Kleijn博士又提出了特征波形(CW-Characteristic Waveform)分解的语音编码算法[3][4]。该方法将语音信号表示为渐变的特征波形，当语音信号为明显的浊音时，CW慢渐变，当语音信号为明显的清音时，CW快渐变。用简单的非自适应滤波器将CW分解为慢渐变波形(周期的)和快渐变波形(非周期的)，对这两种成分分别编码，大大增加了编码效率，在2.4kb/s的语音质量接近FS1016标准。该方法避免了清浊判决带来的影响，适用于所有语音段。
  时频插值(TFI – Time Frequency Interpolation)编码方法[5]是贝尔实验室的Yair Shoham提出的，它将一段典型的特征波形变换到频域，编码传送的是这段特征波形的频谱矢量，未传送的语音频谱采用频域插值的方法恢复，然后采用付氏反变换得到整帧语音的时域信号。典型谱的提取是在语音残差域进行的，与PWI极为类似.用TFI方法在2.5kb/s - 4kb/s可获得高质量的浊音语音，但TFI也有与PWI类似的缺点，必须与CELP或其它方法结合起来才能实现一个完整的编码系统。

2、多带激励(MBE)编码[6]与正弦变换编码(STC)[7]
  MBE编码算法是美国麻省理工学院的D.W.Griffin博士在1985年提出的，它是基于语音产生模型改进的编码算法。MBE语音模型与传统的LPC语音模型不同，它将每帧语音的短时谱按照其基频划分为多个频带，对每个频带作清/浊判决，取代了LPC语音模型中对每帧语音作单一清/浊判决的简单处理，考虑到了每帧语音的激励信号是周期(浊音的)和类噪声(清音的)能量的混合情况。这种修改激励模型的做法使得MBE编码器的合成语音质量高于传统的LPC语音模型，也使得MBE语音模型抗背景噪声的能力增强。由于MBE编码器码书较小或基本不需要码书，所以它的计算复杂度很低，易于用DSP实现。
  美国数字声音系统公司(DVSI-Digital Voice System Incorporation)及其它公司推出了改进的多带激励(IMBE-Improved MBE)和先进的多带激励(AMBE-Advanced MBE)编码器技术，并在商品化领域取得很大成功。其中，IMBE技术被选为几种应用的语音编码标准，如1990年国际海事卫星(Inmarsat)组织选择了4.15kb/s的IMBE算法作为其系统的语音编码标准,4.4kb/s的IMBE编码器被TIA选为公共安全通信主管协会(APCO Association of Public-Safety Communications Officers)计划25( Project25 )北美陆地移动通信系统的标准。由DVSI公司开发的3.6kb/s AMBE编码器，其性能与全速率(8kb/s) VSELP北美数字蜂窝标准(IS-54)的性能相当。
  现在DVSI公司己推出了低价全双工话音Codec组件，97年生产出了基于AMBE算法的、数据速率从2.4kb/s一9.6kb/s的单片语音编码器(AMBE )。这些AMBE和IMBE硬件产品具有用户可选择纠错码率、话音激活及噪声嵌入、双音多频(DTMF)信号检测及合成、回声抵消等功能。
  正弦变换编码(STC - Sinusoidal Transform Coding)是一种谐波类语音编码方法，它是由音频波形的正弦模型建立开发的，最早的STC编码器是由美国麻省理工学院的林肯实验室发明的，它是将一段音频波形表示为一系列正弦波信号，每一个正弦波由其幅度、频率和相位确定。当给定足够高的编码速率时，可使得编码器的性能任意接近系统的要求。事实上，当用基于正弦波的基音估计器时，用正弦波的谐波组产生高质量的合成语音也是可能的，其编码语音的质量取决于对正弦波幅度和相位高保真编码的能力。为了开发码率低于4.8kb/s的语音编码器，避免对正弦波相位的编码非常必要，因而以语音信号的生成机理为基础，产生了一种称为最小相位谐波(Minimum-Phase Harmonic)的语音编码方法。这种最小相位谐波语音编码器仅仅依赖于基音、U/V信息和正弦波幅度三个参数，所以，低速率编码器的质量完全取决于有效量化正弦波幅度的能力。当前一种新的方法是用全极点模型表征正弦波幅度，通过量化全极点模型参数可实现低速率语音编码。
  在1992年进行的TIA半速率数字蜂窝语音编码方案预选评估中4.8kb/s STC编码器的性能等价于8kb/s VSELP算法。在1995年9月为取代LPC10e而进行的新的美国联邦政府标准评估中,2.4kb/s STC编码器为候选方案之一，其测试结果与FS1016 4.8kb/s CELP接近。正弦模型方法也是低速率语音编码研究的一个主要趋势。

3、混合激励线性预测(MELP)编码[7]-[12]
  MELP(Mixed Excitation Linear Prediction)编码方法是由美国乔治亚州理工学院的A.V.McCree博士提出的，它是传统LPC语音编码的改进型算法。其主要改进点是在传统的LPC参数模型中引入了五个附加特征：混合激励(Mixed Excitation)、非周期脉冲(Aperiodic Pulse)、自适应谱滤波(Adaptive Spectral Filtering)和脉冲扩散(Pulse Dispersion)、傅立叶幅度谱(Fourier Magnitude)。
  这五个特征的引入，在相当大的程度上改善了原有LPC参数模型的激励源构造，也消除了LPC合成语音中有时出现的机械的或蜂鸣的音调噪声，增强了抗背景噪声的能力。在正式的听力测试中，2.4kb/s MELP声码器得到的诊断可接受分(Diagnostic Acceptability Score)比同样速率下的LPC-10e标准高5分。1996年5月8日在亚特兰大乔治亚州举行的国际声学、语音和信号处理会议(ICASSP)上，MELP声码器被美国国防部数字声音处理协会DVPC-Department of Defense Digital Voice Processing Consortium选作为2.4kb/s语音编码的联邦标准。在7个候选方案中，MELP是最好的，合成语音质量甚至与两倍码率的FS-1016 4.8kb/s声码器相近。

参考文献：
[1]  W.B.Kleijn, “Continuous Representaion in Linear Predictive Coding”, IEEE ICASSP’91, pp.201-204,Toronto, 1991
[2]  W.B.Kleijin, ”Encoding Speech using Prototype Waveforms”, IEEE Trans. on Speech and Audio Processing, Vol.1, pp.386-399, Oct.1993
[3]  W.B.Kleijin, Waveform Interpolation for Coding and Synthesis. In Speech Coding and Synthesis. edited by Kleijn W B, Paliwal K K. 1995.175～207
[4]  W.B.Kleijin, J.Haagen, “Transformation and Decomposition of the Speech Signal for Coding”, IEEE Signal Processing Letters, Vol.1, No.9, pp.136-138,Sept. 1994.
[5]  Yair Shoham, \"Low-rate speech coding based on time-frequency interpolation\", ICSLP-1992, 37-40.
[6]  D.W.Griffin, J.S.Lim. “Multiband excitation vocoder”, IEEE Trans Acoust, Speech, Signal Processing, 36:1223～1235. August, 1988,
[7]  McAulay R J, Quatieri T F. “Speech analysis/synthesis based on a sinusoidal reconstruction”. IEEE Trans, on Acoustics, Speech, and Signal Processing, ASSP-34(4):744～754,1986.
[8]  A.V.McCree, T.P.Barnwell III. “Improving the performance of a mixed excitation LPC vocoder in acoustic noise”, Proc IEEE ICASSP'92 San Francisco, 1992.II137～II140
[9]  A.V.McCree. A new LPC vocoder model for low bit rate speech coding ［ph D thesis］. Georgia Inst Technol, Atlanta, Ga, Aug, 1992
[10]  A.V.McCree, T.P.Barnwell III. “A new mixed excitation LPC vocoder”, Proc IEEE ICASSP'91.Toronto, 1991. 593～596
[11]  A.V.McCree, T.P.Barnwell III. “Implementation and evaluation of a 2400 bit/s mixed exciation LPC vocoder”, Proc IEEE ICASSP'93.Minneapolis, 1993. II159～II162
[12]  A.V.McCree, T.P.Barnwell III. “A new mixed excitation LPC vocoder model for low bit rate speech coding”, IEEE Trans on Speech and Audio Processing, July, 1995,3(4): 242～250

		自动登录	找回密码
密码			注册

[【理工类原创】] 语音参数编码器的研究概况