找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 3561|回复: 0

[【理工类原创】] 语音参数编码器的研究概况

[复制链接]
发表于 2007-6-4 22:59:31 | 显示全部楼层 |阅读模式
自LPC10和LPCIOe语音编码标准出现以来,在2kb/s-4kb/s的低速率语音编码领域的研究仍十分活跃,主要原因是人们对LPC10的语音质量不满意。在长期的研究中,人们逐步认识到,LPC10参数模型中所采用的二元激励模型过于简单,是其合成音质难以提高的主要原因。由此出现了很多基于LPC语音生成模型激励源改进的编码算法,这些算法大致可分为三类,即插值类、谐波类和混合激励类。

1、波形插值(WI)与时频插值(TFI)编码
  1991年美国AT&T贝尔实验室的W.B.Kleijn博士提出了典型波形插值(PWI-Prototype Waveform Interpolation)的语音编码方法[1][2]。PWI算法就是在一定的时间范围内(20-30ms)以慢变的基音周期波形为基础,在浊音帧里提取和传送一段典型波形,用波形插值恢复未传送的信号。W.B.Kleijn博士的实验结果表明,运用PWI原理在 kb/s能获得优良的浊音语音质量。但PWI也有其局限性,如PWI仅适用于浊音语音,必须与CELP或其他方法结合起来才能实现一个完整的编码系统,从而导致清浊音两种工作模式转换处附近产生明显的听觉失真。再者,基音周期的线性插值引入了过强的周期性,有时会产生“嗡嗡”声。另外PWI编码器的算法过于复杂。
  当编码速率低于3kb/s时,PWI重建语音质量会明显下降,鉴于此,W.B.Kleijn博士又提出了特征波形(CW-Characteristic Waveform)分解的语音编码算法[3][4]。该方法将语音信号表示为渐变的特征波形,当语音信号为明显的浊音时,CW慢渐变,当语音信号为明显的清音时,CW快渐变。用简单的非自适应滤波器将CW分解为慢渐变波形(周期的)和快渐变波形(非周期的),对这两种成分分别编码,大大增加了编码效率,在2.4kb/s的语音质量接近FS1016标准。该方法避免了清浊判决带来的影响,适用于所有语音段。
  时频插值(TFI – Time Frequency Interpolation)编码方法[5]是贝尔实验室的Yair Shoham提出的,它将一段典型的特征波形变换到频域,编码传送的是这段特征波形的频谱矢量,未传送的语音频谱采用频域插值的方法恢复,然后采用付氏反变换得到整帧语音的时域信号。典型谱的提取是在语音残差域进行的,与PWI极为类似.用TFI方法在2.5kb/s - 4kb/s可获得高质量的浊音语音,但TFI也有与PWI类似的缺点,必须与CELP或其它方法结合起来才能实现一个完整的编码系统。

2、多带激励(MBE)编码[6]与正弦变换编码(STC)[7]
  MBE编码算法是美国麻省理工学院的D.W.Griffin博士在1985年提出的,它是基于语音产生模型改进的编码算法。MBE语音模型与传统的LPC语音模型不同,它将每帧语音的短时谱按照其基频划分为多个频带,对每个频带作清/浊判决,取代了LPC语音模型中对每帧语音作单一清/浊判决的简单处理,考虑到了每帧语音的激励信号是周期(浊音的)和类噪声(清音的)能量的混合情况。这种修改激励模型的做法使得MBE编码器的合成语音质量高于传统的LPC语音模型,也使得MBE语音模型抗背景噪声的能力增强。由于MBE编码器码书较小或基本不需要码书,所以它的计算复杂度很低,易于用DSP实现。
  美国数字声音系统公司(DVSI-Digital Voice System Incorporation)及其它公司推出了改进的多带激励(IMBE-Improved MBE)和先进的多带激励(AMBE-Advanced MBE)编码器技术,并在商品化领域取得很大成功。其中,IMBE技术被选为几种应用的语音编码标准,如1990年国际海事卫星(Inmarsat)组织选择了4.15kb/s的IMBE算法作为其系统的语音编码标准,4.4kb/s的IMBE编码器被TIA选为公共安全通信主管协会(APCO Association of Public-Safety Communications Officers)计划25( Project25 )北美陆地移动通信系统的标准。由DVSI公司开发的3.6kb/s AMBE编码器,其性能与全速率(8kb/s) VSELP北美数字蜂窝标准(IS-54)的性能相当。
  现在DVSI公司己推出了低价全双工话音Codec组件,97年生产出了基于AMBE算法的、数据速率从2.4kb/s一9.6kb/s的单片语音编码器(AMBE )。这些AMBE和IMBE硬件产品具有用户可选择纠错码率、话音激活及噪声嵌入、双音多频(DTMF)信号检测及合成、回声抵消等功能。
  正弦变换编码(STC - Sinusoidal Transform Coding)是一种谐波类语音编码方法,它是由音频波形的正弦模型建立开发的,最早的STC编码器是由美国麻省理工学院的林肯实验室发明的,它是将一段音频波形表示为一系列正弦波信号,每一个正弦波由其幅度、频率和相位确定。当给定足够高的编码速率时,可使得编码器的性能任意接近系统的要求。事实上,当用基于正弦波的基音估计器时,用正弦波的谐波组产生高质量的合成语音也是可能的,其编码语音的质量取决于对正弦波幅度和相位高保真编码的能力。为了开发码率低于4.8kb/s的语音编码器,避免对正弦波相位的编码非常必要,因而以语音信号的生成机理为基础,产生了一种称为最小相位谐波(Minimum-Phase Harmonic)的语音编码方法。这种最小相位谐波语音编码器仅仅依赖于基音、U/V信息和正弦波幅度三个参数,所以,低速率编码器的质量完全取决于有效量化正弦波幅度的能力。当前一种新的方法是用全极点模型表征正弦波幅度,通过量化全极点模型参数可实现低速率语音编码。
  在1992年进行的TIA半速率数字蜂窝语音编码方案预选评估中4.8kb/s STC编码器的性能等价于8kb/s VSELP算法。在1995年9月为取代LPC10e而进行的新的美国联邦政府标准评估中,2.4kb/s STC编码器为候选方案之一,其测试结果与FS1016 4.8kb/s CELP接近。正弦模型方法也是低速率语音编码研究的一个主要趋势。

3、混合激励线性预测(MELP)编码[7]-[12]
  MELP(Mixed Excitation Linear Prediction)编码方法是由美国乔治亚州理工学院的A.V.McCree博士提出的,它是传统LPC语音编码的改进型算法。其主要改进点是在传统的LPC参数模型中引入了五个附加特征:混合激励(Mixed Excitation)、非周期脉冲(Aperiodic Pulse)、自适应谱滤波(Adaptive Spectral Filtering)和脉冲扩散(Pulse Dispersion)、傅立叶幅度谱(Fourier Magnitude)。
  这五个特征的引入,在相当大的程度上改善了原有LPC参数模型的激励源构造,也消除了LPC合成语音中有时出现的机械的或蜂鸣的音调噪声,增强了抗背景噪声的能力。在正式的听力测试中,2.4kb/s MELP声码器得到的诊断可接受分(Diagnostic Acceptability Score)比同样速率下的LPC-10e标准高5分。1996年5月8日在亚特兰大乔治亚州举行的国际声学、语音和信号处理会议(ICASSP)上,MELP声码器被美国国防部数字声音处理协会DVPC-Department of Defense Digital Voice Processing Consortium选作为2.4kb/s语音编码的联邦标准。在7个候选方案中,MELP是最好的,合成语音质量甚至与两倍码率的FS-1016 4.8kb/s声码器相近。


参考文献:
[1]  W.B.Kleijn, “Continuous Representaion in Linear Predictive Coding”, IEEE ICASSP’91, pp.201-204,Toronto, 1991
[2]  W.B.Kleijin, ”Encoding Speech using Prototype Waveforms”, IEEE Trans. on Speech and Audio Processing, Vol.1, pp.386-399, Oct.1993
[3]  W.B.Kleijin, Waveform Interpolation for Coding and Synthesis. In Speech Coding and Synthesis. edited by Kleijn W B, Paliwal K K. 1995.175~207
[4]  W.B.Kleijin, J.Haagen, “Transformation and Decomposition of the Speech Signal for Coding”, IEEE Signal Processing Letters, Vol.1, No.9, pp.136-138,Sept. 1994.
[5]  Yair Shoham, \"Low-rate speech coding based on time-frequency interpolation\", ICSLP-1992, 37-40.
[6]  D.W.Griffin, J.S.Lim. “Multiband excitation vocoder”, IEEE Trans Acoust, Speech, Signal Processing, 36:1223~1235. August, 1988,
[7]  McAulay R J, Quatieri T F. “Speech analysis/synthesis based on a sinusoidal reconstruction”. IEEE Trans, on Acoustics, Speech, and Signal Processing, ASSP-34(4):744~754,1986.
[8]  A.V.McCree, T.P.Barnwell III. “Improving the performance of a mixed excitation LPC vocoder in acoustic noise”, Proc IEEE ICASSP'92 San Francisco, 1992.II137~II140
[9]  A.V.McCree. A new LPC vocoder model for low bit rate speech coding [ph D thesis]. Georgia Inst Technol, Atlanta, Ga, Aug, 1992
[10]  A.V.McCree, T.P.Barnwell III. “A new mixed excitation LPC vocoder”, Proc IEEE ICASSP'91.Toronto, 1991. 593~596
[11]  A.V.McCree, T.P.Barnwell III. “Implementation and evaluation of a 2400 bit/s mixed exciation LPC vocoder”, Proc IEEE ICASSP'93.Minneapolis, 1993. II159~II162
[12]  A.V.McCree, T.P.Barnwell III. “A new mixed excitation LPC vocoder model for low bit rate speech coding”, IEEE Trans on Speech and Audio Processing, July, 1995,3(4): 242~250
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-6-2 09:45 , Processed in 0.376668 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表