足球比分直播

基于DM642的AMR-WB算法优化与实现.pdf

返回
基于DM642的AMR-WB算法优化与实现.pdf_第1页
第1页 / 共64页
基于DM642的AMR-WB算法优化与实现.pdf_第2页
第2页 / 共64页
基于DM642的AMR-WB算法优化与实现.pdf_第3页
第3页 / 共64页
基于DM642的AMR-WB算法优化与实现.pdf_第4页
第4页 / 共64页
基于DM642的AMR-WB算法优化与实现.pdf_第5页
第5页 / 共64页
点击查看更多>>
资源描述:
湖南大学学位论文原创性声明本人郑重声明所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名 认云M 日期卅年 夕月 西日J学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密口,在 年解密后适用本授权书。2、不保密瓯请在以上相应方框内打“√”作者签名导师签名歹月r其讼-日诌旧硕士学位论文1.1论文选题背景及意义第1章绪论语音通信是人类通信最基本、最重要的方式之一。随着移动通信和互联网的飞速发展,语音通信技术也在不断地进行更新并与之相融合。而语音编码作为数字语音通信中的一项重要技术,也得到了飞速的发展。尤其是第三代移动通信的发展,对语音编码算法提出了更高的要求,不但要求编码率低以增加系统容量,而且要求合成音质较高以保证通话质量。而传统编码形式难于满足这两个要求,随着语音激活检测技术的出现和发展,使对有无语音进行判断成为了可能,从而可以对背景噪声和激活的语音部分以不同的速率进行编码,降低平均速率,人们便提出了变速率语音压缩编码。由于其有定速率编码无法具备的优点,同时随着移动通信市场的竞争异常激烈,变速率语音编码的研究也成为了研究热点。随着技术的成熟,它的应用领域也会越来越广阔。AMR.WB自适应多速率宽带语音编码标准是2000年12月由国际电信联盟公布的编码器的标准。它已被3GPP选定为GSM和3G无线W-CDMA的宽带编码器,并将应用于IP电话、第三代移动通信、ISDN宽带电话、ISDN可视电话和电视会议的等领域。它同时也是有线和无线业务第一次采用同样的编码器。AMR.WB编码是当前为数不多的变速率编码标准中的几种之一。AMR.WB的信号带宽是50HZ~7000HZ,采样率为16kHZ,相对于传统的200HZ~3400HZ带宽,拓宽了的50HZ~200HZ部分增强了语音的自然度和舒适度【卜31,高频带部分扩充了3400HZ~7000HZ,它增强了摩擦音的区分度,从而提高了语音的可理解性,增强了通话的临场感,也能更容易识别说话人。因而不论从理论还是从实际上,AMR.WB都是十分有应用前景的语音遍解码。AMR.WB支持6.6kb/s、8.85kb/s、12.65kb/s、14.25kb/s、15.85kb/s、18.25kb/s、19.85kb/s、23.05kb/s和23.85kb/s九种速率,其比AMRNB自适应多速率窄带语音编码,EVRC增强性变速率语音编码,1 3kb/sQCELP码激励线性预测编码模式的编码,8kb/sQCELP等变速率编码标准的速率高,但它提供了更为灵活的多种速率。对于AMR.WB编码的研究,目前主要是基于具体的平台对由3GPP组织提供的一套AMR.WB标准的ANSIC代码的优化。虽然定点C代码本身可以执行,但是代码的执行效率太低,由于算法的复杂度太高,所以在产品化时,成本太高或是无法实时实现,因此对于一些具体的移动终端,无法直接的应用。而且对其基于DM642的AMR.wB算法优化勺实现研究的技术资料也不是很多,针对具体的平台,其代码有不同程度的优化空间。1.2语音压缩编码发展现状语音压缩编码是语音数字处理最重要的一种应用。语音压缩编码的目的是用尽可能低的比特率来获取尽可能高的合成与音质量。语音编码技术从定速率向变速率,从高比特率向低比特率发展。语音编码按编码方式大致可以分为三种波形编码、参数编码和混合编码。波形编码是将时间域或频率域变换域信号直接变换为数字信号,针对语音波形进行编码,力图使输入语音波形不变,即恢复的语音语音信号基本上与输入语音波形形同,保持了较好的语音质里,波形编码具有语音质量好、抗噪性能强等优点。主要有脉冲编码调制PCM、增量调制DM、自适应脉冲编码调制ADPCM和自适应预测编码APC等。其缺点是所需的编码速率高,当速率降低时语音重建质量就会急剧下降,一般在16kbit/s64kbit/s之间L引。参数编码又称声码器编码,它是将信源信号在频域或其它变换域提取特征参数,然后对这些特征参数进行编码和传输;在译码端再将接收到的数字信号译成特征参数,根据这些特征参数重建语音信号。在背景嗓声较小的情况下合成语音听起来与原始语音相似。其特点是码率低,但语音质量不高。声源激励包括周期脉冲和白噪声,分别对应于浊音和清音。在模型建立的分析过程中一般认为语音的参数变化很慢,在1 O.20 ms的间隔内是不变的,即语音信号具有短时平稳性。在参量编码器中,最具有影响的应该是基于线性项测的声码器速率为2.4 kbit/s的LPC.10E,但是,由于它的语音质量不好.目前已经被新的编码器所替代。在这些编码算法中,使用合成一分析法是非常成功的一种,它更客观的模拟了激励源的特性,从而使重构语音的质量具有本质性的提高。这样的编码器有多脉冲激励线性预测编码器MPELPC及规则脉冲激励线性预测编码器RPELPC,码激励线性预测CELP编码器,矢量和激励线性预测VSELP编码器,多带激励线性预测编码器MBE.LPC。最新的参量编码器有正弦变换编码器,波形内插编码器等。参数编码的优点是可实现低速率语音编码,其编码速率可低至2.4kbit/s以下。其缺点是语音质量差,自然度较低15J。混合编码将波形编码和参数编码结合起来,即利用率语音产生模型,通过对模型中的参数进行编码,减少波形编码中被编码对象的动态范围或数目;又使编码的过程产生接近原始语音波形的合成语音,以保留说话人的各种自然特征,提高合成语音质量。可在4kbit/p6kbit/s速率上能够得到高质量的合成语音。应用波形编码准则去优化激励信号,最具代表的是分析一合成ABS,Analysis.By.Synthesis编码器。ABS编码器利用线性预测编码LPC模型,目标是寻找激励信号,使用该信号激励产生的波形尽可能接近于原始话音的波形,典型的硕上学位论文ABS编码器有多脉冲激励MPE,Multi.Pulse,Excited、等间隔脉冲激励RPE,Regula卜Pulse Excited和码激励线性预测CELP’Code Excited Linear Prediction编码器等。ABS编码器把输入语音分帧,计算合成滤波器的参数,然后确定激励参数。MPE、RPE和CELP编码器之间的差别在于所使用的激励信号,MPE使用固定数目的脉冲作为每帧话音的激励信号,脉冲的位置和幅度由计算得得到;RPE使用固定间隔的脉冲,脉冲数目比MPE多,CELP使用的激励信号是矢量信号,用码本索引和增益表示【6】。语音编码器的发展从最初的64kbit/s的标准PCM波形编码器到现在4kbit/s以下的参数编码的声码器,从最初的单一编码速率到现在自适应多码率,话带语音编码在最近几十年得到了迅速的发展。语音编码按其发展年代大致可以分为三个阶第一个阶段1 935年至1985年,各国学者从人类发音机理和听觉机理出发,对语音的声码器做了大量研究。于1 939年成功了第一个声码器,奠定了语音产生模型的基础,语音处理取代波形编码进入参数编码或模型编码的研究。共振峰声码器的研究成功,使“线性预测编码LPCLinear Predictive Coding’’技术成功应用到语音分析和合成,并提出了自相关法、协方差法、格型法等实用快速算法。接下来相继研制出了以瞬时频率为基础的相位声码器、以倒谱为基础的同态声码器及2.4kbit/s的LPC.10声码器标准FS.1015;在众多声码器中,LPC声码器终因其成熟的算法和参数的精确估计成为研究的主流,并逐步得到实用,参数编码在这个阶段获得了较大的发展。第二个阶段是从20世纪80年代中期到90年代中期。这阶段是语音发展的快速时期,闭环分析算法的研究最为突出。最早使用闭环分析算法思想研究出实用的方案,是1985年由B.S.Atal和M.R.Schroeder提出的码激励线性预测CELPCode.Excited Linear Prediction算法。基于CELP算法提出的语音编码标准有4.8kbit的CELP联邦标准FS一1016、G728、Q729和Q729A等语音编码标准,并采用了低时延码激励线性预测LD.CELP共轭结构代数码激励线性预测CS.AcELP等技术。同时也研制了适合于因特网的双速率5.3/6.3kbit/s多媒体语音编码标准G723,其中5.3kbit/s采用代数码激励线性预测ACELP技术,6.3kbit/s采用多脉冲最大似然度量化MPMLQ技术【7‘。在voIPVoice overInternet Protoc01技术的发展中,主要采用了G.729、G729A、G723等语音编码标准。ETSl分别在1989年、1995年和1999年公布了13kbit/s的脉冲激励一长时预测RPE.LTP语音编码方案全速率语音编码FR、6.5kbit/s的矢量和激励线性预测编码VSELP方案半速率语音编码HR和12.2kbit/s的ACELP方案增强型全速率语音编码EFR。TIA在l 991年公布了IS一547.95kbit/s的VSELP技术标准,JDC在1992年公布了JDC6.7kbit的VSELP技术标准。基于DM642的AMR.WB算法优化’j实现第三阶段是20世纪90年代中期到现在。主要研究在第三代移动通信技术使用的编码技术,集中开发宽带语音编码标准的研制。其中变速率语音编码技术发展较快,不断有新的国际标准和地区标准公布。开发出来并可用应用于第三代移动通信的变速率语音编码主要有可变速码激励线性预测QCELP、增强型变速率编解码器EVRC、自适应多码率AMR、宽带自适应多码率AMR.wBAdaptive Multi.rate Wideband、可选模式声码器SMV和变速率多模式宽带VMR.WB等。在3G三大标准中,中国提出的时分一码分多址TD.SCDMA采用了AMR语音编码技术;美国提出的CDMA2000标准随着无线技术和编码技术的发展,先后采用了QCELP、EVRC和VMR.WB等声码器作为其语音编码方案;欧洲提出的宽带码分多址WCDMA标准采用先后采用了AMR、AMR.wB语音编码技术,SMV作为其备选语音编码方案18】。1.3变速率语音编码的发展趋势语音编码算法大部分是针对电话颇带的语音信号,带宽限定为300.3400Hz。将语音带宽限制在电话频带范围,虽然不会严重降低语音的主观质量【9】,但是在许多应用中,如语音广播、电话会议、多媒体通信及高清电视等,需要更高质量的语音,即所谓“面对面交谈”的语音通信质量。如果将语音信号的频带扩展到50.7000Hz,每个样点用16bit量化,称为宽带语音,‘比窄带语音有更好韵主观质量,50.200Hz的低频段使语音更自然,3400.7000Hz的高频段使语音的可懂度有很大提高。宽带语音主要采用变速率语音编码,变速率语音编码可提高频带的有效利用程度,是数字蜂窝和微蜂窝网的必然发展趋势。由于语音信号本身存在大量的冗余度,如信息冗余、时间冗余、谱间冗余等。在通信系统中总的容量一定的条件下,为了取得很好的语音质量,采用变速率语音编码是首选。ETSI/3GPP公布的自适应多速率宽带AMRWB语音编码标准【10】,被选定为GSM和3G无线WCDMA的宽带语音编码器,并且该方案被ITU.T通过作为新的标准G722.2.是第一个同时应用于无线和有线网络业务的语音编码标准。G722.2/AMR.wB支持从6.6.23.85 kbit/s共9种码率,可以根据网络情况动态调整输出码率保持音质。但该变速率编码仍有改进的余地。对变速率语音编码的自适应性技术的研究是它的主要发展方向。主要通过对变速率判决算法改进来提高编码效率。利用更为精确的语音检测技术,把它融入速率判决算法中,使判决更符合语音信号的特性,从而可以进一步降低编码速率或者提高合成语音质量。低速率语音编码的研究,也给变速率语音编码提供的发展的空间。若能使低速率与变速率技术在某种程度上结合,达到获得更低的平均编码速率。或者把低速率中某种关键技术直接应用于变速率编码技术中。对通信系统本身的特点做更深一步的研究,也是使变速率语音编码技术得到改善,能使硕L学位论文它根据具体的系统特性,对算法中不足之处加以改进,增强顽健性。1.4本文研究的内容及章节安排本文主要研究内容是对AMR.WB算法标准协议和标准C源代码充分研究的基础上,提出基于定点DM642硬件平台的代码优化策略和实现方法。本文的内容组织结构安排如下第1章介绍了选题的背景和意义,同时也简要介绍了语音编码技术发展的现状,也讨论了变速语音发展的趋势。第2章主要研究了AMR.WB算法的编解码标准过程,对各模块的进行了分析。本章为后面章节的理论基础。第3章介绍了DM642硬件平台,在这基础上提出了构建AMR.WB实现的语音处理硬件系统平台方案,介绍了软件平台。同时也对AMR.WB算法程序的正确性进行了软件仿真测试。第4章为本文的核心部分,主要研究了对AMR.WB的C源程序优化的各种方法与策略,并介绍了C6000特有的线性汇编在优化中的使用方法。对于硬件平台的具体实现过程也做了具体的分析。第5章是优化后的代码测试的结果分析。最后为全文的总结和今后工作的展望。基于DM642的AMR.wB算法优化与实现第2章AMR.WB语音编码标准分析AMR.WB语音编码标准主要包括编码器和解码器两个部分,采用了比较先进的语音激活检测技术,速率判决的自适应技术,丢帧/失帧错误隐藏机制技术及舒适背景噪声生成技术。语音激活技术主要用于有声和无声判断【111,其正确高低直接影响速率的判决。速率判决的自适应技术主要是根据信道质量指标和有无语音进行速率的切换ll引。丢帧/失帧错误隐藏机制用于避免或减少传输错误和包丢失对语音的影响【l 31,而舒适背景噪声生成技术主要为了避免无语音传输时,产生不舒服的背景噪音【l引。AMR.WB语音编码包括9种速率编码模式组成,其分别为6.6,8.85,12.65,14.25,15.85,18.25,19.85,23.05和23.85kbit/s。其中12.65kbit/s及以上码率模式都能够提供高质量的宽带语音,而两个低码率模式6.6 kbit/s和8.85kbit/s主要用在恶劣的无线信道环境或网络堵塞的场合.AMR.WB语音编码还提供了一个低码率背景噪声模式,其编码速率为1.75kbit/s,主要用在GSM非连续传输DTX操作中,也可以在其它系统中作为一种低速率的信源独立传输模式,以便用来编码背景噪声。2.1编码原理及各模块分析2.1.1编码原理AMR.WB语音编码的编码算法采用代数码本激励线性预测ACELPAlgebraiCode Exitation Linear Prediction技术。 其编码模型是基于CELPcode-excited linear predictive模型,CELP语音合成模型如图2.1所示。在该模型中,从自适应码本和固定码本两个码本中搜索出最佳码矢,然后乘以各自最佳增益g。,gc后相加,其矢量和做为短期线性预测合成滤波器上的激励信号源,彳【Z再经过后置滤波器得到语音信号。图2.1 CELP语音合成模型一6一硕.1j学位论文AMRWB编码器主要是在12.8 kHz的采样率下,通过线性预测分析,基音预测分析和固定码书的参数特征值的分析。每次以20ms语音为一帧进行编码,编码的主要是求出CELP模型所需要的特征参数。AMR.WB语音编码器的信号流程如图2.2所示,为了降低复杂度和让最重要的频带范围传递更多的参数信息。50Hz~6400Hz的低频带和6400Hz7000Hz的高频带编码是分开进行的。具体参考文献[15~17】。图2.2 AMR-WB编码器原理1言号流程图由于AMR.WB语音编码器输入语音的采样率为16kHz,320个样点,因而必须对输入信号下采样,使采样率变为12.8 kHz,每帧长度为256样点,再经过截止频率为50Hz的高通滤波器,滤掉异常的低频成分。为了防止DSP定点运算产生溢出错误,所有的样点都进行幅度除2处理。然后进行预加重处理。处理之后的信号在进行线性预测LP分析,每帧进行一次。每组LP系数被转换成ISPImmittance Spectrum Pairs参数,采用分裂多级矢量量化SMSVQ技术进行量化。每帧语音再被分为4个进行处理,对于量化和未量化的LP系数参数根据子帧的不同而采用不同的方法。开环基音延时估计是每隔一子帧进行一次或对感觉加权语音每帧进行一次,自适应码书和固定码书的参数是每子帧传输一次。而如下操作则是每子帧重复的1计算目标信号和加权合成滤波器的冲激响应。2利用目标信号和冲击响应,在开环基音延迟附近搜索进行闭环基音分析得到,得到最佳基音延迟和增益。3目标信号通过移除自适应码本的贡献来更新并得到新目标x,∽,该信号基于DM642的AMR.wB算法优化与实现用于进行代数码本搜索即固定码本搜索。4自适应码本和固定码本的增益采用6比特或7比特矢量量化。5最后进行滤波器状态更新,用于寻找下一子帧的目标信号。2.1.2编码各模块分析1.预处理预处理主要是为了外部语音采集频率转变成编码器处理所需的频率,对为16kHz采样率的输入语音信号进行下采样处理,即先采用加4的升抽样,接着通过截止频率为6.4kHz的低通滤波器日一z,然后对输出信号进行降5的降抽样。经过下采样处理后每帧采样点由320个下降到256个,转变成采样率为12.8kHz,满足进行LPC分析、LTPLong Term Predictor和固定码本搜索的要求,通过截止频率为50Hz的高通滤波器巩.0,预防不必要的低频成分的产生。同时为了防止定点运算产生溢出,将输入样点值都除以2。 、O.9895021.979004z一1O.989502zt爿一t㈣2了i两函泛丁丽而征瓦广一 2.1在合成分析编码中,最优基音和激励码本的搜索是通过在感觉加权域内最小化合成语音和输入语音间的均方误差实现的。为克服传统感觉加权滤波在宽带信号中由于高低频动态范围大而引起的频谱倾斜加大的缺点,对输入语音先进行预加重处理预加重滤波器胃胛一删lO.68z-1,LP滤波器彳z的计算以预加重后的语音为基础进行的。2.线性预测分析和量化短时预测或线性预测分析都是每一语音帧在30ms的不对称窗口基础上进行一次自相关计算。自相关需要5ms的附加时间。加窗的自相关语音通过杜宾算法实现向LP系数的转化,然后把LP系数换算成ISP系数以便进行量化和插值处理。1加窗和自相关计算LP分析是在每帧加不对称窗上进行。该窗的加权主要集中第4个子帧,窗函数由两部分组成一部分是为汉明窗Hamming,另一部分是四分之一汉明一余弦函数。窗函数公式如下w, o.s4一。舶cos景c。s掣、4三,一1 7玎O,....,厶一1刀厶,,三2厶一12·2其中Ll256,L2128。加窗后的语音信号s’疗,n0,,383的自相关计算如下383m2善∥咖如“ 飙,16 2.3硕十学位论文对自相关函数乘滞后窗‰f使其具有60Hz的带宽扩展,滞后窗的表达式为‰∽一柑矧,爿,m 泣4,其中,兀60Hz是扩展带宽,六12800Hz是采样频率,此外,rO乘以白噪声校正因子1.001,实际上是做了一个一40dB的噪声层。2LeVinson-Durbin算法 自相关系数的修正采用,’O1.001厂O和,.’七,.七‰七,肛l,,16,线性合成滤波器的LP系数吼肛l,,16通过下列的等式获得16∑吼,.’0f一七I一,7f, 扛1,,16 2.5七I2.5式利用杜宾算法来求解,该算法的递推如下EO,.’oFor卢1 t0 16 do、毛十’f∑,.’f一川/Ef一1q‘n毛For产1 to扣1 do口/o-巳o-1’t口胃’Ef1一砰Ef一1最后得出的解口f口∥户1,,163LP到ISP的转化为了便于量化和内插,需要把LP系数吼扣1.,16转化为ISPImmittance Spectral Pair系数,对于16阶滤波器,ISP系数求解是被定义为2.6式和2.7式的根。Z’z么zz一16彳z一1 2.6∥z彳z一z-16彳z-1 2.7实际上多项式Z。z与爿z是对称和反对称关系,事实证明这些多项式的根都在单位圆上并且交替出现。Zz在z1∞o和z一l∞兀有两个根。为消除这两个根,定义新的多项式石z2∥z 2.8厶z月z“1一z。2 2.9Zz和石z在单位圆上分别有8对和7对共扼根,因此可以被改写成Ez1口【16D兀129,z。1z。2 2.10j互O,2。 14最z1一口【16D兀129,z一z五 2.11
展开阅读全文
收藏
下载资源

加入会员免费下载





足球比分直播