足球比分直播

混合激励模型语音编码算法与其软件仿真.pdf

返回
混合激励模型语音编码算法与其软件仿真.pdf_第1页
第1页 / 共51页
混合激励模型语音编码算法与其软件仿真.pdf_第2页
第2页 / 共51页
混合激励模型语音编码算法与其软件仿真.pdf_第3页
第3页 / 共51页
混合激励模型语音编码算法与其软件仿真.pdf_第4页
第4页 / 共51页
混合激励模型语音编码算法与其软件仿真.pdf_第5页
第5页 / 共51页
点击查看更多>>
资源描述:
I 混合激励模型语音编码算法及其软件 仿真 中文摘要 语音编码技术 是 数字 语音通信中的一项重要技术, 它使同样的信道 传输更多的 信息 。 语音编 码 主要分为 波形编码 、 参数 编码和 混合 编码。 随着数字通信业务的发展, 混合 编码技术 越来越 成为研究的热点,它必将在保密通信、语音邮件、网络通信、 IP电话等领域有广泛的应用前景。 本论 文 以 混合激励线性预测 Mixed Excitation Linear Prediction, 简称 MELP语音编码 为 基础 , 对 其 基音周期提取 算法进行了简化、 使用了新的 语音帧清浊判决算法 , 提出了一种 新 的 MELP算法, 新算法 所获得的合成语音质量大体接近 原算法。 本论文 以传统的 MELP算法为基础,主要做了以下几方面的工作 第一 , 经仔细分析,在计算整数基音周期、分数基音周期和最终基音周期时,三者是非常接近甚至是相同的。因此,本 论文在保证合成语音质量的前提下, 直接使用整数基音周期来 作为 最终基音周期从而达到简化的目的。 第二, 在 MELP算法中 使用了新的 语音帧清浊判决算法。 第 三 , 对 MELP算法的解码器进行了相应的改进。 最后, 以 Matlab软件 为 平台 , 对算法进行了仿真,通过 比较 合成 语音与原始语音 的波形图 、语谱图和色谱图 , 以此来 说明 新 算法 的性能 优劣 。 关键 词 混合激励 , 基音周期 , 清浊判决 II The Algorithm of Mixed Excitation Speech Coding and its Software Simulation Abstract Speech Coding is a very important technology in the field of Digital Communication. With the help of Speech Coding, the same channel can transmit more inatioin. In general, Speech Coding has three major directions Wave Coding, Parametric Coding and Hybrid Coding. With the development of Digital Communication, the research about Hybrid Coding is becoming more and more popular, and it must have a wide application in the area of Secure Communication, Voice Mail, Network Communication, IP Telephone, and so on. In this paper, a simplified algorithm is brought forward at the basis of Mixed Excitation Linear Prediction MELP. It simplifies the complexity of the extraction of the Pitch and uses a new U/V Unvoiecd/Voiced decision algorithm. The quality of synthesized speech it gets is almost the same with the original algorithm. This paper has mainly done the following work at the basis of traditional MELP algorithm First of all, after careful study, we know that the Integer Pitch, Fractional Pitch and the Final Pitch are very close to each other. Therefore, the Integer Pitch is used as the Final Pitch in order to simplify the algorithm. Second, this paper uses a new U/V Unvoiecd/Voiced decision algorithm. Third, improves the decoder algorithm of MELP. Finally, the new algorithm is simulated at the software plat of Matlab and compares the Synthesized Speech with the Original Speech of Wave, Spectrogram and Chromatogram in order to illustrate the perance of the new algorithm. Keywords Mixed Excitation, Pitch, U/V Decision I 目 录 中文摘要 ............................................................................................................................................. I Abstract ...................................................................................................................................... II 第一章 绪 论 .................................................................................................................................1 1.1 国内外研究现状 ................................................................................................................1 1.2 本论文研究的意义 ............................................................................................................2 1.3 论文主要内容和章节安排 ................................................................................................2 1.3.1 论文研究的主要内容 .............................................................................................2 1.3.2 论文的章节安排 .....................................................................................................2 第二章 语音编码基础 .....................................................................................................................3 2.1 语音编码的分类 ................................................................................................................3 2.1.1 波形编码 ...................................................................................................................3 2.1.2 参数编码 ...................................................................................................................3 2.1.3 混合 编码 ...................................................................................................................4 2.2 MELP 声码器关键技术 ...........................................................................................5 2.2.1 分带混合激励 .........................................................................................................5 2.2.2 非周期脉冲 .............................................................................................................6 2.2.3 残差谐波谱 .............................................................................................................6 2.2.4 自适应谱增强 .........................................................................................................6 2.2.5 脉冲离散滤波 .........................................................................................................7 第三章 MELP 声码器编码原理 .....................................................................................................8 3.1 算法概述 ............................................................................................................................8 3.2 MELP 声码器编码原理 ....................................................................................................8 3.2.1 预处理 .....................................................................................................................8 3.2.2 基音周期的计算 .....................................................................................................8 3.2.3 子带声音强度的计算 ...........................................................................................12 3.2.4 增益的计算 ...........................................................................................................15 3.2.5 线性预测分析和残差信号的计算 .......................................................................15 3.2.6 傅里叶级数幅度的计算 .......................................................................................16 3.2.7 编码参数的比特分配与发送 ...............................................................................16 第四章 MELP 声码器解码原理 ...................................................................................................18 4.1 解码器 ..............................................................................................................................18 4.1.1 噪声抑制 ...............................................................................................................18 4.1.2 参数插值 ...............................................................................................................19 4.1.3 混合激励生成与滤波 ...........................................................................................20 4.1.4 自适应谱增强 .......................................................................................................22 4.1.5 语音合成 ...............................................................................................................23 第五章 对 MELP 声码器的优化改进及仿真 ................................................................................24 5.1 对 MELP 声码器的优化改进 .........................................................................................24 5.2 MELP 声码器的软件仿真及实验结果分析 ..................................................................26 5.2.1 算法模拟 ...............................................................................................................26 5.2.2 实验结果分析 .......................................................................................................29 第六章 总结和展望 .......................................................................................................................32 II 6.1 论文工作总结 ..................................................................................................................32 6.2 今后工作展望 ..................................................................................................................32 参 考 文 献 .....................................................................................................................................34 附 录 程序清单 .............................................................................................................................36 致 谢 ..............................................................................................................................................49 个 人 简 历 .....................................................................................................................................50 混合激励模型语音编码算法及其软件仿真 1 第一章 绪 论 1.1 国内外研究现状 按语音编码速率来分类, 可将 语音编码 大致 分为 高 速率语音编码 32Kb/s以上 、 中速率语音编码 4.8Kb/s ~ 32Kb/s和低 速率语音编码 4.8Kb/s 以下 [1]。 在实际的研究和应用中,人们比较关注的是低速率语音编码。所谓低速率语音编码,是指速率在 4.8Kb/s 以下 的语音编码。随着计算机、通信等技术的不断发展, 低速率语音编码 也 取得了 较快的 发展 ,使 2.4Kb/s 的 低速率 语音编码算法日趋 成熟, 其中比较 成功的算法 有 多带激励 MBE, Multi-Band Excitation声码器, 2.4Kb/s 的 混合激励线性预测 MELP 声码器 [2]等。但是 ,如果进一步降低编码 速率 并 获得 较高可懂度或 较高质量的合成语音, 研究者们仍然面临 巨大的挑战。因为 在进一步降低 编码 速率时,没有足够 多的 比特 来 描述 表征语音特征的 谱包络和残差信号,合成语音 的音质将 大打折扣 。 针对以上问题, 国内外 学者 提出 了 识别合成型声码器,采用语音识别和合成技术对语音信号编码 , 编码单元 是 语 音基元 ,这样 可把编码速率降 至 1Kb/s 以下。 另外 , 在 2.4K/s 线性预测编码 Linear Predictive Coding, 简称 LPC的基础上 ,有学者提出了 利用矢量量化技术 以及语音的 帧间相关性 , 进一步压缩 语音数据。 所谓 矢量量化 , 是 指将一组 标量数据 看成 一个矢量,在矢量空间 对其进行整体量化, 这样既 压缩了数据 又 不损失多少信息。矢量量化 的 效率 高低 决定 了 编码器的效率 高低 。在低速率编码的参数量化中, 由于 LSPLine Spectrum Pair,简称 LSP参数的量化 占用 的比特数 比较 高, 因此,如果能 对 LSP 参数量化 的 方法做一定的 改进, 必然 可以带来编码速率的显著降低。 由于 语音信号的相邻帧之间 , 尤其在语音的平稳段 , 存在着 很大的 相关性 。如果每隔一帧编码传输 一次语音参数 的话 ,编码速率 将大大降低 。 因此, 有 学者提出了 利用帧间相关性进一步降低参数量化的比特数 。 即 把 某 几帧 连续 信号 当作一帧 称为 超级帧 进行编码,对超级帧的参数 进行 整体 矢量量化 从而 压缩帧间冗余。 还有 学者提出了一种叫 可变段长的分段量化方法, 即将 输入语音 看 成 是一 个序列长度可变的段,每段由一帧或几帧信号组成,每帧 用 增益、基音和频谱等参数来表示 。 虽然实现起来 比较复杂 ,但 却 可以 大大降低编码率 ,缩短编码延迟,并且能够 得到较 高 质量的合成语音。 青海师范大学硕士学位论文 2 1.2 本 论文 研究的意义 本论文以混合激励线性预测 Mixed Excitation Linear Prediction, 简称MELP算法为基础,对其算法进行了相应的简化,同时要求获得接近于原始算法的、人耳可辨别的合成语音。 MELP 算法是由 A V.Me Cree 博士提出 的 ,它改进了传统的二元激励模型 即LPC 模型, Linear Predictive Coding所存在的 语音分类过于简单、 激励不太准确等 问题,并引入混合激励、非周 期脉冲、自适应谱增强、脉冲整形滤波和傅氏级数幅度值五项新技术 [3], 使 合成语音具有更好的 自然度 和 可懂度 即人耳能否辨识 ,并减少了激励信号中的合成噪声,使语音听起来更清晰。 这 在实际应用中具有非常重要的意义。 1.3 论文主要内容和章节安排 1.3.1 论文研究的主要内容 本 论文以 传统的 MELP语音编解码原理 为基础 , 在保证合成语音可懂度 即人耳能否 辨识 的前提下,最大限度 对 MELP算法 进行简化和改进 。 对于 论文中涉及的 MELP算法的 一些公式 , 本论文 未 进行理论推导,而是 在Matlab软件平台进行了图像仿真, 并 比较 了 合成 语音与原始语音 的波形图、语谱图和色谱图 , 以此来说明新算法的性能优劣 。 1.3.2 论文的章节安排 本论文以传统的 MELP 语音 编解码 算法为出发点,在保证合成语音质量的前提下,尽量简化 和改进算法 。 全文总共分为六章,具体安排如下 第一章 绪论 主要介绍国内外的研究现状、论文的研究意义。 第二章 MELP 基础 主要介绍 MELP 编码的分类、 MELP 声码器 引入的五种 关键技术 。 第三章 MELP 声码器编码原理 介绍传统的 MELP 声码器 的 编码 原理 。 第四章 MELP 声码 器解码原理 介绍传统的 MELP 声码器 的解 码原理 。 第五章 对 MELP 声码器的 简化 改进及其软件仿真 针对传统 MELP 声码器所存在的问题,对其 做进一步的 的 简化 改进 ,并在 Matlab 软件平台下进行 模拟 仿真 。 第六章 总结与展望 对本论文的整个研究过程进行全面的总结,并对以后的研究工作提出期望。 混合激励模型语音编码算法及其软件仿真 3 第二章 语音编码 基础 2.1 语音编码 的 分类 根据描述语音信号所采用的不同方法,将 语音编码分为波形编码、 参数 编码和混合编码。其中,波形编码和参 数 编码是两种基本类型 [4]。 波形编码是对语音波形进行编码,尽量使恢复的语音信号与 原始 语音信号 的波形 保持 一致 。这类编码方法具有适应能力强、语音质量好等优点,但编码速率高。 参数编码是先对语音信号进行分析,提取 出 反映 语音重要特征的 参数,对参数进行编码,在解码后由这些参数重新合成出重构的语音信号,使得到的信号听起来与 原始 语音相同即可,而不必使恢复信号与 原始 信号保持波形相同。这种编码 技术 称做“声码器技术”。 混合编码 ,是指 将波形编码和 参数 编码 结合 起来,克服了波形编码和参 数 编码的 缺点 ,结合各自的 优点 ,力图保持波形编码的高质量和 参数 编码的低速率 [5],在 4~ 16Kb/s 速率上能够得到高质量的合成语 音。 下面分别对 这 三种语音编码予以介绍。 2.1.1 波形编码 波形编码,简而言之就是将语音信号的波形 幅度 直接进行编码。具体来讲,就 是 将时域信号直接 转换 为数字代码, 它最大限度地 使重建 的 语音 信号 与 原始 语音信号的波形形状 保持一致 。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样,然后将幅度样本分层量化,并用代码表示 , 它具有语音质量好、抗干扰能力强 等优点,但所用的编码速率高,在对信号带宽要求不太严格的通信中得到应用,而对频率资源相对紧张的移动通信来说,这种编码方式显然不合适。 波形编码方式的最简单形式 是脉冲编码调制 Pulse Code Modulation,简称PCM。自从 1937 年提出 PCM 以来,开创了语音数字通信的历程。直到今日, 64Kb/s的标准 PCM 系统仍占有统治地位。 PCM 分为均匀 PCM、非均匀 PCM、自适应PCMAdaptive PCM ,简称 APCM 和自适应差分脉冲编码调制 Adaptive Differential PCM, 简称 ADPCM等几类。 由于本论文研究的是混合编码,因此不再赘述。 2.1.2 参数编码 参数编码是 对信号 的 特征参数进行提取和编码,压缩率 非常 高 , 但算法复杂青海师范大学硕士学位论文 4 度 大,合成语音的自然度不 太 好,抗背景 噪声 能力较差。典型的参数编码器有共振峰声码器,同态编码及应用较广的线性预测声码器等 。 与波形编码不同,参数编码通过对语音信号的参数进行提取 并 编码,力图使重建的语音信号具有尽可能高的可懂度,即保持原语音的语意,而重建信号的波形同原始语音信号的彼形可能会有相当大的差别。 参数 编码的优点是编码率低,可以低到 2.4Kb/s 甚至2.4Kb/s 以下。 实现参数编码的器件又称为声码器 Voice coder,简称 Vocoder。 由于 它传送的是参数, 因而 比较简单, 而且 节省信道。为了达到很低的 传输码率,声码器只能提取和传送那些 反映语音重要特征 的参数,同时进行高效的编码。声码器的主要问题是合成的语音质量差,特别是自然度较低 不一定能听出讲话人是谁 。 为了充分发挥声码器的性能, 应当注意以下三点 ① 去掉语音波形中的冗余部分,提取对于听觉所需的重要参数;②对参数进行有效的编码;③根据编码的参数,尽可能忠实地将语音 包括自然度和可懂度 还原出来。 在现代通信系统中, LPC 声码器和通道声码器并列为研究最深入、使用最广泛的声码器。各种声码器中,比较有实用价值的是 LPC 声码器 [6],因为它较好地解决了传输数码率与所得到的语音质量间的矛盾。 由于本论文研究的是混合编码,因此也不再赘述。 2.1.3 混合编码 70 年代中期,特别是 80 年代以来,语音编码技术有了突破性进展,提出了一些非常有效的处理方法,产生了新一代的编码算法, 即 混合编码,构成了新一代的声码器。这种算法克服了波形编码和 参数编码 的 缺点 ,结合了各自的 优点 ,在 4Kb/s ~ 16Kb/s 的速率上能够得到 较 高质量的合成语音 [7]。 比较典型 的 混合编码的有 多脉冲激励线性预测编码 Multi Pulse Linear Prediction Coding,简称 MPLP,码激励线性预测编码 Codebook Excited Linear Prediction Coding,简称 CELP和混合激励线性预测编码 Mixed Excitation Linear Prediction Coding,简称 MELP等。 研究表明,声码器 的 语音质量差的问题基本不在于声道模型参数,而在于激励信号。多年来一直广泛使用的 具有 准周期性脉冲的白噪声作为激励源 ,这种 方法 成为 进一步提高语音质量的障碍。新一代声码器的出路在于使用新的激励,即在保留现有声码器技术的基 础上,引用高质量的波形编码准则来优化激励信号。尽管由于激励序列的引入需要增加几倍的传输码率,但却可以明显提高合成语音的质量。 本论文 将 混合编码中比较成功的 MELP 编码算法 作为研究对象, 力图找出其所混合激励模型语音编码算法及其软件仿真 5 0 200 400- 0 . 2- 0 . 100 . 10 . 2原始语音帧0 200 400-1- 0 . 500 . 5第一子带0 200 400- 0 . 1- 0 . 0 500 . 0 50 . 1第二子带0 200 400- 0 . 0 4- 0 . 0 200 . 0 20 . 0 4第三子带0 200 400- 0 . 0 2- 0 . 0 100 . 0 10 . 0 2第四子带0 200 400- 0 . 0 2- 0 . 0 100 . 0 10 . 0 2第五子带图 2-1 某帧语音 信号 的原始波形及五个子带的图形 存在的问题, 以 对其进行进一步的改进和优化 。 2.2 MELP 声码器关键技术 MELP算法以传统的 LPC模型为基础,同时吸收了混合激励和多带激励的思想,改善了 LPC 模型的激励源,采用了 五种 关键技术来 提高合成语音 的 可懂度和自然度 ,这些新技术包括多带混合激励、非周期脉冲、残差谐波谱、自适应谱增强技术和脉冲整形滤波 [8]。下面分别 介绍 这 五 种关键技术。 2.2.1 分带混合激励 采用分带混合激励是 MELP 模型中最重要的特征。分带 激励 的思想来源于 多带激励 算法, 它 从频域上 更加 精细 地 对激励信号 进行刻画 , 使得 最终 合成的激励也更加准确。在 2.4Kb/s 的 MELP 算法中,将 0 4kHz 的语音频带分成固定的频段进行处理。分带滤波器由 5 个带通滤波器 叠加 得到。 鉴于 低频部分对语音的影响要大一些 , 所以 对低频段的划分应精细一些。 对 于一个 带宽为 4000Hz 的 语音 信号,将被划分为 5 个子带,分别为 [ 0,500,[ 500,1000, [1000,2000,[ 2000,3000和[ 3000, 4000]。 下图是某帧语音 信号 分别经过 这 5 个带通滤波器后得到的图形。 对于每一个非清音帧 包括浊音帧和抖动浊音帧 ,在各个子带分别计算话音强度 清 /浊音混合比例 ,计算结果决定了本子带内脉冲源和噪声源在形成激励信号时的加权值。经分带滤波的脉冲源和噪声源按上述 方法 加权,得到整个频带的激励信号。 青海师范大学硕士学位论文 6 2.2.2 非周期脉冲 采用混合激励可减少合成语音中的蜂鸣噪声,但可能还会出现另一种类似电流声的单音噪声,尤其是对基音较高的女性讲话者。 通过在激励信号中混入较多的低频白噪声以减弱其周期性,可以去除这些噪声,但这样会使合成语音听起来有些嘈杂。 为此, MELP 算法使用 了 非周期脉冲。 MELP 是按基音周期合成语音的,通过 使 基音周期 T 在 0.75T 至 1.25T 之间随机 抖动以 减弱其周期性。 使用非周期脉冲 可以 很 好地模拟那些不 太 稳定的声门脉冲。在 进行 基音 周期的 提取时,强浊音可以由归一化 的 自相关 函数 值很容易地 做出判决 。 而 抖动浊音对应 的是 不稳定的声门脉冲,所以它的自相关 函数 值 将 处 于 清浊音的边缘。 特别强调 ,采用非周期脉冲 的前提是必须 要 结合 混合激励算法,如果 仅仅只使用非周期脉冲 而未结合混合激励算法 ,可能会使语音质量 大大 恶化。 2.2.3 残差谐波谱 在 LPC 残差信号 中包含了 大量 表征 语音特征 的 信息 。 考虑到语音信号的编 码率 的问题 , 传统的 低速率算法在 合成 激励 信号 脉冲 的时候 , 仅仅 反映了它的周期特性,而并 没有反映它的幅度特性, 所以并 不能 较好 地反映实际 语音 激励 信号 脉冲动态变化的特性。 针对此问题, 同时考虑到 残差信号中对语音 信号 影响最大的是低频带, 2.4Kb/s的 MELP算法对最低 10阶谐波进行矢量量化 即将若干个标量数据组成一个矢量,然后在矢量空间给予整体量化 , 而对于 10 阶以上谐波的傅里叶级数幅度值 则 认为是平坦的, 用 单位值来代替。 由此得到的谐波谱 , 将其 按基音周期进行离散傅里叶反变换, 从而 得到周期脉冲激励序列,它 相对 固定的脉冲序列 具有较大 的灵活性。 由于 传输 了 残差谐波谱, 大大 提高 了最终 合成语音的 可懂度、 自然度和抗背景噪声 的 能力, LPC 合成语音发闷、嘶哑和合成音重 等问题也得到了改善。 2.2.4 自适应谱增强 由于声道的共振峰 带宽 在一个基音周期内 有 可能 会随着声道形状的变化而 变化,并且 LPC 所采用的 全极点模型 会 削弱共振峰的特征, 再加上 量化 时可能存在误差等原因, LPC 合成滤波器的 极点形状与自然语音的共振峰形状存在偏差 。以上原因 导致了在共振峰之间合成语音谱的波谷不如原始语音谱的波谷尖锐, 并且合成语音听起来 有些 发闷。 为解决这个问题 , MELP 算法引入了自适应谱增强技术。 自适应谱增强 是将 激励信号 通过一个 自适应谱增强滤波器 来 实现 的 。 此 滤波
展开阅读全文
收藏
下载资源

加入会员免费下载





足球比分直播