当前位置:首页 >> 信息与通信 >> 数字语音处理及MATLAB仿真第二章

数字语音处理及MATLAB仿真第二章


数字语音处理及MATLAB仿真 张雪英编著

第二章 语音信号的数字模型
1 2 3 4 5 6

2.1 概述 2.2 语音的发音机理 2.3 语音的语音听觉机理 语音的语音听觉机理 2.4 语音的感知 2.5 语音信号模型 2.6 语音信号数字模型
1

数字语音处理及MATLAB仿真 张雪英编著

2.1 概述
本章重点介绍语音信号产生的数字模型, 本章重点介绍语音信号产生的数字模型,对语 音信号的特性和听觉特性做一般介绍。 音信号的特性和听觉特性做一般介绍。

2

数字语音处理及MATLAB仿真 张雪英编著

2.2 语音的发音机理
2.2.1 人的发音器官
1.组成 组成
⑴ 肺和气管组成声源; 肺和气管组成声源; 喉和声带称为声门; ⑵ 喉和声带称为声门; ⑶ 由咽腔、口腔、鼻腔 由咽腔、口腔、 组成声道; 组成声道; 图2.1 发音器官机理模型

3

数字语音处理及MATLAB仿真 张雪英编著

2. 功能
肺:产生压缩气体,通过气管传送到声音生成系 产生压缩气体, 统。 喉:控制声带运动的复杂系统。主要包括:环状软 控制声带运动的复杂系统。主要包括: 骨、甲状软骨、杓状软骨、声带。 甲状软骨、杓状软骨、声带。

4

数字语音处理及MATLAB仿真 张雪英编著

前面

甲状软骨 声带

杓状软骨 环状软骨

图 2.1

喉的平面解剖示意图

5

数字语音处理及MATLAB仿真 张雪英编著

声门:声带之间的间隙称为声门。 声门:声带之间的间隙称为声门。 主要功能:产生激励。 主要功能:产生激励。 声道:声道指声门至嘴唇的所有发音器官。 声道:声道指声门至嘴唇的所有发音器官。 指声门至嘴唇的所有发音器官 包括:咽喉、口腔和鼻腔。 包括:咽喉、口腔和鼻腔。 主要功能:传输调制声波。 主要功能:传输调制声波。 声道的形状变化由舌、软腭、 牙决定。 声道的形状变化由舌、软腭、唇、牙决定

6

数字语音处理及MATLAB仿真 张雪英编著

口腔包括:上下唇、上下齿、上下齿龈、 口腔包括:上下唇、上下齿、上下齿龈、上 下腭、舌和小舌等部分。 下腭、舌和小舌等部分。 上腭又分为:硬腭和软腭两部分; 上腭又分为:硬腭和软腭两部分; 舌又分为:舌尖、舌面和舌根三部分。 舌又分为:舌尖、舌面和舌根三部分。 鼻腔在口腔上面,靠软腭和小舌将其与口腔 鼻腔在口腔上面, 隔开。当小舌下垂时,鼻腔和口腔便耦合起来, 隔开。当小舌下垂时,鼻腔和口腔便耦合起来, 当小舌上抬时,口腔与鼻腔是不相通的。 当小舌上抬时,口腔与鼻腔是不相通的。口腔和 鼻腔都是发音时的共鸣器。 鼻腔都是发音时的共鸣器。

7

数字语音处理及MATLAB仿真 张雪英编著

图2.3 声道纵剖面图
8

数字语音处理及MATLAB仿真 张雪英编著

2.2.2 语音生成
为语音生成其机理模型。 图 2.1为语音生成其机理模型 。 空气由肺部排 为语音生成其机理模型 入喉部,经过声带进入声道,最后由嘴辐射出声波, 入喉部,经过声带进入声道,最后由嘴辐射出声波, 这就形成了语音。在声门(声带)以左,称为“ 这就形成了语音。在声门(声带)以左,称为“声 门子系统” 它负责产生激励振动;右边是“ 门子系统”,它负责产生激励振动;右边是“声道 系统” 辐射系统” 当发不同性质的语音时, 系统”和“辐射系统”。当发不同性质的语音时, 激励和声道的情况是不同的, 激励和声道的情况是不同的,它们对应的模型也是 不同的。 不同的。

9

数字语音处理及MATLAB仿真 张雪英编著

图 2.1

发音器官机理模型

10

数字语音处理及MATLAB仿真 张雪英编著

语音生成动作可分为两种功能: 语音生成动作可分为两种功能: (1)激励 (2)调制
激励 声门) (声门) 调制 声道) (声道)
图 语音生成模型

幅射语音 嘴唇) (嘴唇)

11

数字语音处理及MATLAB仿真 张雪英编著

2.2.2 语音生成 浊音 语音生成-浊音
空气流经过声带时,如果声带是崩紧的, 空气流经过声带时,如果声带是崩紧的,则 声带将产生张弛振动, 声带将产生张弛振动,即声带将周期性地启开和 闭合。声带启开时,空气流从声门喷射出来, 闭合。声带启开时,空气流从声门喷射出来,形 成一个脉冲, 成一个脉冲,声带闭合时相应于脉冲序列的间隙 因此, 期。因此,这种情况下在声门处产生出一个准周 期脉冲状的空气流。 期脉冲状的空气流。该空气流经过声道后最终从 嘴唇辐射出声波,这便是浊音语音。 嘴唇辐射出声波,这便是浊音语音。这个准周期 脉冲的周期即为基音周期。 脉冲的周期即为基音周期。

12

数字语音处理及MATLAB仿真 张雪英编著

基音频率是由声带张开闭合的周期所决定的: 基音频率是由声带张开闭合的周期所决定的: 男性的基音频率一般为50~ 男性的基音频率一般为 ~250Hz; ; 女性基音频率为100~500Hz。 ~ 女性基音频率为 。

13

数字语音处理及MATLAB仿真 张雪英编著

14

数字语音处理及MATLAB仿真 张雪英编著

2.2.2 语音生成 清音 语音生成-清音
空气流经过声带时, 如果声带是完全舒展开 空气流经过声带时 , 来的, 来的 , 则肺部发出的空气流将不受影响地通过声 空气流通过声门后, 会遇到两种不同情况。 门 。 空气流通过声门后 , 会遇到两种不同情况 。 一种情况是, 一种情况是 , 如果声道的某个部位发生收缩形成 了一个狭窄的通道, 了一个狭窄的通道 , 当空气流到达此处时被迫以 高速冲过收缩区, 并在附近产生出空气湍流, 高速冲过收缩区 , 并在附近产生出空气湍流 , 这 种湍流空气通过声道后便形成所谓摩擦音或清音。 种湍流空气通过声道后便形成所谓摩擦音或清音 。

15

数字语音处理及MATLAB仿真 张雪英编著

2.2.2 语音生成 爆破音 语音生成-爆破音 爆破
另一种情况是, 如果声道的某个部位完全闭 另一种情况是 , 合在一起, 合在一起 , 当空气流到达时便在此处建立起空气 压力,闭合点突然开启便会让气压快速释放, 压力 , 闭合点突然开启便会让气压快速释放 , 经 过声道后便形成所谓爆破音。 过声道后便形成所谓爆破音。

16

数字语音处理及MATLAB仿真 张雪英编著

共振峰频率或共振峰
声音产生后, 便沿着声道进行传播。 声音产生后 , 便沿着声道进行传播 。 声道可 以看成是一根具有非均匀截面的声管,在发音时 以看成是一根具有非均匀截面的声管, 起着共鸣器的作用。声音进入声道后, 起着共鸣器的作用 。 声音进入声道后 , 其频谱必 定会受到声道的共振特性的影响, 定会受到声道的共振特性的影响 , 声道具有一组 共振频率,称为共振峰频率或共振峰。 共振频率 , 称为共振峰频率或共振峰 。 声道的频 谱特性便主要地反映出这些共振峰的不同位置以 及各个峰的频带宽度。 及各个峰的频带宽度 。 共振峰及其带宽取决于声 道的形状和尺寸, 道的形状和尺寸 , 因而不同的语音对应于一组不 同的共振峰参数。 同的共振峰参数。
17

数字语音处理及MATLAB仿真 张雪英编著

18

数字语音处理及MATLAB仿真 张雪英编著

19

数字语音处理及MATLAB仿真 张雪英编著

2.3 语音的听觉机理
2.3.1 听觉器官
人的听觉器官包括:外耳、中耳和内耳 人的听觉器官包括:外耳、

图2.3 人耳结构示意图
20

数字语音处理及MATLAB仿真 张雪英编著

1.外耳 外耳由耳廓(耳翼 外耳道和耳鼓( 鼓膜) 耳翼)、 外耳由耳廓 耳翼 、 外耳道和耳鼓 ( 鼓膜 ) 组 成。 2.中耳 组成:包括三块听小骨:锤骨 砧骨和镫骨。 锤骨, 组成:包括三块听小骨 锤骨,砧骨和镫骨。 作用: 作用:阻抗匹配和限幅 外耳和中耳的综合作用相当于一个介于500Hz 外耳和中耳的综合作用相当于一个介于 之间的平滑的带通滤波器, 到 6kHz之间的平滑的带通滤波器 , 可以用有限冲 之间的平滑的带通滤波器 激响应(FIR---Finite Impulse Response)滤波器来模 激响应 滤波器来模 拟。
21

数字语音处理及MATLAB仿真 张雪英编著

3. 内耳 内耳是一个充满液体的骨质结构,由前庭、 内耳是一个充满液体的骨质结构,由前庭、圆 形窗、卵形窗及耳蜗组成。 形窗、卵形窗及耳蜗组成。

22

数字语音处理及MATLAB仿真 张雪英编著

2.3.2 耳蜗的信号处理机制 耳蜗的信号处理机制

23

数字语音处理及MATLAB仿真 张雪英编著

当声音经外耳传入中耳时, 当声音经外耳传入中耳时 ,镫骨的运动引起 耳蜗内流体压强的变化, 耳蜗内流体压强的变化 , 从而引起行波沿基底膜 的传播。 是流体波的简单表示。 的传播。图2.6是流体波的简单表示。在耳蜗的底 部基底膜的硬度很高,流体波传播的很快。 部基底膜的硬度很高 , 流体波传播的很快 。 随着 波的传播,膜的硬度变得越来越小, 波的传播 , 膜的硬度变得越来越小 , 波的传播也 逐渐变缓。不同频率的声音产生不同的行波, 逐渐变缓 。 不同频率的声音产生不同的行波 , 而 峰值出现在基底膜的不同位置上。 峰值出现在基底膜的不同位置上。

24

数字语音处理及MATLAB仿真 张雪英编著

1 基底膜 2 内毛细胞 3 外毛细胞 4 听传导通路

图2.7 基底膜上六个不同点的频率响应
25

数字语音处理及MATLAB仿真 张雪英编著

2.3.3 语音信号听觉模型
听觉系统的研究主要集中在三个方面: 听觉系统的研究主要集中在三个方面:听觉系 统的实验研究、听觉系统的建模和听觉模型的应用。 统的实验研究 、 听觉系统的建模和听觉模型的应用 。 听觉系统的实验研究主要是指听觉系统在医学、 听觉系统的实验研究主要是指听觉系统在医学 、 生 理学及心理学方面的研究。由于耳蜗深植于颅骨中, 理学及心理学方面的研究 。 由于耳蜗深植于颅骨中 , 尺寸极小(如蜗管的直径只有1mm),所以耳蜗的 尺寸极小(如蜗管的直径只有 ) 实验研究是一项非常艰巨和复杂的工作。 实验研究是一项非常艰巨和复杂的工作。 耳蜗建模主要集中在基底膜的振动上,然而, 耳蜗建模主要集中在基底膜的振动上 , 然而 , 建立基底膜的振动模型是耳蜗建模的首要任务, 建立基底膜的振动模型是耳蜗建模的首要任务 , 它 又被称为耳蜗的宏观力学模型。 又被称为耳蜗的宏观力学模型。

26

数字语音处理及MATLAB仿真 张雪英编著

输 语 入音

外 耳 中 耳

带 通 滤 器 波

半 波 整 流

低 通 滤 波

听 经 神 发 放

听 觉 语 图 谱

图2.10 语音信号听觉模型一般原理框图

语音信号首先通过一串带通滤波器(BPF)阵列 , 阵列, 语音信号首先通过一串带通滤波器 阵列 其中心频率跟随着图2.7所示的基底膜频率响应按 其中心频率跟随着图 所示的基底膜频率响应按 照对数尺度分布。 照对数尺度分布 。 每一个带通滤波器都被独立的 设定为有限冲激响应滤波器(FIR)或无限冲激响应 设定为有限冲激响应滤波器 或无限冲激响应 滤波器(IIR),但是频率响应的波形并不是严格精 滤波器 , 确的。 确的。
27

数字语音处理及MATLAB仿真 张雪英编著

被滤波的信号在通过内毛细胞/突触模型之后 , 被滤波的信号在通过内毛细胞 突触模型之后, 突触模型之后 到达听传导通路模型。 到达听传导通路模型 。 虽然各种听觉模型的带通 滤波器的性能特征是基本相同的,但是在接下来 滤波器的性能特征是基本相同的, 几级的信号处理过程却有很大差异。事实上, 几级的信号处理过程却有很大差异 。 事实上 , 不 同的听觉模型都各自拥有不同的IHC模型 , 突触 模型, 同的听觉模型都各自拥有不同的 模型 模型和听传导通路模型。 模型和听传导通路模型 。 一些模型为每一个滤波 后的信号都设有独立的频道, 后的信号都设有独立的频道 , 而另一些模型则认 为在基底膜上相邻位置处滤波得到的信号之间存 在耦合性。 在耦合性。

28

数字语音处理及MATLAB仿真 张雪英编著

根据人耳的听觉特性得出的模型作为语音识 别的特征提取部分, 别的特征提取部分,可获得具有鲁棒性的特征参 数,它们对真实世界中的噪音环境下的语音识别 都表现出很好的性能。 都表现出很好的性能。

29

数字语音处理及MATLAB仿真 张雪英编著

2.4 语音的感知
2.4.1 几个概念
1. 人耳听觉界限的频率范围大约为 人耳听觉界限的频率范围大约为20Hz-20kHz。 。 2. 语音感知的强度范围是 -130dB声压级。 语音感知的强度范围是0- 声压级。 声压级 3. 响度 这是频率和强度级的函数。通常用响度(单 这是频率和强度级的函数。通常用响度( 位为宋)和响度级(单位为方)来表示。此时响度级 位为宋)和响度级(单位为方)来表示。 定为零方。测量表明听阈值是随频率变化的。 定为零方 。 测量表明听阈值是随频率变化的 。 通 人们把1kHz纯音听阈值定为零方。 纯音听阈值定为零方。 常,人们把 纯音听阈值定为零方

30

数字语音处理及MATLAB仿真 张雪英编著

人耳刚刚可以听到的声音强度,称为“ 4. 人耳刚刚可以听到的声音强度,称为“听 阈”。 加大声音的强度, 加大声音的强度,使听起来令耳朵感到 疼痛,这个阈值称为“痛阈” 疼痛,这个阈值称为“痛阈”。

5.音高 音调 音高也叫基音。 音高(音调 音高也叫基音。 音调)
物理单位为Hz, 物理单位为 ,主观感觉的音高单位是美 (Mel)。当声强级为 频率为1kHz时,设 。当声强级为40dB频率为 频率为 时 定的音高为1000美。 定的音高为 美

31

数字语音处理及MATLAB仿真 张雪英编著

2.4.2 掩蔽效应
掩蔽效应: 掩蔽效应:
两个响度不等的声音作用于人耳时, 两个响度不等的声音作用于人耳时, 则响度 较高的频率成分的存在会影响到对响度较低的频 率成分的感受,使其变得不易察觉, 率成分的感受 , 使其变得不易察觉 , 即 : 一个声 音的听觉感受性受同时存在的另外一个声音的影 这个现象称为人耳的“掩蔽效应” 响 , 这个现象称为人耳的 “ 掩蔽效应 ” 。 此时前 者称为被掩蔽音,后者称为掩蔽音。 者称为被掩蔽音 , 后者称为掩蔽音 。 在掩蔽情况 被隐蔽音的听阈会提高, 下 , 被隐蔽音的听阈会提高 , 即加大被掩蔽音的 强度才能听到。此时听阈称为掩蔽听阈。 强度才能听到。此时听阈称为掩蔽听阈。
32

数字语音处理及MATLAB仿真 张雪英编著

低频的纯音可以有效地掩蔽高频的纯音。 低频的纯音可以有效地掩蔽高频的纯音。 利用人耳的掩蔽效应, 在进行语音压缩时, 利用人耳的掩蔽效应 , 在进行语音压缩时 , 让 量化噪音的频谱跟随语言信号频谱包络变化。则共振 量化噪音的频谱跟随语言信号频谱包络变化。 峰的频率成分就会掩蔽掉量化噪声。 峰的频率成分就会掩蔽掉量化噪声。这个技术称为噪 声整形或听觉加权处理。 声整形或听觉加权处理。 低音容易掩蔽高音,而高音掩蔽低音较难。 低音容易掩蔽高音,而高音掩蔽低音较难。 基于此, 可以将真实的声音频率映射到“ 感知” 基于此 , 可以将真实的声音频率映射到 “ 感知 ” 频率尺度, 尺度对应的临界带宽。 频率尺度,即Bark尺度对应的临界带宽。 尺度对应的临界带宽

33

数字语音处理及MATLAB仿真 张雪英编著

2.4.3 临界带宽与频率群
用一中心频率为f, 带宽为?f的白噪声来掩蔽 用一中心频率为 , 带宽为 的白噪声来掩蔽 一频率为f的纯音 的纯音, 一频率为 的纯音 , 先将这个白噪声的强度调节到 使被掩蔽纯音恰好听不见为止。然后将?f由大到小 使被掩蔽纯音恰好听不见为止。然后将 由大到小 逐渐变化,而保持单位频率的噪声强度( 逐渐变化,而保持单位频率的噪声强度(即噪声谱 密度)不变,起初这个纯音一直是听不见的, 密度)不变,起初这个纯音一直是听不见的,但当 ?f小到某个临界值时,这个纯音就突然可以听见了。 小到某个临界值时, 小到某个临界值时 这个纯音就突然可以听见了。 如果再进一步减小?f, 被掩蔽音f就会越来越清晰 就会越来越清晰。 如果再进一步减小 , 被掩蔽音 就会越来越清晰 。 这里刚刚开始能听到被掩蔽声时的?f宽的频带 宽的频带, 这里刚刚开始能听到被掩蔽声时的 宽的频带,叫 做频率f处的临界带 处的临界带。 做频率 处的临界带。
34

数字语音处理及MATLAB仿真 张雪英编著

当掩蔽噪声的带宽窄于临界带的带宽时, 当掩蔽噪声的带宽窄于临界带的带宽时 , 能 掩蔽住纯音f的强度是随噪声的带宽的增加而增加 掩蔽住纯音 的强度是随噪声的带宽的增加而增加 但当掩蔽噪声的带宽达到临界带后, 的 , 但当掩蔽噪声的带宽达到临界带后 , 继续增 加噪声带宽就不再引起掩蔽量的提高了。 加噪声带宽就不再引起掩蔽量的提高了 。 临界带 宽是随中心频率而变的, 被掩蔽纯音的频率( 宽是随中心频率而变的 , 被掩蔽纯音的频率 ( 即 临界带的中心频率)越高,临界带宽也越宽。 临界带的中心频率)越高,临界带宽也越宽。 临界频带也可定义为: 临界频带也可定义为 : 一个给定的正弦纯音 在基底膜上能够产生谐振反应的那一部分。 在基底膜上能够产生谐振反应的那一部分 。 一个 频率群的划分相应于基底膜分成许多很小的部分, 频率群的划分相应于基底膜分成许多很小的部分 , 每一部分对应一个频率群。 每一部分对应一个频率群。 一个临界带的单位用巴克( 一个临界带的单位用巴克(Bark)表示。 )表示。
35

数字语音处理及MATLAB仿真 张雪英编著

2.5 语音信号模型
有三部分作用施加在语音的声波上: 有三部分作用施加在语音的声波上: 声门产生的激励模型G(z); ; 声门产生的激励模型 声道产生的调制函数V(z); ; 声道产生的调制函数 嘴唇产生的辐射函数R(z)。 。 嘴唇产生的辐射函数 语音信号的传递函数由这三个函数级联而成, 语音信号的传递函数由这三个函数级联而成, 即:H(z)=G(z)V(z)R(z)

36

数字语音处理及MATLAB仿真 张雪英编著

2.5.1 激励模型
发浊音时,产生的脉冲类似于斜三角形的脉冲。 发浊音时,产生的脉冲类似于斜三角形的脉冲。 激励波是一个以基音周期为周期的斜三角脉冲串。 激励波是一个以基音周期为周期的斜三角脉冲串。
1.2 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 0 5 10 15 时 时 (ms) 20 25 N1 N1+N2 20 15 10 5 0 30 25

0

200 400 清 频 f/Hz

600

图2.9 三角波及其频谱图
37

数字语音处理及MATLAB仿真 张雪英编著

单个三角波的数学表达式为
nπ ? ? 1 ? 1 ? cos ? 2 ? N1 ? ? ? ? ? ? n ? N1 ? ? g (n) = ?cos? π? ? ? ? 2N 2 ? ? ?0 ?

0 ≤ n ≤ N1

N1 ≤ n ≤ N1 + N 2

其它

其中: 其中:N1为斜三角波的上升时间 N2为其下降时间
38

数字语音处理及MATLAB仿真 张雪英编著

单个斜三角波的频谱G(ejω)表现出一个低通滤波 单个斜三角波的频谱 表现出一个低通滤波 器的特性。 变换的全极点形式为 变换的全极点形式为: 器的特性。其z变换的全极点形式为:

G (z) =

(1 ? e

1
? cT

?Z

?1 2

)

作为激励的斜三角波串可以用一串加了权的单 位脉冲序列去激励单位斜三角波模型实现。 位脉冲序列去激励单位斜三角波模型实现。 这个单 位脉冲串和幅值因子可以表示成下面的z变换形式 位脉冲串和幅值因子可以表示成下面的 变换形式

Av E (z) = ?1 1? z
39

数字语音处理及MATLAB仿真 张雪英编著

浊音激励模型可表示为

Av 1 U ( z ) = E ( z )G ( z ) = ? ?1 1? Z 1 ? e ? cT z ?1

(

)

2

清音可以模拟成随机白噪声。 清音可以模拟成随机白噪声。

40

数字语音处理及MATLAB仿真 张雪英编著

2.5.2 声道模型-(1)共振峰模型 声道模型典型的声道模型有两种: 典型的声道模型有两种 : 无损声管模型和共 振峰模型。 振峰模型。 (1)共振峰模型 当声波通过声道时,受到声腔共振的影响 , 当声波通过声道时 , 受到声腔共振的影响, 在某些频率附近形成谐振。反映在信号频谱图上, 在某些频率附近形成谐振 。 反映在信号频谱图上 , 在谐振频率处其谱线包络产生峰值,一般把它叫 在谐振频率处其谱线包络产生峰值, 作共振峰。

41

数字语音处理及MATLAB仿真 张雪英编著

清清清清清清
0
对对对对/dB

-20 -40 -60

0

500

1000

1500

2000 f/Hz

2500

3000

3500

4000

浊清清清清清
0
对对对对/dB

-20 -40 -60

0

500

1000

1500

2000 f/Hz

2500

3000

3500

4000

42

数字语音处理及MATLAB仿真 张雪英编著

一个二阶谐振器的传输函数可以写成
V i (z ) = 1 ? B i z ?1 ? c i z ? 2 Ai

实践表明, 实践表明 , 用前三个共振峰代表一个元音足够 了。多个Vi叠加可以得到声道的共振峰模型: 多个 叠加可以得到声道的共振峰模型:
Ai V(z) = ∑Vi (z) =∑ = ?1 ?2 i=1 i=1 1? B Z ?C Z i i
M M

A 1?∑ak z?k
k=1 N

43

数字语音处理及MATLAB仿真 张雪英编著

2.5.2 声道模型-(2)无损声管模型 声道模型)
无损声管模型:是假定声道由多个等长的不 无损声管模型: 同截面积的管子串联而成的系统, 同截面积的管子串联而成的系统 , 并假定管子中 的流体及管壁没有热传导和粘滞的损耗。 的流体及管壁没有热传导和粘滞的损耗 。 在短时 间内, 声道可表为形状稳定的管道, 间内 , 声道可表为形状稳定的管道 , 并可以认为 声波是沿管轴传播的平面波。 声波是沿管轴传播的平面波。

44

数字语音处理及MATLAB仿真 张雪英编著

声门

口唇

图 2.14 用 声 管 模 拟 声 道

对于N个无损声管级联的情况, 对于 个无损声管级联的情况,可得到无损声 个无损声管级联的情况 管的传递函数为: 管的传递函数为: G V (z ) = N
1 ? ∑ α m z ?m
m =1

45

数字语音处理及MATLAB仿真 张雪英编著

2.5.2 声道模型-(3)辐射模型 声道模型)辐射模型
从声道模型输出的是速度波ul (n),而语音信号 从声道模型输出的是速度波 , 是声压波P 。二者倒比称为辐射阻抗Z , 是声压波 l(n)。二者倒比称为辐射阻抗 l,它表征 口唇的辐射效应。 口唇的辐射效应。如果认为口唇张开的面积远远小 于头部的表面积,利用单板开槽辐射的处理方法, 于头部的表面积,利用单板开槽辐射的处理方法, 可以得到辐射阻抗, 近似为 近似为1 可以得到辐射阻抗,r近似为

R ( z ) = R 0 (1 ? rz

?1

)

46

数字语音处理及MATLAB仿真 张雪英编著

由辐射引起的能量损耗正比于辐射阻抗的实 部 R(z), 其频响曲线表现出一阶高通滤波器的特 , 性 。 在实际信号分析时, 常用所谓预加重技术。 在实际信号分析时 , 常用所谓预加重技术 。 这样, 模型只剩下声道部分, 这样 , 模型只剩下声道部分 , 对参数分析就方便 在语音合成时再进行解加重处理。 了。在语音合成时再进行解加重处理。

47

数字语音处理及MATLAB仿真 张雪英编著

2.6 语音信号数字模型
2.6.1 数字模型
(1)组成: )组成: 包括三部分:激励模型、声道模型和辐射模型。 包括三部分:激励模型、声道模型和辐射模型。 激励源分浊音和清音两个分支, 按照浊音/清音 激励源分浊音和清音两个分支 , 按照浊音 清音 开关所处的位置来决定产生的语音是浊音还是清 音。

48

数字语音处理及MATLAB仿真 张雪英编著

T
冲激序列 发生器 声门波 模型 清/浊

振幅 Av

声道参数 a1~ap

声道 模型 V(z)

辐射 模型 R(z)

音判断

随机噪声 发声器 振幅 Au

图 2.12 二元激励的语音生成模型

49

数字语音处理及MATLAB仿真 张雪英编著

(2)在浊音的情况下,激励信号由一个周期脉冲 )在浊音的情况下, 发生器产生。 所产生的序列是一个周期为T的冲 发生器产生 。 所产生的序列是一个周期为 的冲 激序列,T的倒数即为基音频率 的倒数即为基音频率。 激序列 的倒数即为基音频率 。 为了使浊音的激 励信号具有声门气流脉冲的实际波形, 励信号具有声门气流脉冲的实际波形 , 还需要使 上述的冲激序列通过一个声门脉冲模型滤波器。 上述的冲激序列通过一个声门脉冲模型滤波器。

50

数字语音处理及MATLAB仿真 张雪英编著

(3)在清音的情况下,激励信号由一个随机噪声发 )在清音的情况下, 生器产生。设其均值为0,方差为常数, 生器产生。设其均值为 ,方差为常数,幅度具有 高斯概率分布。 高斯概率分布 。 乘系数的作用是调节清音信号的 幅度。 幅度。 (4) 图2.16中画出了一段浊音语音产生过程中的有 ) 中画出了一段浊音语音产生过程中的有 关波形。 关波形。

51

数字语音处理及MATLAB仿真 张雪英编著

e(t) v(t) T E(w) V(w)

s(t)

S(w)

2π/T 图 2.16 准周期脉冲序列激励声道产生浊音

52

数字语音处理及MATLAB仿真 张雪英编著

(5)声道模型 )声道模型V(Z)给出了离散时域的声道传输函 给出了离散时域的声道传输函 把实际声道作为一个变截面声管加以研究, 数 , 把实际声道作为一个变截面声管加以研究 , 采用流体力学的方法可以导出, 在大多数情况下 采用流体力学的方法可以导出 , 它是一个全极点函数。 可以表示为: 它是一个全极点函数。V(Z)可以表示为: 可以表示为
V (Z

)=

1



P

i=0

aiZ

?i

, a0 = 1 , ai

53

数字语音处理及MATLAB仿真 张雪英编著

把截面积连续变化的声管近似为P段短声管的 把截面积连续变化的声管近似为 段短声管的 串联,每段短声管的截面积是不变的。 称为这个 串联,每段短声管的截面积是不变的。P称为这个 全极点滤波器的阶。P值越大,模型的传输函数与 全极点滤波器的阶。 值越大, 值越大 声道实际传输函数的吻合程度越高。 声道实际传输函数的吻合程度越高。 辐射模型R(Z)与嘴型有关 , 通常 与嘴型有关, 通常R(Z)可以表 辐射模型 与嘴型有关 可以表 示为

R (Z ) = 1 ? rZ

(

?1

), r ≈ 1

54

数字语音处理及MATLAB仿真 张雪英编著

在这个模型中,除了G(Z)和R(Z)保持不变以 在这个模型中, 除了 和 保持不变以 外,T、Av、Au、清/浊音开关的位置以及声道模 、 、 、 浊音开关的位置以及声道模 型中参数a 都是随时间而变化的, 型中参数 1 ~ ap 都是随时间而变化的 , 由于发音 器官的惯性使这些参数的变化速度受到限制。 器官的惯性使这些参数的变化速度受到限制 。 对 于声道参数, 于声道参数,在10~30ms的时间间隔内可以认为 ~ 的时间间隔内可以认为 它们保持不变,因此, 它们保持不变 , 因此 , 语音的短时分析是分帧进 行的。对于激励源参数, 行的 。 对于激励源参数 , 多数情况下这一结果也 是正确的。 是正确的。

55

数字语音处理及MATLAB仿真 张雪英编著

(6) 统一的公式
离散时域语音信号s(n)的z变换 的 变换 变换S(z)可以用一个 离散时域语音信号 可以用一个 统一的公式来计算: 统一的公式来计算:
S (Z ) = A * E (Z ) * H (Z )

在浊音情况下, E(z)是一周期冲激序列的 变 是一周期冲激序列的z变 在浊音情况下, 是一周期冲激序列的 换且
A = AV
H (Z ) = G (Z )V (Z )R (Z )



S ( Z ) = Av * E ( Z ) * H ( Z )
56

数字语音处理及MATLAB仿真 张雪英编著

在清音情况下, 是一个随机噪声的z变换且 在清音情况下,E(z)是一个随机噪声的 变换且 是一个随机噪声的
A = AU
H (Z ) = V (Z )R (Z )



S ( Z ) = Au * E ( Z ) * H ( Z )

57

数字语音处理及MATLAB仿真 张雪英编著

2.6 语音信号数字模型 语音信号数字模型模型局限性(1) 模型局限性
声道的传输函数具有全极点的性质, 声道的传输函数具有全极点的性质,这对于 元音和大多数辅音来说是比较符合实际的, 元音和大多数辅音来说是比较符合实际的 , 但对 于鼻音和阻塞音来说,由于出现了零点, 于鼻音和阻塞音来说 , 由于出现了零点 , 这种模 型就不够准确了。 型就不够准确了。 一种解决问题的方案是在V(z)中引入若干零 中引入若干零 一种解决问题的方案是在 另一种方法是适当提高阶数P, 点 ; 另一种方法是适当提高阶数 , 使得全极点 模型能更好地逼近具有此种零点的传输函数。 模型能更好地逼近具有此种零点的传输函数。

58

数字语音处理及MATLAB仿真 张雪英编著

2.6 语音信号数字模型 语音信号数字模型模型局限性(2) 模型局限性
数字模型的基本思想是认为任何语音都是由 一个适当的激励源作用于声道而产生的, 一个适当的激励源作用于声道而产生的 , 这意味 着激励源与声道系统是互相独立的。 着激励源与声道系统是互相独立的 。 上述假定对 于大多数语音是合适的,但在有些情况下, 于大多数语音是合适的 , 但在有些情况下 , 例如 某些瞬变音,实际上声门和声道是互相耦合的, 某些瞬变音 , 实际上声门和声道是互相耦合的 , 这便形成了这些语音的非线性特性。 这便形成了这些语音的非线性特性。

59

数字语音处理及MATLAB仿真 张雪英编著

2.6 语音信号数字模型 语音信号数字模型模型局限性(3) 模型局限性
并非任何语音都能够明显地按清音和浊音来 划分,有的音甚至也不是清音和浊音的简单叠加。 划分,有的音甚至也不是清音和浊音的简单叠加。 这种将语音信号截然分为周期脉冲激励和噪声激 励两种情况的“二元激励” 励两种情况的“二元激励”法在高质语音的合成 中是不适用的。 中是不适用的。

60


赞助商链接
更多相关文档:
更多相关标签:
网站地图

文档资料共享网 nexoncn.com copyright ©right 2010-2020。
文档资料共享网内容来自网络,如有侵犯请联系客服。email:zhit325@126.com