当前位置:首页 >> 高中教育 >> 数字语音处理及MATLAB仿真.rar 第十一章

数字语音处理及MATLAB仿真.rar 第十一章


数字语音处理及MATLAB仿真 张雪英编著

第十一章 语音增强
1 2 3

11.1 概述 11.2 语音感知特性和噪声特性 11.3 语音增强算法

1

数字语音处理及MATLAB仿真 张雪英编著

11.1 概述
在通信过程中语音受到来自周围环境、传输媒 介引入的噪声,使接收到的语音信号并非纯净的原 始语音信号,而是受噪声污染的带噪语音信号。这 里的“噪音”定义为所需语音信号以外的所有干扰 信号。 干扰信号可以是窄带的或宽带的、白噪声的或 有色噪声的、声学的或电学的、加性的或乘性的, 甚至可以是其它无关的语音。由噪声导致的语音质 量的下降会使许多语音处理系统的性能急剧恶化。
2

数字语音处理及MATLAB仿真 张雪英编著

采用语音增强技术进行预处理,可有效地改 善系统性能。 语音增强的目标:
对收听人而言主要是改善语音质量,提高语音 可懂度,减少疲劳感;对语音处理系统(识别器、 声码器、手机)而言是提高系统的识别率和抗干扰 能力。

3

数字语音处理及MATLAB仿真 张雪英编著

目前国内外有关抗噪声技术的的研究成果大体 分为三类解决方法: 1. 采用语音增强算法,提高语音识别系统前端 预处理的抗噪声能力,提高输入信号的信噪比;

2. 寻找稳健的语音特征作为特征参数,实验证 明,这类参数对宽带语音具有较好的抗噪性; 3. 基于模型参数自适应的噪声补偿算法。

4

数字语音处理及MATLAB仿真 张雪英编著

解决噪声问题的根本方法是实现噪声和语音 的自动分离,但由于技术的难度,这方面的研究进 展不大。近年来,随着声场景分析技术和盲分离技 术的研究发展,利用在这些领域的研究成果进行语 音和噪声分离的研究取得了一些进展。

5

数字语音处理及MATLAB仿真 张雪英编著

语音增强与语音信号处理理论有关,而且涉及 到人的听觉感知和语音学。噪声来源众多,随应用 场合不同而特性各异,因此难以找到一种通用的语 音增强算法可以适用于各种噪声环境,必须针对不 同环境下的噪声采取不同的语音增强策略。因此, 要进行语音增强首先要了解语音特性、人耳感知特 性和噪声特性。

6

数字语音处理及MATLAB仿真 张雪英编著

11.2 语音感知特性和噪声特性
11.2.1 语音特性
1. 语音信号具有短时平稳性

声道形状有相对稳定性,在一段时间内 (10ms~30ms),人的声带和声道形状是相对稳 定的,可认为其特征是不变的,因而语音的短时 谱具有相对稳定性,在语音分析中可以把语音信 号分为若干分析帧,每一帧的语音可以认为是准 稳定的。语音增强可以利用这种短时平稳性。
7

数字语音处理及MATLAB仿真 张雪英编著

2.语音信号可以分为浊音和清音
语音可以分为周期性的浊音和非周期性的清 音。在语音增强中,可以利用浊音的周期性特征, 采用梳状滤波器提取语音分量或者抑制非语音信 号,而清音则难以与宽带噪声区分。

8

数字语音处理及MATLAB仿真 张雪英编著

3.语音信号可以利用统计分析特征描述 作为一个随机过程,语音信号可以利用许多 统计分析特征进行分析。 语音的短时谱幅度统计特征是时变的,只有 当分析帧长趋于无穷大时,才能近似具有高斯分 布。在高斯模型的假设中,可以认为傅里叶展开 系数是独立的高斯随机变量,均值为零,而方差 是时变的。在有限帧长时这种高斯模型只是一种 近似的描述,可以作为分析的前提在宽带噪声污 染的带噪语音增强中应用。

9

数字语音处理及MATLAB仿真 张雪英编著

11.2.2 人耳感知特性
人耳对语音的感知主要是通过语音信号频谱分 量幅度获取的,对各分量相位则不敏感,对频率高 低的感受近似与该频率的对数值成正比。 人耳具有掩蔽效应,人耳除了可以感受声音的 强度、音调、音色和空间方位外,还可以在两人以 上的讲话环境中分辨出所需要的声音,这种分辨能 力是人体内部语音理解机制具有的一种感知能力。 人类的这种分离语音的能力与人的双耳输入效应有 关,称为“鸡尾酒会效应”。

10

数字语音处理及MATLAB仿真 张雪英编著

语音增强的最终效果度量是人耳的主观感觉, 所以在语音增强中可以利用人耳感知特性来减少运算 代价。

11

数字语音处理及MATLAB仿真 张雪英编著

11.2.3 噪声特性
根据与输入语音信号的关系,噪声可分为加 性噪声和非加性噪声两类。对某些非加性噪声而 言,可以通过一定的变换转换成加性噪声。 语音处理中的加性噪声大体上可以分为周期 性噪声、脉冲噪声、宽带噪声和同声道其他语音 的干扰等。

12

数字语音处理及MATLAB仿真 张雪英编著

1.周期性噪声
周期性噪声主要来源于发动机等周期性运转的 机械,电气干扰也会引起周期性噪声。 特点是频谱上有许多离散的线谱。 实际信号受多种因素的影响,线谱分量通常转 变为窄带谱结构,而且通常这些窄带谱都是时变的, 位置也不固定。必须采用自适应滤波的方法才能有 效地区分这些噪声分量。

13

数字语音处理及MATLAB仿真 张雪英编著

2.脉冲噪声
脉冲噪声来源于爆炸、撞击、放电及突发性干 扰等。 特征是时间上的宽度很窄。 在时域消除脉冲噪声过程如下:根据带噪语音 信号幅度的平均值确定阈值。当信号超出这一阈值 时判别为脉冲噪声。然后对信号进行适当的衰减, 就可完全消除噪声分量,也可以使用内插方法将脉 冲噪声在时域上进行平滑。

14

数字语音处理及MATLAB仿真 张雪英编著

3.宽带噪声
宽带噪声来源很多,热噪声、气流噪声及各种 随机噪声源、量化噪声都可以视为宽带噪声。宽带 噪声与语音信号在时域和频域上基本上重叠,只有 在无话期间,噪声分量才单独存在。因此消除这种 噪声比较困难。 对于平稳的宽带噪声,通常可以认为是白色高 斯噪声。

15

数字语音处理及MATLAB仿真 张雪英编著

4.同声道语音干扰
干扰语音信号和待传语音信号同时在一个信道 中传输所造成的语音干扰称为同声道语音干扰。区 别有用语音和干扰语音的基本方法是利用它们的基 音差别。考虑到一般情况下两种语音的基音不同, 也不成整数倍,这样可以用梳状滤波器提取基音和 各次谐波,再恢复出有用语音信号。

16

数字语音处理及MATLAB仿真 张雪英编著

5.传输噪声
这是传输系统的电路噪声。 处理这种噪声可以采用同态处理的方法,把非 加性噪声变换为加性噪声来处理。

17

数字语音处理及MATLAB仿真 张雪英编著

通过语音增强技术改善语音质量的过程如下图所示:

18

数字语音处理及MATLAB仿真 张雪英编著

11.3 语音增强算法
目前语音增强算法大致可以分为四种: 参数方法

非参数方法
统计方法 其它方法

19

数字语音处理及MATLAB仿真 张雪英编著

11.3.1 参数方法
此类方法主要依赖于使用的语音生成模型(例 如AR模型),需要提取模型参数(如基音周期、 LPC系数),常常使用迭代方法。如果实际噪音或 语音条件与模型有较大的差距,或提取模型参数有 困难,则此类方法容易失效。采用滤波器模型时, 典型的有梳状滤波器、维纳滤波器、卡尔曼滤波器 等。

20

数字语音处理及MATLAB仿真 张雪英编著

语音的全极点生成模型如图所示:

图11.2 语音的全极点生成模型

21

数字语音处理及MATLAB仿真 张雪英编著

语音的全极点生成模型中

激励源为:u(n) ;增益因子为:g;语音信号为:s(n)
全极点滤波器为:H ( z ) ? 1
A( z )
A , (z) ? 1 ? ? a
k ?1 p

z k

?k

根据全极点模型有

s(n) ?

?a
k ?1

p

k

s ( n ? k ) ? gu ( n )

s(n)为清音时,u(n)为宽带噪声 s(n)为浊音时,u(n)为间隔是基音周期T的脉冲串

22

数字语音处理及MATLAB仿真 张雪英编著

11.3.2 非参数方法
非参数方法不需要从带噪信号中估计模型参数, 因此这种方法的应用范围较广。但由于没有利用可 能的语言统计信息,故结果一般不是最优化的。这 类方法包括自适应噪声抵消法、谱减法等。

23

数字语音处理及MATLAB仿真 张雪英编著

1.自适应噪声抵消法
y(n) = s(n) +d(n) r(n)
自适应 滤波器

+ v(n) -

e(n)

增强语音

图11.3 自适应噪声抵消原理图

24

数字语音处理及MATLAB仿真 张雪英编著

设带噪语音输入为y(n)=s(n)+d(n), s(n)为语音 信号,d(n)为未知噪声信号,r(n)参考噪声输入, 也即自适应滤波器的输入,v(n)是该滤波器的输出。 r(n)与s(n)无关,而与d(n)相关。
自适应滤波器原理:在输入过程的统计特性 未知或是输入过程的统计特性变化时,能够调整自 己的参数,以满足某种最佳准则的要求。自适应滤 波的目的就是通过对 r(n)的滤波,使输出的噪声估 值v(n)尽可能接近带噪语音中的d(n),然后从带噪 语音中直接减去 v(n) ,达到语音增强的目的。
25

数字语音处理及MATLAB仿真 张雪英编著

自适应滤波器通常采用FIR滤波器,系数采用最小 均方误差(MMSE)准则来迭代估计。判断标准是使 误差信号e(n)能量最小:
e(n) ? s(n) ? d (n) ? v(n) ? s(n) ? d (n) ?

?w
k ?1

N

k

r (n ? k )

其 中 , wk 是 滤 波 器 系 数 , N 是 滤 波 器 抽 头 数 。 MMSE准则要求噪声和语音相互独立,这时,误差 信号e(n)能量最小,可保证v(n)与d(n)最接近。

26

数字语音处理及MATLAB仿真 张雪英编著

2.谱减法
是利用噪声的统计平稳性以及加性噪声与语音 不相关的特点而提出的一种语音增强方法。没有使 用参考噪声源,但它假设噪声是统计平稳的,即有 语音期间噪声幅度谱的期望值与无语音间隙噪声的 幅度谱的期望值相等。用无语音间隙测量计算得到 的噪声频谱的估计值取代有语音期间噪声的频谱, 与含噪语音频谱相减,得到语音频谱的估计值。此 类语音增强方法将估计的对象放在短时谱幅度上。

27

数字语音处理及MATLAB仿真 张雪英编著

y i s i ni ()=()+()

FFT

Yk
? (k )

Yk
Y
k

2

??n ? k ?
?k S
2

?(i) s

IFFT

相位恢复

?

? S

2 k

?

1 / 2

图11.5 谱减法原理图 图中,y(n)经FFT变换后,有Yk=Sk+Nk,由此可得:
YK
2

? Sk

2

? Nk

2

? Sk N k ? Sk N k

?

?

28

数字语音处理及MATLAB仿真 张雪英编著

由于s ( n ) 和d ( n ) 相互独立,所以 S k 和 N k 独立,而 N k 为零均值的高斯分布,所以有:
E Yk
2

? E Sk

2

? E Nk

2

对于一个分析帧内的短时平稳过程,有:
Yk
2

? Sk
2

2

? ?n (k )

? n ( k ) 为无语音时 N k
? 估计值如下,其中 S

k

的统计平均值,则原始语音的 是增强后的语音信号的幅度
2 1/ 2

? S k ? [ Yk

2

? E ( N k )]

? [ Yk

2

? ? n ( k )]

1/ 2

29

数字语音处理及MATLAB仿真 张雪英编著

定义

? G k ? S k / Yk

,及后验信噪比
? S k ? G k Yk

? k ? Yk

2

/ ?n (k )

,上式

可改写为:

(11-9)
1/ 2

G k ? (1 ? 1 / ? k )

(11-10)

式(11-10)中,当 ? k 小于1时,将失去意义。因此,将 式(11-10)改写为
G k ? m ax ( ? , (1 ? 1 / ? k )
1/ 2

)

其中,? 是个大于零的常数。

30

数字语音处理及MATLAB仿真 张雪英编著

? S k ? G k Yk

谱相减的物理意义:相当于对带噪语音的每一 个频谱分量乘以一个系数。信噪比高时,含有语音 Gk 的可能性大,衰减系数小。反之,则认为含有语音 的可能性小,衰减系数大。 谱减法在频域将带噪语音的功率谱减去噪声的 功率谱得到纯净语音功率谱估计,开方后就得到语 音幅度谱估计,用带噪语音的相位来近似纯净语音 的相位,再采用反傅里叶变换恢复时域信号。

31

数字语音处理及MATLAB仿真 张雪英编著

谱减法优点:比较简单,只需要进行正反傅 立叶变换,而且实时实现较容易。 谱减法缺点: 适用的信噪比范围较窄,在信噪比
较低时对语音的可懂度损伤较大。所以实际应用时 除了要降低噪声外,还要兼顾语音的可懂度和自然 度。
由于频谱直接相减会使增强后的语音产生“音 乐噪声”,它具有一定的节奏性,听上去类似音乐

声,由此而得名。

32

数字语音处理及MATLAB仿真 张雪英编著

11.3.3 统计方法
统计方法较充分地利用了语音和噪音的统计特 性,一般要建立模型库,需要训练过程获得初始统 计参数,它与语音识别系统的联系很密切。如最小 均方误差估计(MMSE)、利用听觉掩蔽效应等。 对于语音增强来说,听觉意义上的失真准则与 给定噪声情况下语音频谱的后验分布是无法知道的, 因此,对于特定的失真准则和后验概率不敏感的估 计方法是很有用处的。

33

数字语音处理及MATLAB仿真 张雪英编著

大部分语音的变化是比较缓慢的,帧与帧之间 的频谱有着一定的相似性,其相应频谱分量之间存 在某种相关性,这种相关性可以反映在前一帧的频 谱值对后一帧频谱的分布产生一种约束影响。由此, 产生了基于帧间频谱分布约束的MMSE估计方法。 人耳对声音强度的感受是与谱幅度的对数成正 比的,同时,语音处理的实践也表明,采用对数失 真准则更为适合一些。为此,可得到频域分布约束 的短时对数谱的MMSE估计。

34

数字语音处理及MATLAB仿真 张雪英编著

MMSE算法优点:达到了语音可懂度和清晰度的折 衷,适用信噪比的范围较广; MMSE算法缺点:由于需要统计各种参数,算法运 算量大,实时性不好。

35

数字语音处理及MATLAB仿真 张雪英编著

应用听觉掩蔽效应进行语音增强,语音信号能 够掩蔽与其同时进入听觉系统的一部分能量较小的 噪声信号,而使得这部分噪声不为人感知,利用一 个功率谱域的基于听觉掩蔽门限的不等式准则,动 态选择一个参数自适应变化的非线性函数估计语音 短时谱幅度从而实现语音增强。

36

数字语音处理及MATLAB仿真 张雪英编著

11.3.4 其他方法
其他方法包括小波变换、卡亨南-洛维变换 (KLT)、离散余弦变换(DCT)、人工神经网络 等。这些方法不像前三类方法那样成熟,可以概 括地称为非主流方法。

37

数字语音处理及MATLAB仿真 张雪英编著

11.3.5 谱减法语音增强的仿真实现
读入语音文件 产生随机白噪声

带噪语音

加 汉 明 窗 , 帧 间 重 叠 50%

短 时 FFT

短时相位谱

短时噪声幅度谱估计 _

短时幅度谱 +

Y 差 值 >0? 频域中合成语音

N 将差值置为零

短 时 IF F T 并 各 帧 重 叠 相 加

去除汉明窗引起的增益

增强后的语音 图 11 .6 谱减法流程图

38

数字语音处理及MATLAB仿真 张雪英编著

39


赞助商链接
更多相关文档:
更多相关标签:
网站地图

文档资料共享网 nexoncn.com copyright ©right 2010-2020。
文档资料共享网内容来自网络,如有侵犯请联系客服。email:zhit325@126.com