在低信噪比环境下基于感知声谱图结构边界参数的语音端点检测

WU Di，ZHAO Heming，HUANG Chengwei，XIAO Zhongzhe，ZHANG Xiaojun，XU Yishen， TAO Zhi

(1物理学院，光电与能源，苏州大学215006

(2电子信息学院, 苏州大学215006

2013年12月17日出版

2014年6月8日修订

摘要

为了语音端点检测的语音预处理或语音识别，光谱图结构边界(PSSB)参数被提出。首先听力感知语音增强被实现,然后，根据演讲的确定性分布特征和噪声的随机分布特征的差异性的良好的声谱图，二维增强被实现。最后，通过PSSB参数，语音端点被检测出来。实验结果表明,在低信噪比环境下从-10 dB 到10 dB,本文提出的算法相比现存的语音端点检测算法可以达到更高的精度。检测精度甚至可以达到75.2%在-10dB这样极其低的信噪比环境下.因此，本算法适用于低信噪比环境下的语音端点检测。

1说明

作为用于语音识别和说话人识别的预处理器，正确和有效的终点检测可以大大提高系统的识别率^[1]。传统的端点检测算法可能在高信噪比的实验室环境中检测语音效果不错。但是，在低信噪比的环境下，他们大多数会极速衰退^[2-6]。

在最近几年，许多学者在研究健壮的语音端点检测算法。A．Ganapat hiraju et al.^[7] 利用短时能量和过零率来判断端点。这种模型比其他传统的能量模型有着更好的鲁棒性。Zhenbiao Chen et al.^[8]提出了一种通过用更具识别力和鲁棒性的带内能量模型与图像处理中使用的最优边缘检测算法相结合的的端点检测算法。而且这种算法端点检测的表现在复杂的噪声环境中能够明显地提高。Xueyi ng Zhang et al.^[9] 提出了一种WC算法，它可以在每一个尺度下分析信号，因此可以在一定程度上区分语音段和噪声段。Bi ng-Fe Wu et al.^[10]利用ABSE模型来进行端点检测。这种模型可以辨别语音子带和噪音子带，在噪声环境下实现的语音端点检测更精确。Q.Li.^[11] 使用三态检测逻辑过滤器来用于语音端点检测，其灵感来自于图像处理的最优边缘检测模型，所以这个模型在不同的信噪比下不需要去判断阈值。但是，所有的这些模型在低信噪比环境下不能得到较高的端点检测的精确度。

根据语音信号和噪声信号在声谱图中的不同，和基于听觉感知特征的语音增强算法结合，我们提出用PSSB算法来判断端点。首先，语音增强根据人类听觉掩蔽特征应用于低信噪比的语音。其次，考虑到在有声段时间轴上的语音分组的连续分配特征，通过一个二维声谱增强模型语音被增强。最后，我们发现，在时域和频域下的语音的二维声谱结构边界通过PSSB可以检测端点。

2基于听觉感知特征的语音增强

在低信噪比环境下，大多数端点检测算法的性能明显下降，甚至完全无效。人们可以在重噪声环境识别言语段，这是受益于人类的听觉感知特征。利用听觉问题特征，噪音可以在一定程度上被抑制。基于PSSB特征，我们基于听觉掩码特性的语音增强，以在保护语音的基础上尽可能地抑制噪声。该方法的最重要的步骤是掩码阈值的计算^[10]。

屏蔽阈值计算和语音增强系统设置如下：

（1）声域功率谱

通过FFT将语音信号x（n）变换成频域信号X（k）。功率谱为：

声域功率谱是：

其中Bi表示第i个声频子带的功率，bli表示第i个子带的最低频率，bhi表示第i个子带的最高频率。

（2）扩展声域功率谱Ci

使用扩散函数Sij，它是一个矩阵，符合：

Sij被定义为：

△ =i-j,i,j= 1,2,hellip;,imax 代表两个子带数的差异

（3）掩码能量Oi的偏移函数和掩码阈值Ti^[13]的计算

a的值在0和1之间，由语音决定.Ti是第i个Bark子带的掩码阈值。它被重命名为Tb（k），其中b的含义与前一个i相同。

与安静听觉域的掩码阈值相比^[14]：

我们使用最大值T（k）= max（Tb（k），Tq（k））作为最终拟合度阈值，其中Tq（k）是Tq（f）的掩码曲线。

（4）减法参数的光谱减法和调整^[15]

谱减法的增益函数设置如下：

首先，针对不同的声域计算每个语音帧的掩码阈值。其次，根据掩码阈值获得自适应减法参数：如果掩码阈值高，残余噪声自然会被屏蔽，不能被听到，因此减法参数值为最小;如果掩码阈值较低，残留噪声将大大影响人们的听力，因此减法参数值最大。对于每个帧m，掩码阈值Tm（k）的最小值与减法参数的最大值相关，alpha;m（k）和beta;m（k）参考参数符合以下公式：

其中Tm（k）min和Tm（k）max分别是最小值和Tm（k）的最大值。alpha;min，beta;min和alpha;max是最小值和最大值alpha;m（k），beta;m（k），当Tm（k）= Tm（k）min时，因此alpha;m（k）=alpha;max;当Tm（k）= Tm（k）max时，因此alpha;m（k）=alpha;min，其中Tm（k）min和 Tm（k）max分别是掩码阈值的最小值和最大值。参数设置如下，

=1,=6
=0,=0.02
=2

（5）实时噪声功率谱估计

用于语音增强的噪声功率谱估计需要较高的实时性能。使用基于约束方差谱平滑和最小跟踪的方法。算法的关键是约束方差平滑滤波器，其控制拍摄时间平滑功率谱的方差，并使最小跟踪更加准确。通过这种方法，可以及时跟踪噪声突变。与其他噪声谱估计方法相比，该方法显示出更好的准确度。

（6）语音增强系统

自适应减法参数alpha;和beta;通过掩码阈值获得。

语音增强系统如图1所示。

3语言二维增强

语音增强后，由于频谱减法，噪声和语音同时减少。然而，声谱图的低频区域的语音具有较高的信噪比，因为声音语音段包含高能量形式的共振峰结构。这些共振峰结构能量通常在时域中连续分布。因此，如果我们在声谱图中发现这些连续分布，从而识别声音语音段，则可以检测到端点。通过使用搜索连续分布式声谱图数据结构来检测端点。

通过语音增强来增强她的低SNRs语音信号，噪声（语音增强后的剩余音乐噪声）将呈现边缘检测中声谱图结构的边界。语音结构将受到噪声的干扰，极大地扰乱了语音结构的搜索过程，如图2所示。

图2（a）是具有-5 dB白噪声的嘈杂语音的声谱图。连续分布的水平t黑条纹表示语音信号（在高频区域，噪声具有低能量的掩蔽语音信号，共振峰结构在高频区域不可见），黑色雪花背景代表白噪声，图2（b）是语音增强后的声谱图，噪声大大降低，但仍存在不同强度的残留音乐噪声。在本文中，残差噪声分为强残余噪声和直接残留噪声，如图2（b）所示。两种噪声中的两种会大大干扰语音端点检测。根据残差噪声结构和语音结构。我们应用二维噪声侵蚀算法和二维语音扩展算法。

3.1二维噪声侵蚀算法

在二维数据（如图像）增强算法中，侵蚀算法可以减少或消除特定的二维结构。我们发现，微小残留噪声（灰色雪花状结构）通常随机分布在增强声谱图中，如图2（b）所示，它们具有较小的尺寸和能量。

因此，我们提出二维噪声侵蚀算法来减少这种二维结构。该算法由以下过程确定。首先，将快速傅里叶变换应用于语音，并且通过以下公式计算每帧的频谱：

其中xm（n）是第m帧的语音信号，Xm（k）是第m帧的频谱，N是Dame的长度或每帧的STDFT的点数.W（n）是汉明窗口每个语音信号帧的功率谱可以表示为：

X（m，k）被定义为语音信号的声谱图。

X（m，k）id的二维噪声侵蚀算法定义如下：

其中b（m，k）是结构元素，Dx是X（m，k）的域，Db是b（m，k）的域，平移参数（m m），（k k）必须在Dx中。而m，k必须在Db中。二维噪声侵蚀算法有两个效果：（1）如果所有元素都为正，则输出信号趋于弱于原始信号;（2）如果噪声的声谱图结构与结构元素相似，则为弱化和弱化水平取决于噪声的声谱形状和结构要素。

在嘈杂语音的声谱中，侵蚀算法的会同时衰减噪声和语音。所提出的二维噪声侵蚀算法的目的是相对于语音衰减更多的噪声。根据微小残差噪声的声谱形状，二维噪声侵蚀算法的结构元素b（m，k）定义为：

这种结构元素b（m，k）类似于微小残留噪声（小点）的声谱图结构。该算法可以在一定程度上将结构元素b（m，k）衰减为一种噪声。

3.2二维语音扩张算法

在二维噪声侵蚀算法之后，微小的残余噪声被抑制。然而，强残余噪声的能量属性与语音类似（如图2（b）所示）。如果声谱被过度侵蚀，语音的二维结构也将同时衰减。扩展算法可以增强与结构元素相似的二维结构，其他二维结构相对衰减。根据强残差噪声和语音的声谱结构之间的差异，我们提出了二维语音扩展算法。我们将结构元素定义为类似于连续分布语音的结构，从而可以相对抑制噪声结构。

利用二维噪声侵蚀算法Y（m，k）的结果，二维语音扩展算法Z（m，k）由下式定义：

其中c（m，k）是结构元素，Dy是Y（m，k）的域，Dc是c（m，k）的域。结构元素值被加到声谱图像素值和最大值被计算。如果所有元素均为正，则二维语音扩展算法具有两个效果：（1）如果所有元素均为正，则输出信号趋向于比原始信号强;（2）是否增强一种结构，取决于扩张结构元件的声谱图形状。

扩展算法运算器在语音结构增强的同时增强噪声结构。提出的二维语音扩展算法的目的是相对增强语音结构和抑制噪声结构。声音语音的声谱结构通常是沿着时间轴的水平条状结构，强残余噪声的结构类似于不同尺寸的正方形或圆形，如图2（b）所示，我们定义结构元素沿着时间轴的水平条形。

因此，二维语音扩展算法中的结构元素c（m，k）被定义为以下形状：

其中c（m，k）沿着时间轴与水平条状结构元素相关。所有类似于c（m，k）的结构将被增强。语音的声谱图结构与c（m ，k）。因此，这些语音结构得到增强。强残余噪声的结构通常与圆形或正方形相似，其结构被衰减。

4感知谱图结构边界（PSSB）特征和端点检测算法

4.1感知光谱结构边界（PSSB）特征

在二维域中，考虑到语音在时间轴上的连续分布特征，二维增强被应用于噪声语音，这使得语音结构进一步突出并且抑制噪声结构。然后，我们发现语音结构的边界，并提出了感知声谱图结构边界（PSSB）特征来检测端点。

为获得PSSB特征，必须首先计算声谱图边界信息。边缘检测是计算二维结构边界的重要方法。连续二维信号的边界可以由一阶部分的梯度表示在本文中，从邻域模型的结果Z（m，k）在公式中被使用。

Z5是这个邻里模型的中心点。中心梯度可以表示为以下公式：

Gm和Gk由公式19和公式20确定：

g（m，k）是Z（m，k）的边界。

根据g（m，k）和声谱图的分析，在低SNR环境下，语音信号和声谱特征被高频区域的噪声所掩蔽。但是，声纳谱的声谱仍然具有很高的能量并具有可解的声音频率较低时，这种现象更为明显，得到声谱边界g（m，k）后，我们使低频区域具有较高的权重，加权总和为q（m， k）在每个帧的频率轴上，并通过以下公式提出PSSB特征：

其中f_PSSB（m）是第m帧的PSSB值，M是总帧数

PSSB值f_PSSB（m）可以很好地描述相对声音语音段，并且具有优异的抗噪声鲁棒性。

4.2语音端点检测

声音段通常具有较长的连续分配时间。无声语音段具有两种分布：（1）无声分布在声音中;（2）无声在发音的开始或结束时分布。

根据实验，声音中的声音通常可以被识别为声音（PSSB值大于阈值0.5），因为无声帧通常很短，我们使用50％的帧移位方法。这种方法可以分析声音光谱图组合声音和相邻声音，使得帧可以包括声音相邻的声音信息。

然而，随着SNR的降低，特别是低于0dB，在开始和结束语音（值较小）时，PSSB特征的区别特征被减小。如果我们检测到只有一个阈值的端点，则无声语音检测的性能将急剧下降。尽管无声语音帧的PSSB值较小，但也具有一些区别特征（值小于0），我们采用使用语音连续分布特征的检测方法，并分别处理声音语音帧和无声语音帧。端点检测方法设置如下：

（1）首先，以瓦片PSSB值高于阈值a，并且连续帧数高于阈值m来检测语音片段。该片段被检测为子段。

（2）将该音节片段视为基本片段。与基本片段相邻的所有片段，其值不小于阈值b，被定义为连续语音段。阈值b的值小于a。在我们的实验中，b的值在0.01和0.05之间，检测结果更好，可以很好地检测到较小的PSSB值的无声语音段。

（3）语音段的开始和结束是端点。

根据实验，当a = 0.5时，b = 0.01，m = 20，对于白噪声，系统性能更好

端点检测算法的框图如图3所示

5仿真结果与分析

实验在不同的SNR条件下进行。低SNR语音在16kHz下调制并量化为16位数据，每个火焰的长度为256，帧移位的长度为128.语音信号选自TI M IT数据库，白噪声信号来自NoiseX-92数据库。显示了TIMIT数据库语音技术的波形如图4（a）所示。在图4（b）中，波形是语音添加的白噪声，S

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[140753]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

在低信噪比环境下基于感知声谱图结构边界参数的语音端点检测外文翻译资料

摘要

1说明

2基于听觉感知特征的语音增强

3语言二维增强

3.1二维噪声侵蚀算法

3.2二维语音扩张算法

4感知谱图结构边界（PSSB）特征和端点检测算法

4.1感知光谱结构边界（PSSB）特征

4.2语音端点检测

5仿真结果与分析

您可能感兴趣的文章

登录

注册

找回密码

摘要

1说明

2基于听觉感知特征的语音增强

3语言二维增强

3.1二维噪声侵蚀算法

3.2二维语音扩张算法

4感知谱图结构边界（PSSB）特征和端点检测算法

4.1感知光谱结构边界（PSSB）特征

4.2语音端点检测

5仿真结果与分析

您可能感兴趣的文章