英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
基于阈值和能量序列的英语音频分割方法研究
Kun Li, Yan Zhang, Jing Li amp; Wei Dong
Qinhuangdao Institute of Technology, Qinhuangdao, Hebei, China
摘要:作为一种新的学习方式,移动平台在英语学习中发挥着越来越重要的作用。 为了适应英语移动学习平台的建设要求,有义务开展对英语音频分段的积极研究。 在本研究中,作者简要分析了基于阈值和能量序列的英语音频分割,提供了英语音频分割的基本过程,并对该方案的关键技术要点进行了讨论,包括开窗过程,音频特征提取和双阈值。 最后,笔者对英语音频分词的操作进行了研究,旨在吸引更多的人关注这个领域的研究。
关键词:英语音频; 分割; 阈值; 能量序列; 方法
1引言
随着无线通信技术的发展和移动信息平台的逐渐成熟,移动学习作为一种新的学习方式,在各个行业和领域取得了长足的进步。如今,移动学习已成为远程教育和数字学习系统研究的热门话题之一。在传统教育体制和学习方式改革中,由于其互动性,移动学习正在发挥着不可或缺的价值作用。对学科与移动学习模式的有机结合进行讨论是应该高度重视的问题之一,尤其是英语这一门学习资源规模大、针对性强的学科。作为英语移动学习的重要组成部分之一,英语音频具有重要意义。同时,为了满足移动平台多媒体基础的建设要求,对英语音频的准确分割也应予以高度重视。本文对此进行了分析。
2基本思想
从以往对大量样本的统计分析可以发现,语义特征在不同语义单元方面存在明显的分割位置变化。例如,音频能量特征可以在两句话的边界处呈现显着的下降趋势;因此可以通过应用能量特征来进行边界检测,从而实现对两句话边界的合理划分。例如,MPEG-1 / Audio Layer3相应的帧头的格式如下表所示(参见表1)。
有了这个特点,本文在英语音频分割方法研究中采用了以下技术途径:首先通过分析音频能量序列特征的变化趋势来预测语义单元的边界;其次,引入时间延迟的特性,并基于对指定音频(包括静音能量阈值和静音延迟阈值)的分析来计算音频采样的相应阈值;最后在此基础上通过二次判断对音频样本的边界进行最终检测。毫无疑问,音频数据应该在基于阈值和能量序列的音频分割过程中通过开窗口分割成帧。然后,根据帧单元提取一系列时域特征以构建完整的能量序列。下图显示了基于阈值和能量序列的英语音频分段操作流程图(见图1)。
从图1中可以看出,对于能量序列,如果每帧的相应能量满足静音能量阈值,则计数器将执行“ 1”处理。如果每帧的相应能量满足静音延迟阈值,则计数器将执行“0”处理。在上述循环操作的过程中,当计数器满足静音延迟阈值的要求以便提供必要的支持时,用“ 1”处理的帧单元可以被合并到边界检测点的序列中,并且音频分段参考。
3关键技术
3.1窗口技术
生成机制的声音非常特别,它决定了语音信号的非平稳特性。然而,人们听到的声音的速度比振动速度本身的声音慢。因此,有必要在语音信号的过程中将“语音信号的短期平稳特征”作为假定的基本条件。基于这种假设条件,语音信号的特征不会随着时间显着变化。基本上可以看出,语音信号具有在时间帧单元中静止的特征。因此,语音信号的分析实际上是一个关于静止信号的过程。研究英语音频分词的阈值和能量序列(包括平均范围,短期平均能量和平均过零率等指标)的过程,这些过程是在短期平稳特征前提下产生的,与时间分离域处于短期稳定状态。
对于长度有限的窗口序列[w(m)],窗口在分析截获信号的过程中必须保持滑动状态,因此可以随时对附近的信号进行分析。短期分析的基本原理是可以用下面的公式表示状态:
(1)
其中,x(m) 被定义为输入信号序列,并且定义为点积计算。
3.2音频特征提取技术
音频可以通过开窗划分长度从10.0ms到30.0ms的片段。 每个独立的段可以被称为音频帧。 在两个相邻音频帧之间允许部分重叠。考虑到短期平稳原理对音频特征提取的影响,可以提取时域、听觉、频域和倒谱等相关特征。本文采用的音频特征概念主要包括短期平均能量和短期平均过零率两个方面。详情如下:
首先,从短期平均能量的角度出发,用能量序列函数来描述音频能量范围的变化,以便准确地分类有声辅音和无声(非无声)语音。 对于第i帧的声音,可以用以下方法计算相应的短期平均能量:
(2)
其中,i被定义为音频帧的对应比率的数量,N被定义为音频帧中的样本的数量,并且Xi2被定义为i中的第n个点的样本值第一帧。
其次,从短期平均过零率的角度来看,当离散信号的两个相邻采样值具有不同的符号时,会出现“过零点”。 过零率是指信号在短时间内通过零电平的时间,用于测量过零点的频率。 通过利用过零率很容易区分浊音和清音。短期平均过零率的计算可以通过以下方法实现:
(3)
其中Sgn被定义为符号函数。其他值与上一个公式中的值相同。
但是这样定义的过零率很容易受到低频信号的干扰。因此,将跨过零电平的信号波形修改为与正阈值和负阈值交叉的信号波形的时间通常被定义为过零率。这样定义的过零率具有一定的抗干扰能力。
3.3双门限技术
我们手动分析每种音频中不同语义单元之间的哑音段,尤其是两个句子之间的哑音段,提供平均段长度和最短段长度的统计量,然后通过一定的策略获得静音延迟阈值。例如,我们将平均线段长度乘以小于1的系数,或直接利用最短线段长度。如果添加的窗口不重叠,则只需要根据窗口长度选择分段长度,即静音延迟阈值。
4案例分析
为了进一步验证基于阈值和能量序列的英语音频分割方法的实践效果,本研究以VOA特别英语为例。 选取美国之音特别英语期刊28个音频样本作为分析对象。每个音频的持续时间约为4.0分钟。内容涵盖教育、新闻、农业、科技、经济、发展等。共有5名播音员,其中男播音员3名,女播音员2名。
在验证基于阈值和能量序列的英语音频分割方法实践效果的过程中,以文本分割结果作为对比方法,对基于阈值和能量序列的英语音频分割方法的查全率和查准率进行了评估和比较。
表2.两种不同方法的比较结果
语句分割的方法 |
分割后的语句数量 |
语句的实际数量 |
召回率(%) |
准确率(%) |
文本分割 |
830 |
829 |
100.00 |
99.88 |
基于阈值和能量序列的分割 |
840 |
829 |
96.74 |
95.48 |
召回率的计算方法是检测分割点的正确数量/分割点的实际数量;
精度比的计算方法是检测分割点的正确数量/所有分割点的数量;
下表提供了两种方法的比较结果(表2)。 从表2中的数据可以得出结论,文本分割的效果令人满意。 它保证音频可以提供准确的对比字符,并提供基于此的可靠基础的修正。 同时,比较数据也验证了该方法在英语音频分割中具有理想的应用价值,值得进一步研究。
5结论
本文提出了一种基于阈值和能量序列的英文音频分割方法。该方法的基本思想是通过分析音频能量序列特征的变化趋势来预测语义单元的边界,引入时延特征并基于指定的分析来计算音频样本的相应阈值音频(包括静音能量阈值和静音延迟阈值),并在此基础上通过二次判断对音频采样的边界进行最终检测。毫无疑问,音频数据应该在基于阈值和能量序列的音频分割过程中通过开窗口分割成帧。然后根据帧单元提取一系列时域特征以构建完整的能量序列。通过案例研究和文本分割结果的比较,验证了该方法在英语音频分割中具有理想的应用价值,值得进一步研究。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[23152],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。