神经启发式方法识别语音外文翻译资料

 2022-12-16 20:16:26

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


神经启发式方法识别语音

Dawid Połap and Marcin Wozniak

摘要:数字数据量每天都在增加。在我们日常生活的每一步,我们都要处理存储我们数据的技术(例如,移动电话和笔记本电脑),这是主要原因之一用于设计各种类型的加密和用户身份验证算法。这些算法意味着不仅要满足保护数据的愿望,还要解决授予特定数字访问权限的可能性数据给选定的个人。这个过程带来了身份验证的问题。本文讨论语音验证问题,提出了一种基于人工智能方法的语音验证方法。本文进行了许多测试以证明所提出的解决方案的有效性。这个调查根据解决方案的优点和缺点显示和讨论结果。

关键词:神经网络;启发式算法;离散傅立叶变换(DFT);图像处理

1简介

技术涉及计算机的各个方面和多媒体系统。数字信息可以使用高级技术在计算机系统中处理计算智能的方法。人如今正在使用智能手机,电视,笔记本电脑,平板电脑等等高效多媒体处理器 而且,人处理互联网上的所有日常交易,例如作为购买商品,支付账单,预订假期旅行,沟通,存储图像和访问娱乐。 在这些时候,我们几乎无法做到保持匿名; 因此,不断改进在数字保护和访问验证方法必要。今天,计算领域最先进的趋势之一是人工智能,可以有效在多媒体系统中实现安全和通信。多媒体方法调查可在参考文献中找到。 [1]。神经网络是这些方法中的一种被广泛应用作为分类器并与其他计算机合作用户验证系统中的技术。安全和安全通信是计算机的重要趋势科学。已经开发了各种专用系统支持安全通信[2],尤其是移动通信开发架构必须进行的沟通支持用户的高要求[3]。每天,我们面临银行,商店的验证问题(例如,签署支票时,公司或各种公共场所机构的签名,声音或特征虹膜可以确认我们的身份。人们一直在使用个人签名,以确认自己的身份写作的发明。相应地,格式这些签名也随着时间的推移而发展起来传统的蜡邮票和羽毛与墨水中世纪时期的钢笔和现在的电子设备。基于签名特征的相似性,我们可以确定特定签名是否属于一个特定的人。但是,要执行验证,必须引入一些初始操作。多数情况在这种情况下,应该为分类器规范化输入数据输入。这个问题的最新解决方案是使用动态时间扭曲(DTW)[4],各种算法和神经网络分类器[5]。验证一个人身份的另一种方法是检查他的虹膜的特征或指纹,几乎不可能伪造,因为每个人天生具有特定形状的指纹,虹膜的颜色等,这些都构成了我们的自然特征。然而,由于高生产成本和复杂的实施,这种类型的身份检查在实践中很少使用。因此,研究任何想法和技术的改进都很重要。用于虹膜验证的学习成对滤波器在参考文献中提出。 [6]。该作者参考。 [7]讨论了双峰的方法基于指纹和数据的生物识别系统人脸识别。语音验证是另一种解决方法用户识别问题。和....相比用于虹膜验证的复杂方法和设备,语音身份是一个相当便宜的解决方案实现。对于这种方法,麦克风和需要经过培训的专家申请才能进行分类声音。这项技术的核心是高效的语音分类器。必须处理每个样本声音比较表征特定特征的某些特征语音。为此,我们开发了专门的模型基于智能技术。不同的方法可以影响效率并最大化精度分类。参考文献[8],作者提出了一个统计方法最大化分类,而参考文献中的那些[9]使用隐马尔可夫模型。该目前的研究讨论了一个创新和专注神经网络和启发式的组合提取最重要特征的技术语音样本由开发的分类器处理。

2音频信号处理

在进行语音样本分析之前,我们先进行转换语音使用能够提高效率的功能分析。 离散傅立叶变换(DFT)在参考文献中提出 [10]是最好的变换之一用于使样本适应数值用于各种验证方法。其中k是谐波数,n是信号数样本,N是样本总数。可以使用a显示音频信号频谱图[11],是幅度图频谱信号随时间变化。 频谱图是使用信号分频原理构建(使用短时快速傅里叶变换获得汉明函数)成部分,其幅度计算谐波分量。 我们做了在分析过程中遵循以下假设:

颜色对应于给定的功率

频率:颜色越暖,值越高;

频率越高,点越高图表。

在此期间,声音会受到各种噪音的影响录音,这些噪音会减少(即公司中的语音识别可以在一个在那里等待在检查台的工人群是背景噪音,包括说话和声音来自办公设备)。 为了正确的声音分析,每个应该删除噪音,只留下声音验证。 我们选择使用频谱图,因为声音在这张图表上清晰可见多个浅色。 这样,可以实现降噪通过实现多频带谱减法在参考文献中提出[12]。 所讨论的算法假定将语音频谱划分为N个频段而来自语音频谱的清晰声音将是使用以下方法获得k值的每个带i式:

其中是干净的声音的幅度谱,是噪声的幅度谱,Y是输入信号的幅度谱,是个第i个频段的初始频率,是决赛频率和是一个主要设置的调整参数经验方式。 对于此等式,˛i参数为计算如下:

我们对该系统的效率进行了初步研究将模型空间划分为之后提出的方法较小的子集。 这些值的最佳结果在测试中获得上述方程式。 因此,我们提出我们对收到的价值观的看法我们的研究。 图1描绘了处理的样品从初始音频文件中使用此方法。同样,我们实施了周期图输入音频信号。 这种方法是由亚瑟舒斯特在1898年[13]。 每个周期图使用DFT的模数平方获得预计会出现功率谱密度(PSD)估计。 图2绘制了样本结果。

3神经网络的预处理

预处理样本对于非常重要模式识别系统的效率。 这个流程必须足够灵活,以匹配各种输入样本。同时,有必要保留尽可能多的东西有关输入的重要信息尽可能使用尽可能少的值来改善识别速度。 为此,我们提出了一个模式识别的一般模型,其中输入描述相同输入的样本被推广到一种获取最多信息的模式重要的功能。

3.1聚集的样品组成

我们计算了每个输入样本的光谱图在处理开始时。 之后,消除了每个频谱图的噪声。 然后我们介绍了开发的聚合样品的方法保持最重要的一般模式信息(图3)。

阵列是在开头组成的提出的方法,其中omega;代表宽度和h表示所有样品的高度。 此数组中的每个单元格完全匹配一点.(x,y)聚合的谱图。 每个单元格值最初设置为0。然后我们验证了每个点的颜色.(x,y)谱图。 如果颜色不是白色,则为该值对应于聚合数组中的这个位置增加1.我们选择颜色,为使用所提出的新样本组成模型。 对于每个像素,计算新颜色使用来自聚合数组中的m值以下公式:

(5)

其中的色调计算如下:

(6)

重构的频谱图被称为通用谱图。 图3描绘了示意图一般的频谱图组成。

图1句子“我的名字是Han Solo”是一个声音样本,使用(a)信号的DFT,(b)频谱图

记录有噪声的声音,和(c)清晰信号的频谱图。

图2用于样本用户验证句子“James T. Kirk”的PSD的所选最大值的周期图提交原始副样本(a)及其用于验证的各种复制品(b-h)。

图3基于输入光谱图的信息可视化一般光谱图合成。该所提方法的解释非常简单:红色阴影越暗,所有信息越重要输入(所有输入中信息越频繁,识别就越重要;因此,我们使它组成一般模型)。

3.2关键点的启发式检测

应用的启发式方法使用聚合谱图找到关键点。 这些关键积分将用于组成一个特殊的面具输入功能,可实现高效检索信息以组成训练向量用于验证系统。因此,我们实施了花卉授粉用于这些目的的算法(FPA)[14]。 FPA模拟花授粉的自然现象在春天。 该算法易于实现和在空间中实现更快的搜索。 这个模型算法假定以下基本规则简化之间的关系和依赖操作:

球搜索(以生物学为代表)使用Levy模拟授粉现象航班。

本地搜索被模拟为非生物和自花授粉。

在自然界中,花粉是由风携带的不可预测; 因此,在算法中,这是模拟的使用随机因子。

频谱图中最重要的点图像,FPA首先随机定位第一个聚集的图像上的花朵种群谱图。

随后,全球和本地搜索模拟执行。 进行关键点选择使用以下开发的健身功能:

(7)

其中表示聚合的点谱图,是最高的关键点当前迭代中的适应度函数值,函数表示像素的亮度,其值为,和N是人口规模。 价值是一个价值降低测试方法确定的亮度。我们模拟了搜索中的最佳关键点每次迭代使用全局和本地搜索。 在在全球搜索中,我们模拟了花粉运动谱图点使用以下公式:

(8)

其中t是迭代次数,是最接近; 和是Levy航班的一个功能理解如下:

(9)

其中和是指定的参数。

在本地搜索之后,模拟了操作每个选定的全局搜索点xi的周围环境根据以下公式:

(10)

其中是邻近的点。

提出的算法返回最佳适应解决方案及其运动路径。 图4显示了拟议的FPA返回的样本轨迹。 从从数学的角度来看,这个轨迹是一个闭合集由二维坐标组成代表分析的聚合的关键点谱图。 从这个集合中,我们可以使用这些信息代表了最重要的特征谱图,因此输入信号非常短时间。 此外,拟议的FPA将找到一个来自的每个输入样本的不同轨迹确定的人,这将大大改善识别效率和提出的方法在验证期间,欺诈行为更难以欺骗。

图4使用提出的版本搜索关键点时用花粉轨迹覆盖的聚合谱图FPA。

3.3识别的一般向量

为了分析输入声音,我们转换了它们声音成表示输入的数字向量特征。 但是,为了加快验证过程,这些载体应该只由必要的组成信息以下列形式定义:

(11)

其中是找到的像素的亮度值关键点由拟议的FPA返回,是根据周期图确定的PSD的最大值(图2),id是语音样本的索引(即,对应于用户ID)。 因此,提出的一般载体组成的定义是最重要的功能组合分析频谱图和周期图使用第3节中介绍的方法。这使得向量包含有关的最重要的信息验证用户并提高系统安全性,因为最终的欺诈很难。

4神经网络

决策支持中的各种模型和应用程序从一开始就讨论了系统上半年神经网络研究20世纪[15]。 我们一般都了解神经网络作为神经元的复杂系统层之间连接以转发信息信号。 应用架构包括各种数字层和神经元,检索输入数据在所有以下层中使用激活功能。在更复杂的神经结构中,隐藏层是在输入和输出之间添加以改善分类效率和更好地适应网络问题。 激活功能主要是适应的到解决方案空间; 但是,以下是单极的最常用的是sigmoid函数:

(12)

其中beta;是用来增加的参数信号处理灵敏度。 神经元之间的每个连接与在训练过程期间缩放的[0,1]的范围内的权重相关联。

文献[16,17]提出了各种研究激活功能,而参考。[18,19]讨论过训练神经网络的不同方法。其中一种方法是反向传播算法,这是最常用的算法因为易于实施和相对较高的性能出于各种目的[20]。 算法1是一种类型有监督的学习,我们将错误降至最低使用all的结果在输出层上起作用前面的图层根据以下公式:

(13)

其中out是神经元k和ex的输出值神经元的预期值。 计算出错误以这种方式用于修改权重神经元之间的联系使用以下每层的公式:

(14)

算法1从谱图中提取特征

1: Start,

2: Load samples into spectrograms,

3: for each spectrogram do

4: Remove noise according to Eq. (2),

5: end for

6: Create an array of w h fifilled with values 0,

7: for each spectrogram do

8: for each point .x; y/ do

9: if color of pixel .x; y/ is not white then

10: Increase value of x,y cell by 1,

11: end if

12: end for

13: end for

14: Defifine color OElig;Rold; Gold; Bold,

15: Create empty bitmap B of size w h,

16: for each value in array do

17: Create new color using Eq. (5),

18: Set new color of pixel in bitmap B,

19: end for

20: Defifine all FPA coeffificients and fifitness function using Eq. (7),

21: Take aggregated spectrogram as search space for FPA,

22: Create randomly initial population,

23: Find the best solution xbest in actual population,

24: t D 0;

25: while t lt; epoch do

26: if rand gt; p then 剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20203],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。