英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
题目:基于Cleansed PHAT GCC的声源定位
摘要:声源定位(SSL)是在各种工程领域中使用的重要技术之一,如监视和监控系统等。在机器人听觉系统中,使用SSL对于人机交互(HRI)非常重要,因为它可以识别其工作环境和声源方向。广义互相关(GCC)函数由于计算速度快,对系统资源要求较低,因此常用于SSL。人造耳朵作为我们使用的机器人听觉硬件,它由2个麦克风和一个耳廓结构组成。耳廓位于机器人的头部两侧,该位置由于受到机器人平台如机器人肩膀引起的反射波影响,存在自由场条件无法适用的问题。本文重点研究了用于人造耳结构的空间映射GCC函数的修正。我们提出了用于空间映射GCC方法的清洁PHAT GCC功能。清洁PHAT GCC功能结合了清洗方法和传统的PHAT GCC功能,可消除导致自由场条件下降的反射波。使用提议的清洁PHAT GCC功能的仿真结果显示,当存在单个声源时可获得93%的SSL性能。
关键词:声源定位,清洁PHAT GCC,机器人造耳,空间映射GCC
- 介绍
声源定位(SSL),旨在通过使用来自一组麦克风的测量声信号来估计声源的方向,在监视,军事和智能机器人系统等各种工程领域发挥了重要作用[1]。在这些应用领域中,我们特别感兴趣的是与其所有者合作的类人机器人。
在家庭环境中工作的机器人应该从自然人机交互(HRI)的角度来了解给定的命令。为此,他们需要识别出其他的干扰,例如家用电器发出的噪音,以及来自周围环境中收音机或电视机的不明声音。因此,使机器人能够捕捉空间信息(即在其环境中发生的声音事件的方向)的SSL是一种非常基本和必要的技术,SSL必须在机器人采取行动之前进行处理。
在过去的几十年中,开发了许多不同的SSL方法。它们中的大多数可以使用通过互通道等级差异(IcLD)和互通道时间差异(IcTD)观察到的互通道差异线索。对于3D空间的SSL,即对声源的方位角和仰角的估计,应该使用4个以上的麦克风来消除具有相同IcLD和IcTD信息的混淆锥[2]。研究人员提出的SSL方法可分为3部分,即时间延迟到达(TDOA)[3-4],波束形成[5]和使用头相关变函数(HRTF)[6]的方法。在这些方法中,我们只对TDOA方法进行研究。
使用广义互相关(GCC)的TDOA方法由C.H.Knapp于1970年代提出[3]。与其他方法相比,由于其简单的算法,适用于实时处理。
为了方便地将TDOA方法应用于机器人听觉系统,麦克风阵列位于机器人头顶,该位置并不满足自由场条件。然而,我们正在使用的被称为机器人人造耳的机器人听觉硬件,它由2个麦克风和单个耳廓结构组成,耳廓结构即螺旋形[6-7,9]。人造耳朵位于机器人头部两侧,由于机器人平台(如机器人肩部等)引起的反射波,自由场条件无法适用。为消除波的二次传播,必须提取直波的影响[8]。
在本文中,我们提出了传统PHAT GCC方法获得更好性能的清洁PHAT GCC方法。
- 清洁PHAT GCC
2.1相位变换
与麦克风位置很远的声音可以用数学方法建模为,两个麦克风的测量信号建模为:
(1a)
(1b)
其中,和是实联合平稳随机过程。信号被认为与噪声不相关。D是信号和的到达时间的时延间隔。
信号和的互相关函数与互功率谱密度函数,即傅里叶变换,有关:
(2)
广义互相关函数(GCC)是一个版本的加权互相关,由C.H.Knapp于1970年代提出[3]。GCC和PHAT GCC由公式(3)和(4)来表示。
(3)
(4)
2.2清洁PHAT GCC
清洁方法是用于减少反射波影响的信号处理,包括机器人平台或围绕着平台的墙壁。通过清洁,我们可以认为直波影响有着大多数声源的间隙信息[8]。
清洁方法被定义为对互通道脉冲响应(IcIR)的操作,表达式如下:
, (5)
(6)
(7)
当是合适的窗函数,例如汉明窗,长度小于NFFT/2。是的傅里叶变换。
为了细化由采样频率确定的时间间隔,增加了一个上采样处理,该处理由一个包含了一个抗混叠低通FIR滤波器的多相滤波器来实现
图1显示了从信道间脉冲响应(IcIR)产生上采样和净化的PHAT GCC功能。
3. 模拟
3.1空间映射GCC方法
我们将要使用的定位方法是空间映射GCC方法,由B.Kwon[10]提出。通过映射函数将信道间时间差信息对所有麦克风预计的每个清洁GCC函数变换到空间域。然后,在具有方位角和仰角间隔的分段的空间域中,对所有映射(变换)的GCC函数求和。
3.2映射功能产生
要使用空间映射GCC方法来进行SSL,我们需要知道IcTD信息,即映射函数,对应于所有可能的声源位置。对于该模拟,我们使用22.4kHz宽带信号产生的球形HRTF来产生映射函数[11]。
我们假定4个麦克风正在使用中,所以我们使用在所有麦克风位置处测量的模拟信号来估计群延迟,最后为6个麦克风产生映射函数。麦克风位置和生成的6个映射函数如图2和图3所示。
3.3.1在单个声源情况下的SSL模拟结果
模拟中使用的声音是带限信号,截止频率为4 kHz。我们使用估计方向矢量误差(EDVE)作为SSL性能评估。 这被定义为真实方向矢量与估计方向矢量之间的角度。
请注意,方位角定义为相对于xz平面的角度,仰角定义为相对于yz平面的角度。
从一对频带限制信号估计的理论互相关函数会导致连续的波纹,从而导致SSL错误增加。正如我之前提到的那样,仅考虑直波效应的清洁方法可以减少由波纹引起的副作用。这种效果如图4所示。
来自图4所示的一对信号的映射GCC函数具有混淆模式锥。在对所有映射的GCC函数求和之后,重叠峰值表示估计的声源位置,即方向。 例如,完全求和的GCC函数显示了图5中的方位角30度和仰角20度的声源。对于可能放置在所有方向的声源,我们可以评估关于EDVE的SSL性能。
误差在plusmn;15°范围内,对于声源存在的方位角从0度到360度,仰角从-30度到30度,可获得93%的SSL性能。
3.3.2 2声音源情况下的SSL仿真结果
对于2个声源共存的SSL模拟,我们需要修改清洗方法来识别两个主要峰值效应。 图7显示了清洁方法如何检测由于直波引起的两种主要影响。
对于这个模拟,一个(第一)声源位于方位角30度和仰角-30度。 另一个(第二)位于所有可能的位置。例如,图8描绘了当第二个声源位于方位角120度和仰角30度的GCC图案。
两个声源的EDVE被定义为最小估计角度的总和。因此,如果我们继续为每个SSL保留相同的误差限制,那么在plusmn;30 度内,可以获得88%的SSL性能。
4.结论和未来的工作
本研究集中于B Kwon提出的空间映射GCC函数的修改,将其应用到自由场条件不满足的机器人头部两侧具有麦克风的人工耳结构中。 由于位于同一侧的麦克风之间的距离很短,所以可以保证良好的SSL性能的TDOA也相对较少。 我们提出了用于空间映射GCC方法的清洁PHAT GCC功能。净化的PHAT GCC功能结合了清洗方法和传统的PHAT GCC功能,可消除导致自由场条件下降的反射波。为了提高时间分辨率,引入了进一步的常规上采样。
仿真结果表明,当单声源存在时,可获得93%的SSL性能,当其中一个声源位于方位角30度和仰角-30度时,获得88%的SSL性能。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[21979],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。