从杂乱场景中进行跟多人踪的在线变分贝叶斯模型外文翻译资料

 2023-05-16 15:10:55

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


附录A 译文

从杂乱场景中进行跟多人踪的在线变分贝叶斯模型

摘 要

目标跟踪是一个普遍存在的问题,出现在遥感、音频处理、计算机视觉、人机界面、人机交互等诸多应用中。尽管在计算机视觉中进行了彻底的研究,跟踪时变数量的人仍然是一个具有挑战性的开放问题。在本文中,我们提出了一种在线变分贝叶斯模型从人体探测器提供的杂乱的视觉观察中进行跟踪。本文有以下贡献。我们提出了一个变分贝叶斯框架来跟踪一个未知的和变化的人数。我们的模型产生了一种变分期望最大化(VEM)算法,该算法具有闭合形式表达式,用于潜在变量的后验分布和模型参数的估计。所提出的模型利用了来自多个探测器的观测结果,因此它本质上是多模态的。最后,我们建议同时嵌入对象诞生和对象v可见性过程,以稳健地处理时间外观和消失。在经典的多人跟踪数据集上进行评估,我们的方法显示了竞争的结果到最先进的多目标跟踪算法,如概率假设密度(PHD)滤波器等。

关键词:多人跟踪;贝叶斯跟踪;变分期望最大化;因果推理;人的检测

第一章 绪论

对不同数量物体的跟踪问题在遥感、计算机视觉、人机交互、人机交互等多个领域中普遍存在。而离线多目标跟踪方法可用,在线多人跟踪仍然极具挑战性(Luoetal.,2015)。本文提出了一种在t范围内的在线跟踪方法通过检测的货架(TbD)范式,由于高效和健壮的目标探测器的发展,它在计算机视觉社区获得了流行(Andrilukaetal.,2008)。此外,还有一个:TbD范式的优点是可以使用线性映射将被跟踪对象的运动学(潜在)状态与探测器发出的观测结果联系起来。这是可能的使用目标探测器可以有效地捕获和过滤掉非线性效应,从而提供与运动学潜态线性相关的检测除了与单目标跟踪相关的困难(遮挡、自遮挡、视觉外观可变性、不可预测的时间行为等),跟踪一个变化的和未知的人 n个物体使问题更具有挑战性,原因如下:

  1. 来自探测器的观测需要与产生它们的物体相关联,其中包括 在丢弃检测错误的过程中
  2. 对象的数量是不预先知道的,因此必须进行估计,相互遮挡(在单跟踪场景中不存)在必须是 稳健地处理
  3. 当许多对象存在时,状态空间的维数很大,因此跟踪器必须处理大量的隐藏状态参数
  4. 对象的数量 s随时间变化,我们必须处理不同维度的隐藏状态,从没有可见对象时的零,到大量被检测到的对象。请注意,在这种情况下,如果是B 正在考虑艾叶斯设置,通常情况下,精确的递归过滤解决方案是棘手的。在计算机视觉中,先前提出的多目标的方法框架 刺激可以分为三组。首先,跨维马尔可夫链模型(Green,2003),其中隐藏状态空间的维数是状态变量的一部分。这允许通过联合估计对象的数量及其运动状态来跟踪可变数量的对象。

在一个计算机视觉场景中,Khan等人(2004),史密斯塔尔。(2005a)和Yang 等人(2014)利用该框架来跟踪不同数量的对象。其主要缺点是,这些状态是通过可逆跳跃马尔可夫链蒙特卡洛抽样来推断的计算成本很高(Green,1995)。其次,提出了一种随机有限集多目标跟踪公式(Mahler,1998,2004,2013)。最初用于雷达应用(马勒,1998),在这个框架中,目标被建模为一个被组成的随机有限集的实现的一个未知数量的元素。由于该模型的精确解是计算密集型的,因此提出了一种被称为概率假设密度(PHD)滤波器的近似方法(Mahler, 2000).随后进一步提出了基于采样的基于随机深度的滤波器近似,例如Sidenbladh(2003)、Clark和Bell(2006)和Vo等人(2003)。这些都是在马等人中利用的 Al.(2006)使用听觉线索跟踪时变数量的主动说话者,在Maggio等人(2008)中使用视觉观察进行多目标跟踪。第三,条件随机场 (CRF)也被选择来处理多目标跟踪(Heili等,2014;米兰等,2014;杨和Nevatia,2012)。在这种情况下,跟踪被归入为一个能量最小化问题。在一个 她的研究领域,在雷达跟踪方面,其他流行的多目标跟踪模型是联合概率数据关联(JPDA)和多重假设滤波器(Bar-Shalom,2009)。在这个 本文提出了一个在线变分贝叶斯框架来跟踪一个未知的和变化的数量的人。虽然变分模型在机器学习中非常流行,它们在计算机视觉中的应用一直受到限制跟踪涉及固定数量的目标(Vermaak., 2003)。变分贝叶斯方法近似于关节a潜在变量的可分离分布的后验分布(Bishop,2007;Smidl和Quinn,2006)。在在线跟踪场景中,只能使用因果关系(过去的)观察结果,这就转化为近似的滤波分布。这是与同时使用过去和未来的观察。因此,所提出的跟踪算法是对隐藏状态的后验分布进行建模所有过去的观察。重要的是,所提议的框架导致了领先到该模型的后验分布的封闭形式的表达式隐藏变量和模型参数,从而产生一个通过变分EM(VEM)算法实现的本质上有效的过滤过程。此外,还定义了一个杂波目标,使伪观测,即探测器故障与此目标相关联,并且不会污染过滤过程。此外,我们的形式允许以有原则的方式整合来自各种探测器的异质观测脸、上半身、轮廓等。值得注意的是,对象进出视野,即物体的外观和外观消失,由对象的诞生和可见性过程来处理。最后,我们用一个可见性过程取代了经典的死亡过程,该过程允许放置与那些人相关的睡眠轨迹不再可见。最主要的优点是,这些轨道可以做到一旦新的观察结果与它们的外观相匹配,它们就会被唤醒充满信心。综上所述,本论文的贡献如下:

(1)将跟踪时变人数的问题转化为变分贝叶斯公式,该公式通过可分离分布近似于后验滤波分布。

(2)一种具有封闭形式表达式的VEM算法,因此天生有效,用于更新后验分布和估计从观测得到的模型参数 m不同的探测器。

(3)一种物体诞生和物体可见性过程,允许处理由于遮挡或人离开视觉效果而出现的人的外观和消失。

(4)在两个数据集,鸡尾酒会数据集和一个包含传统上使用的几个序列的数据集上,对所提出的方法进行了全面的评估 美国视觉社区评估多人追踪器。

本文的其余部分组织如下。第二节回顾了与我们的工作方法相关的以前的工作。第3节详细介绍了所提出的贝叶斯模型和一个变分模型的预解 详见第4节。在第5节中,我们描述了允许处理未知的和不同数量的人。第6节描述了实验结果和基准测试评估所提方法的质量。最后,第7节得出了一些结论。

第二章 相关工作

一般来说,目标跟踪是对物体运动状态的时间估计。在基于图像的跟踪环境中,对象状态通常是其局部化的参数化 在(2D)图像平面中显示。在计算机视觉中,物体跟踪已经得到了彻底的研究(Yilmazetal.,2006)。感兴趣的对象可以是人、脸、手、车辆等。根据 所考虑的被跟踪对象数、跟踪可以分为单对象跟踪、固定数多目标跟踪和变数多目标跟踪。单物的方法 e对象跟踪只考虑一个对象,通常涉及初始化步骤、状态更新步骤和允许从故障中恢复的重新初始化步骤。实际初始化步骤 S是基于通用的对象检测器,允许扫描输入图像以找到感兴趣的对象(Felzenszwalbetal.,2010;Zhu,2012)。物体探测器可用于th e也是重新初始化的步骤。然而,当在视觉场景中存在其他与被跟踪对象相同的对象时,使用通用的对象检测器是有问题的。为了解决 这些歧义,不同的互补外观模型已经被提出,如对象模板、颜色外观模型、边缘(图像梯度)和纹理,例如,Gabor特征和梯度方向的直方图)。关于更新步骤,当前状态可以从以前的状态和观察与确定性(科马尼丘和米尔,2002)或概率估计 (Arulampalam等人,2002)方法。

即使这仍然是一个具有挑战性的问题,跟踪单个物体的范围也是非常有限的。计算机视觉社区迅速地将其注意力转向了固定数字的多目标跟踪(Sarka,2004年)。还遇到了其他困难跟踪多个对象时。首先,有一个增加的跟踪状态维数作为多目标跟踪状态维数是单个目标状态维数乘以被跟踪的对象的数量。其次,需要在观测结果和物体之间建立联系。自从观察到物体关联问题是组合的(Bar-Shalometal.,2009;燕等人,2006年),它必须仔细处理时的数量物体和观测对象都很大。第三,由于存在多个目标,跟踪方法也必须具有鲁棒性相互闭塞。

在大多数实际应用中,对象的数量是追踪,不仅是未知的,而且也随着时间而变化。重要的是,跟踪一个时变的数量或物体需要一个有效的机制来添加进入视场的新对象,并删除那些移动出去的对象。在概率环境中,这些机制是基于出生和死亡过程的。有效的多对象算法必须在有原则的方法中开发,允许处理不同维度的隐藏状态。在计算机视觉中,最流行的方法是基于条件随机场(裴和尹,

2014年;Heili等人,2014;Milan等人,2014年;Pirsiavash等人,2011),关于随机有限集(Ma等人,2006年;Maggio等人,2008年;马勒,或关于跨维马尔可夫链(Green,2003;Khan等人,2004年;Smith等人,2005a;Yang等人,2014年)。提出了一个有趣的方法,其中遮挡状态的a被跟踪的人在被跟踪的状态下被明确地建模并被使用用于观测似然计算。不太受欢迎但成功方法包括Isard的贝叶斯多重斑点跟踪器和MacCormick(2001),针对多目标的增强粒子滤波器Okuma等人(2004)和Rao-Blackwellized过滤器的跟踪对于多目标跟踪(Sarka等人,2007),基于图的多目标跟踪表示(Rromi等人,2014;Zamir等人,2012年)。它必须在其他社区被注意到,比如雷达跟踪、多目标跟踪进行了深入研究。

许多模型已经被提出,如概率数据关联滤波器(PDAF),联合PDAF,多重假设跟踪(Bar-Shalom等人,2009年)。然而,雷达的多目标跟踪和计算机视觉的区别主要有两个。一方面,雷达的大多数跟踪方法都考虑逐点对象,对准时潜在状态进行建模,而在计算机视觉中,除了准时坐标之外,还使用边界框来表示对象。另一方面,计算机视觉应用受益于视觉外观的使用,这 主要用于物体识别(Perez 2002)。

目前在计算机视觉应用场景中使用的多目标跟踪方法存在不同的缺点。基于CRF的方法自然是非因果关系的,也就是说,它们使用的是包括过去和未来的信息。因此,即使他们有对杂波具有较高的鲁棒性,只适用于离线处理平滑(与过滤相反)技术使得PHD过滤技术报告了良好的计算能力效率,但它们本身是有限的,因为它们提供了非相关的轨道。换句话说,这些技术需要一种外部方法来将观察结果和跟踪与目标联系起来。最后,即使基于跨维MCMC的跟踪技术能够仅使用因果信息将轨迹与对象关联起来,但从一个计算点来看,它们是极其复杂的

而它们的性能对采样非常敏感程序使用。相反,变分贝叶斯框架,我们建议将轨迹与以前看到的对象关联起来,并创建在一个统一的框架中,过滤过去的观察在一种本质上有效的方式,因为算法的所有步骤用封闭形式表示。因此,所提出的方法是稳健的并有效地跟踪不同数量和未知数量的人从图像探测器的组合。

第三章 变分贝叶斯多人跟踪

3.1 表示法和定义

我们首先介绍我们的符号。向量和矩阵是用粗体Aa,标量是斜体Aa。一般来说,随机变量用大写字母表示,如AA,它们的实现用小写字母表示,如aa

因为目标是跟踪多个人的人数可能随着时间的变化,我们假设有最多的人可以进入视觉场景,用N表示。这个参数是必要的,以便把手头的问题扔到一个有限维的状态空间,因此N可以任意大。时间 t 处的轨迹 n 与存在二元变量 etn 相关联,如果该人已被看到,则取值 etn = 1,否则 etn = 0。时间 t 处存在变量的矢量化用 et = (et1, . . . , etN ) 表示,它们的总和,即 t 处被跟踪人员的有效数量。假设存在变量在第 3 节和第 4 节中观察到;它们的推论基于轨道出生随机过程,在第5节中讨论。

为了减轻用单个静态相机跟踪多个人的挑战性任务,我们假设存在I探测器,每个探测器在每次t时提供定位观测,图1提供了面部和上半身检测和全身检测(见图1(b))的示例。第一探测器在时间t处收集的第k个定位观测值用isin;R4表示,表示一个人在图像中的位置(2D位置,宽度,高度)。探测器I在时间 t 提供的观测值集用 = 表示,所有探测器在时间 t 提供的观测值用 yt = 表示。与每个定位检测相关联,有一个对人的外表的光度描述,用表示。这个光度观测是从的边界框中提取的。总的来说,定位和光度观测构成了我们的跟踪器使用的原始观测值 =(,)。与 和 yt 的类似定义对于 = , ht = {,资料编号:[591396],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。