用于昆虫图像识别的卷积神经网络的有效训练外文翻译资料

 2023-04-12 18:32:06

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


用于昆虫图像识别的卷积神经网络的有效训练

摘要

昆虫是在生命科学中有至关重要效用的生物。它们使生物学家能够获得有关自然景观的知识(例如关于他们的健康)。然而,昆虫识别非常耗时,并且需要经验丰富的劳动力。为了简化这项任务,我们建议将其转变为基于图像的模式识别问题,通过照片识别昆虫。在本文中,最先进的深度卷积架构用于解决这个问题。然而,使用深度 CNN 的一个限制是缺乏数据和类基数的差异。为了解决这些限制,迁移学习将从 ImageNet-1000识别任务中学到的知识应用于昆虫图像识别任务。迁移学习产生了一个问题:是否重新训练整个网络相关,还是最好不要修改某些层的权重?这个问题背后的假设是,网络的一部分必须包含通用(与问题无关的)知识,而另一部分包含特定问题的知识。已经对两个不同的昆虫图像数据集进行了测试。 VGG-16 模型被调整为更容易学习。VGG-16 模型是 a)从头开始的​​ b) 从 ImageNet-1000 训练的。对其中一个数据集进行了一项高级研究,其中研究了两个参数对性能的影响:1)学习数据的数量 2)要微调的层数。确定 VGG-16 的最后一个块足以重新生效。我们已经公开了我们的实验代码以及从公开可用的 ImageNet 生成带注释的昆虫数据集的脚本。

1 介绍

昆虫是节肢动物中的一类无脊椎动物,具有外骨骼、三部分体(头部、胸部和腹部)、三对关节腿、复眼和一对触角。在 150 万种物种中,它们比任何其他群体都更能代表生物多样性。节肢动物已被公认为生态系统功能的有效指标,并被推荐用于保护规划。准确了解昆虫物种的特性、地理分布和进化,对于人类的可持续发展和生物多样性保护至关重要。寻找这种识别的自动方法是一个有很多期望的话题。

在这种情况下可以使用的最常见的数据之一是图像。节肢动物的图像可以通过图像分类系统获取和进一步处理。关于昆虫图像捕获的文献可以分为两大类:基于实验室的设置和基于田地的设置。在基于实验室的环境中,有固定的图像采集协议。该协议管理昆虫诱捕、其放置和用于采集的材料(捕获传感器、照明系统等)。基于实验室的设置主要由昆虫学家将昆虫带到实验室进行检查和识别。基于田地的设置意味着直接在耕地中拍摄昆虫图像,对图像捕获系统没有任何特殊限制。中间图像类型是多个个体,在基于实验室的环境中同时显示多个个体。深度神经网络 (DNN) 已广泛用于模式识别,并且在分割、分类和检测等特定任务中的表现优于传统方法。然而,据我们所知,DNN 从未应用于昆虫图像识别。

考虑到 DNN 中的分层特征学习方式,预计第一层将学习一般简单视觉构建块的特征,例如边缘、角落和简单的斑点结构,而最后一层则学习更复杂的抽象任务相关特征.一般来说,学习与领域相关的高级表示的能力是使 DNN 能够实现强大识别能力的优势。然而,DNN 需要大型标记数据集才能有效地学习其大量参数,而昆虫图像数据库仅包含数百个标记样本。为了克服这种缺乏数据的问题,提出了旨在从或多或少已经从大型数据剧集中学习的相关任务的迁移学习。尽管迁移学习已被证明在许多应用中非常有效,但它的局限性和实际实施问题尚未得到太多研究。例如,确定需要多少目标域上的数据以对给定任务具有足够准确度的域适应,或者可以将源域上拟合的模型的多少层有效地转移到目标域,这实际上很重要.或者更有趣的是,给定目标域上的许多可用样本,我们可以学习哪些层类型以及其中的多少。此外,还有一个常见的场景,即有大量注释数据可用(ImageNet-节肢动物子集),通常是在一个耗时且成本高昂的过程中收集的。这些数据在多大程度上有助于更好地分析新数据集是另一个值得研究的问题。

在这项研究中,我们旨在回答上述问题。为了解决昆虫图像识别问题,我们使用迁移学习方法对在场景图像上训练的模型进行域适应。本文的贡献是昆虫识别问题的有效学习方法。详细介绍了预训练在 DNN 准确性中的作用,并且提出了从生物学家的角度来看需要多少昆虫样本才能达到足够的准确性的问题。

2 问题定义:基于图像的节肢动物分类

本节介绍本文解决的问题:基于图像的节肢动物分类。

基于图像的节肢动物分类可以看作是图像分类的一种应用。根据一些描绘标本的照片,有待确定其生物学身份。这个问题的特点是三方面的:图像的稀有性、图像的变化和类基数之间的巨大差异。

图片稀有。只有分类学家和训练有素的技术人员等专家才能准确识别昆虫类别,因为这需要通过丰富经验获得的特殊技能。在基于实验室的环境中,大多数采集系统都是手动操作的,这会增加劳动力数量(参见图 1(a) 和图 1(b) 中的示例)。图像变化。除了经典的物体图像变化(如旋转、比例、视差、背景或照明),昆虫图像具有更特殊的属性,如姿势(因为标本外观随它们显示的方向而变化)和变形(因为标本大部分时间由铰接部分组成)。这些上述变化可以被称为捕获特异性变化,因为它们仅取决于捕获因素。关于对象本身(对象特定的变化),年龄、性别和基因突变是视觉变化的主要因素。最具启发性的例子是鳞翅目(通常称为蝴蝶),随着时间的推移,它可以具有极其不同的视觉方面,依次是毛虫、蛹和蝴蝶。类基数之间的巨大差异。昆虫捕获活动取决于季节,影响捕获昆虫的数量和类型。这个事实可以在模式识别领域被翻译为一个不平衡的分类问题。

3 最新研究

基于图像的昆虫识别并不是一个新问题。有一项领先的详细的研究。本研究依次关注捕获协议、特征提取方法和最终分类。最后两点在这里最重要,而第一点被视为输入约束,完全取决于生物学家的工作流程。此外,构成它们的数据集和类别非常不同,并且受到不同生物学范围和问题的推动。

关于特征提取,第一部分工作以非常特别的方式解决了这个问题。使用脉络作为关键点提取昆虫翅膀上的尺寸。其他部分使用来自感兴趣区域的几何属性作为特征。然后,开始出现使用标准局部和全局特征(如 SIFT)的研究。除了这些标准的手工特征之外,还可以使用 MLP、词袋,或稀疏编码高级别的特征。下一步是引入分层学习的描述符,具有许多抽象级别。在这个程度上使用了一系列的自动去噪编码器。可以做的观察是特征不再针对问题本身,而是关于学习分层表示通过学习它们的图像以获得满足生物学家目标的特征空间。在这样的框架中,将 MLP 应用于原始像素,即使问题很简单(两类:有害/无害昆虫)。

深度神经网络是机器学习模型,现在是几乎所有模式识别任务的最先进模型。他们的主要优势是他们能够为给定的任务学习合适的特征,从而避免了手工设计特征的需要。卷积神经网络 (CNN) 是专用于图像处理的 DNN 的实例化。通过共享权重机制,它们的输入层是卷积滤波器,可以自动从多维信号中学习特征。 CNN 在各种图像分析和识别领域中优于大多数传统方法(例如基于手工制作的特征),例如自然场景识别、医学成像、图像分割或手写识别。然而,虽然很高效,但深度 CNN 模型需要大量的标记数据来避免过度拟合,这可以与训练数据库“用心学习”相提并论。为了规避这些问题,通常使用许多技巧对架构进行训练,例如正则化、dropout 或数据增强,以提高其泛化能力。但是所有这些提示并不能代替合理数量的标记数据来训练架构。

最近,有人提出了迁移学习的想法,用小标记数据集训练大型模型。它基于对来自另一个领域的巨大数据集的预训练模型的利用。然后在所考虑领域的特定、较小的数据库上对模型进行微调。模型通常在 ImageNet 上进行训练,这是一个包含超过 1400 万张图像的自然场景数据库。即使特定领域与ImageNet 数据库存在很大差异,迁移学习也能在许多任务上也显示出非常令人印象深刻的结果,例如手写识别、签名识别和医学成像。

4 建议的方法

本文介绍了一种使用迁移学习轻松训练深度卷积神经网络架构的方法,并将其应用于昆虫图像识别问题。深度架构已经过调整,可以轻松地在低容量数据集上进行训练,下一小节将详细介绍反馈、学习和超参数优化过程。

4.1迁移学习适应VGG-16架构

微调 CNN 实验涉及在 ImageNet 1000上预训练的VGG-16 实例。尽管存在更新的模型(例如 GoogLeNet 或 ResNet),但初步实验表明,这些架构在此处解决的问题上产生了相似的结果。此外,选择 VGG-16 是因为它的简单性和相对较少的层数。

VGG-16 在其卷积端进行了重要修改。原始模型端(参见左侧的图 3)由一个三层 MLP(FC1-3)组成,它将最后一个 2D 激活图(block5-pool)中的每个系数作为输入:7 7 512 体积被展平获得 MLP 的 25088 个输入值。这已被全局平均池化过滤器所取代,该过滤器仅保留 77 512 卷的 512 7 7 切片中的每一个的平均值。这将 MLP 的输入大小从 25088 减少到 512。这种转换的可视化如图 2 所示。这种修改充当限制过度拟合的正则化,因为它减少了 MLP 第一部分中的神经元数量,并且更多地利用了最后一个卷积特征图的结构。 MLP 的剩余部分由具有 256 个神经元的单个全连接层和预测层组成。

4.2 数据预处理

准备数据以反馈神经网络对于学习过程至关重要。它由两个步骤组成。第一个是调整输入图像(大小 n m 3,n an m 分别是输入图像的高度和宽度)以适应神经网络的感受野(大小 224 224 3,ImageNet 在三个颜色通道的输入)。这种尺寸调整最直接的方法是调整图像大小。这种方法的优点在于图像的所有信息都被输入到网络中。主要缺点是没有保留图像的比例。在本文中使用的一个数据集的情况下,图像比例差异很大,因此调整图像大小最终会导致性能下降。这里使用的方法包括在图像的中心裁剪图像,使图像大小为k* k*3且 k = min(m,n)。裁剪而不是调整大小保持图像比例不变。最后,可以执行从大小 k* k* 3 到大小 224 *224* 3 的调整大小操作。完成大小归一化后,必须通过减去平均图像并除以标准差图像来在其数据集特征上对图像进行标准化。这是每个颜色通道分别完成的。使用未标准化的图像会导致无法训练系统(损失停滞在其初始水平)。这种行为可以用以下方式解释:如果图像未标准化,则尺度的差异会导致梯度下降在不同的比例下应用,因此根据位置或像素值的不同而不同。最后,使用了数据增强。每次将训练图像输入网络时,都会使用一组随机选择的变换(剪切、翻转和缩放)进行修改。它实际上将集合的大小增加了 epoch 的数量。

4.3学习规划

正在处理的数据不仅数量少,而且在类之间分布不均。众所周知,神经网络对基数差异非常敏感。有两种主要的解决方案来解决这个问题。第一个包括对低基数类的采样,后者是根据示例类的基数或多或少地应用梯度下降。为简单起见,后一种方法是此处使用的方法。对于每个类 c Y ,应用了以下权重: wc = maxcisin;Y Card(c) 其中 Card(c) 是属于类的观察数

C。反向传播步骤中用作误差梯度下降项的权重。 wc越高,误差梯度下降的越强。梯度下降方法是具有 0.9 Nesterov 动量的普通随机梯度下降 。相反,如果在 10 个 epoch 内损失没有少,则学习率除以 2。这种强化过程使学习率能够根据梯度的大小进行调整,从而避免在搜索空间上振荡。这种行为很可能导致局部最小值。然而,在多层网络的情况下,它不是一个重大问题。不仅指出了这一点,而且还指出全局最小值在实践中容易导致过度拟合。

4.4超参数优化

使用深度模型的主要限制是它需要超优化过程才能获得令人满意的结果。此外,在训练阶段使用迁移学习会增加一个新的超参数:要在目标任务上训练的层数。深度 CNN由独立于问题的低级特征组成。这些低级特征位于第一层。一种有效的学习方法应该允许不花时间优化这些层。在我们的提议中,我们展示了只有最后一个卷积块(block5)和显然最后一个没有经过预训练的密集层(fc1)才是最重要的,以便轻松训练模型,同时实现良好的分类率。从概念上讲,block5 表示依赖于昆虫的高级特征,而 fc1 是一个决策阶段,在类数和类分布方面充其量适合分类任务。因此,在使用少量数据进行学习时,尽可能减少搜索空间至关重要。

5 实验工作

本节详细介绍了主要实验。提供了使用中的数据,并描述了两个实验及其各自的结果以及它们的解释。

5.1数据集

目标域是昆虫图像,任务是识别它们被标记的类别。在此范围内使用了两个集合。第一组(IRBI)是基于实验室的昆虫图像集。昆虫被捕获到放置在土壤水平的肥皂液体陷阱中。然后将捕获的标本保存在酒精溶液中,然后再进行鉴定。这些相同的标本被放置在平坦的背景上,并在恒定且受控的照明下。为单个个体拍摄多张照片:它们是沿着个体的 3 个不同方向以及使用 7 部不同的智能手机拍摄的,这构成了为单个昆虫拍摄的 21 张照片。已经在昆虫级别执行了分成训练/有效/测试集的数据集,以防止昆虫存在于两个(或更多)具有不同方向的集合中造成的评估不公平。此外,由于基数差异,必须在类级别使用分层拆分方法。为了获得一个在基于田地的设置中拍摄的图片的类似数据集,提取了ImageNet 的一个子集:使用了同义词集“节肢动物”下的每个叶同义词集,构成 501 个类。为了模拟与真实昆虫学集相同的约束,将平均类基数降低到 IRBI 集的平均类基数(参见表 1)。本研究中使用的验证方法是 5 折分层交叉验证。为了能够在保留两个子集中每个类的个体的同时应用这种拆分

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[589791],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。