正射影像和激光雷达数据的面向对象的随机森林城市目标分类方法外文翻译资料

 2022-12-23 14:33:39

英语原文共 23 页,剩余内容已隐藏,支付完成后下载完整资料


正射影像和激光雷达数据的面向对象的随机森林城市目标分类方法

单独使用高空间分辨率的多光谱图像不足以实现高度准确和可靠的城市地区专题制图。将激光雷达衍生的高程信息集成到图像分类中可以显著改善分类结果。此外,传统的基于像素的分类器对于某些场景和数据类型有一些限制。本文利用目前在面向对象的图像分析和机器学习算法方面的进步,在分类过程中减少人工图像解释和自动化特征选择。在两个研究区的数据集上开发并测试了图像分割、特征选择和对象分类方法。首先,为了提高分割的质量,在图像分割过程中引入了激光雷达数据的距离图像。随机森林是一个强大的综合分类器,在从激光雷达数据和航空影像提取的特征中,使用迭代特征消除来识别最佳特征。在样本数量至少是特征数量的两倍或三倍的情况下,分段比例因子对所选特征或分类精度没有特别影响。两个研究领域的结果表明,与基于像素的分类方法相比,所提出的面向对象的随机森林分类方法的kappa指数分别提高了0.02和0.05,总体准确率分别提高了3.9%和4.5%。

1.介绍

由于机载激光扫描或激光探测和测距(激光雷达)系统已被广泛用于获取三维(3D)数据,因此在过去的二十年里,各种基于激光雷达的城市专题制图方法已经开发出来(Brenner2010)。 在激光雷达技术的早期阶段,激光雷达数据作为单一数据源在许多应用中进行了研究,包括建筑物检测(Maas和Vosselman 1999; Vouml;gtle和Steinle 2003; Li和Guan 2011)和树木库存(Zimble et al.2003; Brandtberg 2007)。 尽管单独使用激光雷达数据对于城市物体检测具有优势,但存在一些局限性,例如潮湿的建筑物和道路引起的数据缺口以及有关建筑物和树木的识别问题。因此,近年来,城市测绘研究涉及联合激光雷达数据与遥感影像数据源的研究,包括IKONOS(Shan和Lee 2003),QuickBird(Chen等,2009),SPOT-5(Alonso和Malpica 2010),GeoEye(Yu等,2011)和航空图像(Huang等2008;Khoshelham等人2010; Guan等人2013)。激光雷达和光学成像技术集成原理是一个数据类型的优势可以补偿其他数据的劣势。例如, lidar数据由于缺乏光谱信息,在人造物体和自然物体之间产生很高的分类混淆,而多光谱图像数据在复杂的城市景观中,对光谱相同的物体之间存在很大的分类混淆。

在遥感领域,关于城市专题制图(或城市土地利用/土地覆盖分类)的研究已成为分析人类活动与物理环境变化之间相互作用的一个重要组成部分。在大多数城市地区,主要包括四个主要地物对象: 建筑物、树木、草地和裸地(rottenseiner等人,2005年;黄等人,2008年;郭等人,2011年;关、李和查普曼,2011年)。建筑物和裸地作为城市地区的主要对象,是与城市景观和人类活动有关的重要信息的特征。毫无疑问,它们得到了广泛的应用,包括:( 1 )城市太阳能潜力的测绘和收集,( 2 ) 三维城市建模,( 3 )地理信息系统(GIS)数据库更新,( 4 )环境规划,( 5 )工程测量,( 6 )地形测绘。此外,绿色基础设施是一个相互关联的绿色空间网络,它保护自然生态系统的价值和功能,并为人类提供相关利益( Benedict和McMahon,2002年)。树木和草地作为绿色基础设施的两个重要组成部分,主要用于分析绿地的数量和质量,包括能量交换和水文模拟、热岛效应、三维模拟和气候变化。因此,了解人类活动和自然环境在各个层次上的空间分布对可持续发展起着至关重要的作用。

城市专题制图的分类方法已经得到很好的发展,从( 1 )无监督均值偏移( Melzer 2007 )和ISODATA( Germaine和Huang 2011 )算法到( 2 )监督分类方法,其中包括传统的最大似然法( Haala和Walter 1999 ),这是一种最近蓬勃发展的机器学习方法,包括支持向量机(Secord和Zakhor 2007;马勒、布雷塔尔和索尔根2008;关等人,2011年)和随机森林(Chehata, Guo, and Mallet 2009)。( 3 )面向对象的分类,或面向对象的图像分析(Guan等人,2011年;余等人,2011年)。在复杂的城市环境中,传统的基于像素的分类方法往往不能够获得高分辨率多光谱图像,因为它受到众所周知的椒盐效应的影响(周和Troy 2008)。为了克服这种情况,提出了几种面向对象的分类方法,其中相邻像素在分割的过程中被分组到图像对象中。然后根据这些图像对象的属性(例如颜色/值、形状、纹理或上下文)对其进行分类( Lehrbass和Wang 2012 )。由于在图像分割方面的改进,人们认为面向对象的分类方法可以有效地对土地覆盖/土地利用进行分类(Duveiller等,2008年)。自2000年以来,与基于像素的分类方法(Gamanya,De Maeyer和De Dapper 2009; Blaschke 2010)相比,面向对象的分类方法的普及度急剧增加。

特征选择是土地利用/土地覆盖分类中常用的过程,从数据中选择可用的特征子集应用于分类器。这样,所选子集中就包含了对分类贡献最大的特征。在遥感方面,特征选择通常是去除不相关或冗余特征。虽然lidar点云和光学图像都可以提取大量的特征,但是如何为给定的类别选择特征是有效的目标识别的一个开放问题。众所周知,特征的主观选择会影响分类精度和质量。即使对于性能很好的面向对象和知识的分类器,也很难确定哪些描述特征是真正重要的。此外,大多数分类器也会受限于不同类型的输入数据和不同的环境条件。预先确定最佳特征数量很困难,可以尝试选择大量的特征,直到达到可接受的精度水平。pineda - Bautista、Carrasco - Ochoa和Martinez - trinida (2011年)讨论了消除冗余和不相关特征的两种方法:所有类别的传统特征选择和特定类别的特征选择。与选择单个特征来区分所有类的传统特征选择相反,类特定特征选择算法为每个类选择特征子集。在大多数情况下,对于每个预期类,特征随景观类型而变化,但是当前的特征选择算法也已经针对单个分类器提出。因此,需要选择最佳特征的通用框架。

集成学习算法(例如bagging和boosting)越来越受到关注,因为一组分类器比单个分类器具有更好的分类性能( Breiman 1996 )。随机森林算法可以被认为是bagging的改进版本。与bagging和boosting相比,随机森林算法具有计算效率高、对异常值和噪声具有鲁棒性,对误差、强度、相关性和可变重要性能进行有效的内部估计等优点。在遥感领域,随机森林算法在高光谱( Wang、Waske和Benediktsson,2009年)、多光谱( Stumpf和Kerle,2011年)以及多源数据(gistlason、Benediktsson和sveinson,2006年)方面取得了很好的分类精度。由于多源数据的分类复杂性,常用的参数分类方法是不合适的,随机森林算法作为一种非参数分类法,可以估计个体可变重要性指数,对多源数据分类具有重要意义。因此,研究在分类模型中使用激光雷达数据和航空影像时,选择最佳特征的每个预测特征是非常重要的。

本文的组织结构如下,第2部分介绍两个研究地区和数据;第三部分介绍面向对象的城市地图分类方法,包括激光雷达和图像特征提取、图像分割、基于随机森林的分类特征选择和精度评估。第四部分给出实验结果并讨论。第五部分对全文进行总结,并提出今后的研究方向。

2.研究区域和数据

2.1 测试数据集1:德国曼海姆

曼海姆是德国西南部的一个城市,位于莱茵河和巴登-符腾堡州西北角的内卡河的交汇处,在德国城市中,中心地区的街道和大街以网格模式布置,就像大多数北美城镇一样。测试数据集代表一个高度相对平坦的密集城市区域,范围大约从89.83米到159.71米。它包含不同方位、不同大小的建筑物,以及散布在建筑物之间的树木和草。覆盖中心区域的激光扫描数据是2004年由Falcon II传感器(TopoSysreg;GmbH提供的基于光纤的系统)获取的(Biberach, Germany)。这架飞机平均飞行高度在平均海平面1200米以上,飞机上有一台照相机,可拍摄0.5米分辨率的彩色航空照片。试验场地内的平均点密度和点间距分别约为4点/ m2和0.5m。激光雷达数据集记录激光脉冲的距离(第一次和最后一次返回)和强度信息,如图1 ( a )和( b )所示。

图一 数据一测试数据集:(a)彩色正射图像;(b)曼海姆地区激光雷达距离图像(德国)(c)彩色正射影像;(d)尼亚加拉大瀑布地区激光雷达测距影像(加拿大)

2.2 测试数据集2:加拿大尼亚加拉大瀑布

尼亚加拉大瀑布是位于加拿大安大略省南部金马蹄形地区尼亚加拉河上的一座城市。研究区内有一所学校、一个购物广场和300多幢住宅和商业建筑。研究区域及其附近区域相对平坦,海拔约148.71至178.11米。土地覆盖物是城市和郊区的典型组成部分,包括既有平屋顶又有坡屋顶的房屋、防水混凝土和柏油路面,如停车场、人行道和公路,以及透水植被表面,如树木和草坪。如图1 ( c )和( d )所示,激光雷达数据包含第一次和最后一次返回的激光脉冲的距离以及强度信息,是由Optech ALTM 3100系统在平均海平面高度1190 m以上处获取的,机载DSS 301 sn99相机用于摄取0.5m分辨率彩色航空照片。激光雷达数据的水平精度和垂直精度分别为0.6m和0.15 m ( 1个标准差)。与曼海姆数据集相似,该研究场地内的平均点密度和点间距分别约为4点/ m2和0.5m。

3.方法

与基于像素的分类方法类似,所提出的面向对象的分类方法使用所有可能的光谱和非光谱波段作为输入数据。但是它们之间的区别在于,前者中的每个像素被分别识别,而后者中,属于对象的所有像素被分组或聚集在一起以用于对象识别(Walter 2004 )。

3.1 激光雷达与图像特征

所描述的分类方法是基于激光雷达数据和多光谱航空图像的集成,因为这两种类型的数据是互补的。航空图像提供光谱可见范围内的高分辨率和多光谱信息,而激光雷达数据在光谱的近红外范围内提供精确的几何信息和强度信息。激光雷达系统的多次回波特性也提供了与植被相关的独特穿透信息。为了结合激光雷达数据和多光谱数据,本文将激光雷达点云转换为二维距离图像。表1列出了本研究中使用的要素概述,包括基于光谱的要素和基于激光雷达高度/强度的要素。

基于光谱的特征。在经过低通滤波或平滑处理之后,RGB波段作为三个单独的光谱特征。除了图像区域的光谱信息之外,还应当考虑空间特性和相邻像素中灰度级之间的关系,这些关系有助于表达图像的整体外观。Julesz (1962)和Haralick、Shanmugam以及Dinstein (1973)提出的灰度共生矩阵(GLCM)被认为是最常用的纹理测量方法之一。
基于激光雷达的几何特征。虽然在所描述的土地覆盖分类方法中使用了2D lidar距离图像,但是基于lidar高度的特征直接从给定球形邻域中的原始3D点云计算。主要由点密度决定,给定球体需要包含至少六个点。
基于激光雷达的强度特征。在Jutzi和Gross(2009 )的研究中,强度信息是入射回波的物理功率,在激光扫描术语中被视为振幅、反射率或能量的同义词。因此,利用强度特征有助于识别城市景观中的物体。类似地,在本研究中,将利用GLCM计算强度图像的八个纹理特征。

3.2 分割

本研究利用嵌入在eCognition Developer软件(德国慕尼黑Trimble )中的多分辨率图像分割技术( MRIS )获得一系列不重叠的分割区域。MRIS是地球科学中常用的一种区域生长分割算法,它从种子点开始,根据均匀性标准,按照用户定义的分割尺度阈值对其相邻像素进行分组( Benz等人,2004年)。分段比例可以直接控制分段的大小。用户定义的比例参数越大,段的平均大小就越大。此外,可以通过颜色和形状的相对加权参数来调整定义段。然而,由于类内光谱的高度异质性,高空间分辨率航空影像的分割和分类有些困难。为了克服这一问题,将激光雷达测距图像作为附加波段集成到分割过程中。所有混合波段(lidar距离图像的蓝色波段、绿色波段、红色波段和灰色值)的权重相等。然后将融合图像分割成由相对均匀的像素组组成的非重叠段。为了评估分割尺度对特征选择和分类结果的影响,在11个不同尺度参数设置( 10、20、30、40、50、55、60、70、80、90和100 )下执行图像分割。分割结果通常随使用的数据和处理的场景而变化。合理的方法是对同一场景在不同尺度下获得的分割结果进行评估和比较,而不是对不同场景在相同尺度下获得的分割结果进行评估和比较。颜色标准的默认权重为0.9,形状的权重为0.1。这些参数通过图像分割结果的视觉内插来确定,其中分割被认为是内部同质的。图像分割后,分别计算激光雷达数据和航空影像的几何特征和光谱特征。

表一 本研究使用的功能概述

3.3 随机森林

随机森林分类器是Breiman(2001 )提出的一种集成学习技术,它结合了大量的决策树、分类树和回归树(CART)。通过选择一组随机变量和从训练数据集抽取的随机样本来训练每颗树。交替对训练数据进行采样以创建数据集。这种技术通常被称为“自举”。基于“自举”技术,三分之二的训练数据(称为inbag数据)用于构造树,其余三分之一的训练数据(称为袋外( OOB )数据)用于测试构建的树,以便对其性能进行内部评估。所有树的平均错误分类称为OOB误差。OOB误差在预测作为内部测量的机器学习的性能时是无偏的,因此不需要使用单独的测试数据集进行验证。

随机森林有两个参数:每个节点使用的变量数(M)和森林中的树数(T )。参数M的选择对最终分类错误率有很大影响。树木与强度的相

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[24904],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。