英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
Neural Comput amp; Applic (2016) 27:593–602
DOI 10.1007/s00521-015-1880-5
来源文章
基于块的选择随机森林的多重分形谱纹理分类
Qian Zhang1,2 bull; Yong Xu1
Received: 3 January 2015 / Accepted: 13 March 2015 / Published online: 3 April 2015 The Natural Computing Applications Forum 2015
摘要
本文提出了一种基于块的选择随机森林(BBSRF),用于使用多分形谱(MFS)特征描述符进行纹理分类任务。随机森林中的节点分裂的随机特征选择方法可以省略一些对于表示实例而言具有信息性和关键性的特征。 BBSRF确保通过基于块的选择策略考虑每个功能。在BBSRF中,所有特征分为k个块;接下来,我们生成由一个块中的所有特征组成的综合特征子集,并且从剩余的eth;k1THORN;块中产生m个随机特征;最后,随机树的每个节点分裂在一个综合特征子集上运行。在搜索所有块之后,所有特征被重新划分为新的k块。上述过程反复运行,直到获得令人满意的结果。一旦建立了随机树,就可以通过投票将测试实例分类。我们在MFS功能的帮助下对五个纹理基准数据集进行了实验。实验结果证明了与这些数据集上的最新结果相比,所提出的方法的优异性能。
关键词:纹理分类 随机森林 多重分形谱 块选择
- Yong Xu yxu@scut.edu.cn
- School of Computer Science and Engineering, South China University of Technology, Guangzhou 510006, China
- Academic Affairs Office, Guizhou Minzu University, Guiyang 550025, China
1介绍
纹理分类是通过使用模式特征的分类器将纹理图像分类为相应标签的任务[27,31]。 纹理分类是计算机视觉,模式识别和机器学习的有意义的研究领域之一。 它在基于内容的图像检索,医学图像分析,遥感,物体检测等诸多方面起着重要的作用[29],这是一个积极的研究课题。
作为纹理分类的定义,纹理分类任务必须至少包括两个基本要素:(1)纹理描述方法和(2)分类器方法。纹理分类领域的大多数研究集中在特征描述方法方面,而本文将主要集中在分类器方法上。有许多现有的纹理描述方法试图通过不同的策略获得纹理图像的基本特征。经典纹理特征描述符包括GLCM(灰度共生矩阵)[19],GLDM(灰度差分矩阵)[46],GLRLM(灰度运行长度矩阵)[46],MRF(马尔科夫随机领域)[9],Gabor滤波器[3],金字塔滤波器[21],LBP(局部二进制模式)[34]和分形模型[14,36,50,51,56]。
分形纹理描述算法通过分形维数的定义来表征灰度图像的自相似性。多分形谱(MFS)是基于分形维数的一种成功的纹理描述方法[36,50,51]。 MFS使用具有灰度级的分形几何构造特征的边界直方图。 WMFS [51]通过在小波变换的帮助下,通过增强MFS来描述纹理图像的自相似性。
现有的分类器很多。 KNN(k-最近邻)[44]是一种算法,它根据距离度量将测试数据分类为最流行的其k个最近邻居类。 NB(朴素贝叶斯)方法将测试数据分类为基于贝叶斯定理的最大后验概率的标签[43]。 LDA(线性判别分析)[23]发现了一种可以分离类别的特征的线性组合。 DT(决策树)[39]使用树状模型基于信息度量(信息增益,基尼指数,增益比)进行决策。
594 Neural Comput amp; Applic (2016) 27:593–602
SVM(支持向量机)[6]通过内核技巧将非线性可分离数据转换成更高的空间,从而使它们在线性可分离。 在几分钟的时间里,机器学习成为一种有效的分类方法,综合学习方法是机器学习中最受欢迎的研究领域[20]。
随机森林(RF)是一种综合学习方法,其采用一系列基于树的学习者(也称为随机树)进行分类,以及重新采用[5,11,15]。 RF由Bagging [4]和随机特征子空间[22]组成。在RF中,每个随机树通过从原始训练数据集引导[12]接收训练数据集。 RF中的每个随机树由随机选择的特征构建,子数据集自举。并且RF证明是计算有效的并且表现出有效的预测性能[1]。它证明,在很大程度上,与提升相比,不会对嘈杂的数据进行过度整合和较不敏感[48]。
RF采用随机选择样本和特征来构建其随机树。功能的随机选择为RF提供了有效的计算和充分的功能。结果,它导致RF成为一个成功的分类器。
然而,尽管射频的普及,随着样本过程的引导,在随机特征选择策略中只能选择约63.2%的特征[5,37]。结果,如果所选择的特征是成形性弱,而未被选择的特征是强的信息,则RF可以省略一些特征并变弱。为了克服这个问题,本文提出了一种基于块的随机选择方法,确保每个特征至少在一个循环内被考虑。
本文的贡献如下:(1)我们提出了基于块的选择随机森林(BBSRF);(2)我们引入一个简单的方法,以便在BBSRF中评估每个特征; (3)提出的方法是鲁棒的; 和(4)提出的方法的结果超过了基准数据集中最先进的方法。
其余的文件分为五个部分。 第2节介绍RF的相关和最新作品。 MFS和RF的前提是在Sect中共享。 .第3,4节描述了在特征子空间中提出的基于块的随机选择方法的详细描述。 五个纹理数据集的实验评估在第5.6部分总结了未来工作的工作和计划。
2 随机森林相关工作
许多研究人员非常注意RF [1,5,7,47,48]。 大多数研究集中在RF直接应用的应用[2,42,47]。 RF的理论研究可以分为三个方面:
(1)最优引导数据(加权实例)[32],(2)特征测量标准[37]和(3)加权特征[16,55]。 RF的比较研究和调查可以在文献[10,26,38,41,48,53]中找到。
在这部分中,我们将简要回顾一下RF中的特征选择和信息保存方法。 特征的重要性以及最重要的功能是否被考虑是RF中每个随机树极其重要的[33]。
信息度量的方法是RF的基础。建立随机树的最流行的现有信息指标是基尼指数,增益比(GR),ReliefF,最小描述长度(MDL)和近视救济[37]。 Robnik-Sikonja [37]使用多个特征评估测量标准,而不仅仅是单一的来训练随机树。这个技巧在他的实验中得到了很好的效果。 AUC用于[8,25]中的特征重要性测量。同时使用卡方统计量和信息增益比来加权RF中的每个特征[49]。另一种方法是通过将特征投影到高维特征空间中来增加森林中随机树的多样性[47,55],然后随机树建立在转换的特征空间中。特征子空间选择的分层采样[54]是一种在LibSVM的帮助下将特征分为两组的方法;一部分包含强大的信息特征,另一部分包含弱信息特征。每个随机树根据两个组中按比例选择的特征构建。表明分层RF的性能优于SVM,KNN,非常随机树(ERT)算法和RF。考虑到训练数据中缺少的特征,提出了一种解决方案[18]来检测它们。如果一个特征包含缺失的特征,则其特征被认为是单一的和弱的信息,否则重要和丰富的信息。为了评估特征之间的相关性,提出了基于边缘优化的修剪算法来评估特征之间的相关关系[52]。然而,旋转森林试图通过PCA对维度数据处理进行降维和信息保存[41]。 Liu et al。 [30]提出了一种半监督方法来构建随机树。在其方法中,非度量估计被用作未标记数据的节点分割的度量度量。遗传算法(GA)和模拟退火(SA)用于[16]中的最优特征子集选择。
所有上述方法都是通过运行特征选择方法进行的,这可能忽略可能具有信息和关键性的部分特征。由于这种现象,我们建议BBSRF确保考虑所有信息和关键特征。首先,所有特征被分为k个块(k是参数);接下来,合成特征子集由一个块中的所有特征和来自剩余的eth;k1THORN;块的一些随机特征组成;最后,随机树的每个节点分裂在一个综合特征子集上运行。在搜索所有块之后,所有特征被重新划分为新的k块。上述过程是有效的,直到我们获得满意的结果。因此,包括信息量的每个特征将至少在每个循环内被评估一次。随机树建成后,通过投票分类测试实例。因此,与RF相比,性能将得到改善。
此外,尽管RF的普及,很少有作品试图使用RF作为纹理分类任务的分类器。 在本文中,我们将利用RF作为MFS纹理分类的分类器。
3 初步拟定方法
在本节中,我们给出了我们方法的两个前提条件的描述。 它们是MFS和RF。
3.1多分形谱(MFS)
徐先生首先提出MFS。 用于纹理描述[36,50,51]。 MFS是一个应用程序扩展分形维数[13]。 MFS将图像点的不同分类编码成不同的MFS向量 的分形维数用于描述给定点集合E填补不同规模的空间。 盒装计数是受欢迎的分形维数定义如下. 让2D空间被其边长i/n(i=1,2,hellip;)的网格平方所覆盖.举一点,让ECR^2,N(E,i/n) 表示 i/n的数量与正方形E相交,箱子的尺寸E被定于为
由于实际情况下决议有限,我们可以进行评估dim(E) 由斜坡Log(N,i/n)关于-log i/n (i=1,2hellip;. m(m))使用最小二乘法。
盒计数维度编码不足点集合E的信息。多分形分析概括
分形维数表征更重要点集的特征。 点E可以分开基于一些分类,进入多个子集Ea期限a 表示dim()的计数维度唉 然后,MFS由多分形表示功能im()与a。 在实践中,分类术语a可以由密度函数定义,渐变和拉普拉斯算子(参见[36,50,51])细节)。
3.2随机森林(RF)
这部分是基于[5,15,22,37],它描述了RF预案。 RF有一些定量特性。 假设有一个n的训练数据集D实例。 子数据集Dt(t= 1; 2; 。 。 。 T)获得引导数据集D.作为引导事实,当n趋于无穷大时,平均为63.2%D中的实例被采样以构建Dt [5,37]。 Dt的随机特征用于每个节点分裂
建立一个随机树ht(x)。 T随机树后已经建成,RF由这些随机树组成h1(x)h2(x)。 。 。ht(x)。 对每个
测试实例进行分类ht(x)(t=1,2,hellip;.T)为其类标签投票,然后,该实例被分类为最受欢迎的标签。 让h(x)是这些随机树的联合功能ht(x), t = 1; 2; 。 。 。 T和hts在输入x上投票类标签。 在也就是说
为了测量RF的稳定性,定义了一些度量[5,37]。 原始边距函数定义为Q(x; yt);
让你的标签投票正确,然后,边际功能定义为:
当C不等于yj是类标签的数量。
根据边际函数(mrg(hellip;.)),RF的通用误差GE为:GE*=PX,Y(mrg(X,Y)lt;0).
另一方面,基于Q(hellip;),RF的强度是定义为:
假设s gt;[0,那么根据切比雪夫的不平等以下不等式成立GE*var(mrg(hellip;))/s2
RF的平均相关性如下:
P= var(mrg(hellip;))/std(h())2
=/
(1/t)2
当,,
Yj=
结合(7)和(8),以下不等式(12)成立
GE*lt;=P(1-S2)/S2 (12)解释了RF的收敛,而不是
随着越来越多的随机树添加,趋势将越来越多。
4基于块的随机选择方法
假设每个实例都有M个特征训练数据D.对于每个子数据集Dt,我们划分M特征进入k块(k是所提出的算法的参数)。 不相交和相交都是可行的。 对于简单,我们假设每个功能的数量块是相同的,块是不相交的; 因此,每个特征块包含M = kfrac14;r个特征(k是一个因子
M)。 第j个块中的所有功能(j代表块ID)和m(m是该算法的另一个参数)从剩余的(K-1)的随机特征? 选择1个块每个节点分割为随机树.
提出了基于块的随机选择方法RF被描述为算法1.我们可以看到构建块随机树的函数F是非常的在算法1中重要。因此,我们给出块随机树的原理图作为算法2.有块随机树算法需要三个参数,数据集(D),块ID和随机特征剩余块(m)。 并且算法2返回一个块
具有块ID下一个树的随机树从
算法1块选择随机森林(BBSRF)
输入 T,k,m,D={(x1,y1),(x2,y2),hellip;(xN,yN)}
输出 BBSRF
举例:初始化:1特征相关性2分开K:将所有特征分进K块3.J=1%从第一块 4.t=1:T 5引导D到Dt
6.计算[ht,j]=F(Dt,j,m)% 7.输出BBSRF 8.结束
分类 h(x)=argmax{ht(x) }T1
算法2 随机森林块
计算[Fh,j]=F(D,j,m)
输入D ,J,M
输出Fh,j
1,如果D实例标签一样2.返回,3结束。4综合特征子集:J-TH块的所有特征和M随机特征来自(K-1)块 5.FH.F:有着最好基于信息度量的合成特征子集内的分割点 6.N,P:FH,F的最好分割点。7(DL,DR) N.P:将数据分成两份8.如果J%K==0 9.分割K,10,结束。11.J=MOD(J,K).12
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[142036],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。