一种新的土壤分类数据挖掘方法外文翻译资料

 2022-12-17 14:22:30

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


一种新的土壤分类数据挖掘方法

摘要:决策树是数据挖掘中一种著名的分类方法。C4.5和分类回归树(Cart)是两种应用广泛的分类决策树算法。C4.5算法的主要缺点是,当目标属性的域非常大时,它偏向于具有更多值的属性,而cart算法则会产生错误的分类错误。针对这些局限性,本文提出了一种改进的决策树算法。利用包含土壤样本的数据集对C4.5、Cart和提出的分类器进行了培训,并考虑了最佳土壤参数,即pH(酸碱度)、Ec(电导率)和ESP(交换性钠百分率)。利用土样测试数据集对模型进行了测试。实验证明,与C4.5和Cart算法相比,改进的决策树算法具有更高的分类精度。

关键词:决策树;pH;土壤类型;电导率;交换性钠百分率

引言

为了提取隐含的有用知识,数据挖掘已成为近几十年来的主要研究领域之一。数据挖掘中的分类技术能够处理大量的数据。数据分类是数据挖掘中提取有用信息的主要步骤之一。

根据土壤类型种植作物对作物的成功具有重要意义。决定土壤性质的特征有很多,例如:pH值(酸碱度),水分,Ec(电导率),ESP(交换性钠百分率)等。pH值决定土壤是否呈酸性,Ec值决定土壤是否含盐,ESP值决定土壤是否含碱。属于酸性或盐碱性土壤的样本应该是有问题的土壤,因为它们不利于作物生长。其他土壤样本没有问题,因为它们有利于作物生长。为了分析一个地理区域的土壤类型,采集土壤样本,然后将样本分为不同类型。利用数据挖掘技术,可以有效地将土壤样本分为不同的类别。

目前,大多数政府机构都在对土壤样本进行人工分类,这是一项耗时、容易出错的工作,同时也需要大量的资源。为此,本文提出了一种改进的决策树算法,将土壤样本分为不同的类别。本文考虑了pH、Ec和ESP土壤参数等因素,根据pH、Ec、ESP值,将土壤分为酸性土、盐渍土、碱土和无问题土。

在这项工作中,本文首先使用了CART(分类树和回归树)算法和C4.5算法对土壤样本进行分类。在CART算法中,使用基尼指数作为选择最佳分割的杂质度量。选择具有最低基尼指数值的节点进行进一步分割。在C4.5中,信息增益作为杂质度量,选择信息增益最高的节点进行进一步分割。C4.5算法的主要缺点是,它更偏向于具有高范围的属性,而CART算法更倾向于具有大值的属性。

针对这些不足,我们提出了一种改进的决策树算法来对土壤样本进行分类。我们比较了C4.5、CART和我们改进的算法的精度,发现改进后的算法与C4.5和CART算法相比具有更高的分类精度。

贡献:在现有工作中,将土壤分为酸性土、盐渍土、碱土和无问题土。在这里,我们首先计算不同属性值范围的基尼指数,而不是像CART算法那样计算每对连续的基尼指数,然后我们使用这些基尼指数的比值来减少C4.5中信息增益带来的偏差。这份包含2593份土壤样本的数据集来自印度卡纳塔克邦,班加罗尔的国家土壤科学局(NBSS)。本文将这些数据集分成1555个土壤样本作为训练数据集,用于训练C4.5、CART和我们提出的分类器。然后将剩下的1038个土壤样本作为测试集,对C4.5、CART和提出的分类器进行了精度评估。观察到,这项工作可能在向农民提供作物建议方面作出重大贡献。我们还发现,所采用的人工土壤分类方法既繁琐又耗时。本文提出了一种自动土壤分类器,它能有效地减轻农业组织由于仍然采用人工土壤分类方法而带来的负担。

本文的其余部分组织如下:第二节论述了相关工作。第三节简要介绍了C4.5和CART算法。第四节说明了我们提出的方法。第五节详细介绍了所进行的实验和不同算法的结果,并对C4.5、Cart和我们提出的改进决策树方法进行了比较,最后给出了结论和今后的工作。

相关工作

Vibha等人设计了一个混合模型,通过首先对数据进行聚类,然后对其进行分类,从而对土壤进行分类。这项研究主要集中于土壤养分的开采,不考虑不同的土壤参数进行分类。Sofianita Mutalib等人讨论了自组织图(SOM)和k-均值两种方法在土壤类型分类中的应用。在这项工作中,他们根据颜色、纹理、排水和地形进行了分类。在这里,他们也没有考虑土壤的参数,也没有提出任何新的方法。基本上是对现有两种算法的比较。Jay Gholap等人利用现有的分类算法如朴素贝叶斯、1Rip、148和回归算法如线性回归、最小中值平方回归等对土壤进行分类。这项工作是对现有算法的比较,并没有提出一种新的土壤分类方法。Ramesh等人基于现有算法朴素贝叶斯分类器对土壤进行了分类。他们没有进行基于参数的分类,也没有提出一种新的分类方法。

在这项工作中,我们重点对来自印度卡纳塔克邦班加罗尔的国家土壤科学局(NBSS)的土壤样本进行分类。该数据集包含了2593个土壤样本,这些样本来自卡纳塔克邦西部的西加特和马尔纳德广阔的地理区域。将C4.5、CART和我们提出的基于决策树的改进算法应用于这些土样,并考虑了土样的pH、Ec和ESP参数,进行了分类。

C4.5和CART算法

C4.5算法:

C4.5是一种生成决策树的算法,它使用一种称为信息增益(即熵差)的杂质度量。熵由以下方程给出:

(1)

其中S是训练集,c是类的个数,Pi是一个对象i属于一个类的概率。

选择信息增益最高的属性进行决策。然后该算法在较小的子列表上递归。信息增益由以下公式定义:

(2)

其中,H表示信息熵,T为训练样本集,a表示属性。表1给出了C4.5算法。

表 1 C4.5算法

输入:实验数据集D

输出:通过给出实验数据集而生成的决策树T

  1. 创建节点N
  2. 如果实例属于同一类,则返回节点N,作为用类标签标记的叶节点
  3. 如果属性列表为空,则返回节点N作为用最常见类签名的叶节点
  4. 在属性列表中选择信息增益最高的属性进行分割
  5. 重复步骤1到4,直到无法进行分割为止

CART算法:

分类回归树(CART)是一种利用历史数据构建决策树的分类方法。它基于二进制递归划分,其中父节点总是被精确地分割为两个节点,并通过将每个节点视为父节点来重复该过程。采用基尼指数作为分裂杂质的测量指标。选择基尼指数最低的节点进行分割。基尼指数由下式定义

(3)

其中,T是包含n个类样本的训练数据集,n是类的个数,pj是T中类j的相对频率,表2中给出了CART算法:

表 2 CART算法

输入:实验数据集D

输出:一种基于给出的实验数据集而生成的决策树T

  1. 构造一个包含整个数据集的根节点
  2. 根据使用当前节点内的数据计算的某个标准(基尼指数),选择对任务最有利的属性。
  3. 根据所选属性的值将当前节点的样本拆分为不同的子集
  4. 为每个子集创建一个新节点作为当前节点的子节点,并将子集中的样本传递给节点
  5. 循环地重复步骤2到5,直到无法进一步拆分(节点中只保留一个样本)

提出的方法

C4.5算法的主要缺点是产生的决策树较大,分类错误较多。这是因为它使用信息增益作为分割度量,偏向于具有更多值的属性。

Cart算法的主要缺点是它不使用变量组合。此外,它还可能导致不稳定的树,其中一个样本的变化可能会产生不同的树。这是由于在目标属性的域相对较宽的情况下,将基尼指数作为分割测度会出现问题。

为了克服这些缺点,本文提出了一种改进的土壤分类决策树方法。在这里,首先计算不同属性值范围的基尼指数,而不是像CART算法那样计算每个连续对的基尼指数。然后,我们利用这些计算出来的基尼指数的比值来减少C4.5算法中信息增益带来的偏差。该算法如表3所示:

表 3

输入:实验数据集D

输出:一种基于给出的实验数据集而生成的决策树T

  1. 构造一个包含整个数据集的根节点
  2. 计算不同范围的pH、Ec和ESP属性值的基尼指数
  3. 计算每个属性的基尼指数比率
  4. 选择基尼系数最小的属性作为要分割的节点
  5. 根据所选属性的值将当前节点的样本拆分为不同的子集
  6. 为每个子集创建一个新节点作为当前节点的子节点,并将子集中的样本传递给节点
  7. 循环地重复步骤2到5,直到无法进一步拆分(节点中只保留一个样本)

在该方法中,首先利用方程(4)计算属性范围(pH、EC、ESP)的基尼指数。然后利用方程(4)计算基尼指数比:

(5)

其中A是属性,D是训练集,是属性A处的分割信息,为属性A对取值范围的基尼指数。

通过计算属性值范围的基尼指数,减少了对每个节点基尼指数的重复和不必要的计算,从而使决策树结构具有更好的时间效率。通过计算这些基尼指数值的基尼比,本文发现对具有更高值范围的属性的偏好有所降低。

提出的方法如图1所示。这里涉及的主要挑战是收集原始数据并将其转换为正确的格式。我们收集了来自印度班加罗尔国家土壤科学局(NBSS)的土壤数据。该数据集包括从印度卡纳塔克邦的西加特和马尔纳德广大地理区域采集的2593个土壤样本。原始格式的数据集由各种冗余、缺失和不一致的值组成。因此,本文提出的方法的第一步是通过解决上述问题对原始数据进行预处理。同时,对各种不必要的参数,如粘土率、粉砂率等进行了过滤。在咨询了印度国家土壤科学局(NBSS)的土壤专家后,我们选择了三个最优土壤参数pH、Ec(电导率)和ESP(交换性钠百分率)来进行土壤分类。经过预处理后,将数据分为训练记录和测试记录。利用训练记录(1555条)对C4.5算法、CART算法和本文提出的基于土壤酸碱度、EC和ESP参数的分类器进行训练。剩下的1038条记录作为测试数据,以测量本文提出的分类器的精度,并将其与C4.5和Cart算法的精度进行比较。

图 1 提出方法的图解表示

实验装置及结果

数据预处理后的土壤样品数据集如表4所示(仅显示样品记录)。数据集由2593条记录组成。本文的目标是将这2593个记录分类为酸性、碱性、含盐和无问题土壤。

表 4 土壤样本实验数据集

pH

Ec

ESP

6.30

0.00

1.03

5.04

0.04

5.21

5.15

0.03

3.49

4.99

0.03

7.92

由NBSS给出的土壤分类的不同pH,Ec和ESP值范围如图5所示

表 5 土壤参数范围

pH

Ec

ESP

Soil Class

lt;7

lt;=3.13

lt;=8.59

无问题

lt;8.2

gt;3.13

lt;=8.59

含盐

lt;8.2

lt;4

gt;14.57

碱性

gt;7

gt;8.59

lt;=14.57

酸性

首先,我们应用了第四节中解释的数据预处理。然后;我们将总记录的60%分割成训练集,用于训练分类器,共计1555个土壤样本。根据表5给出的范围,将该训练集手动划分为含盐、酸性、碱性或无问题类。在1555份土壤样本中,352份属于盐类,453份属于酸性类,536份属于碱类,214份属于无问题类。然后利用训练集对C4.5、CART和我们提出的分类器进行分类。其余40%的记录,即1038份土壤样本,作为测试集,该测试集没有指定类别,因此类别标签未知。利用该测试集对C4.5、CART的精度

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20576],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。