籽粒蛋白质含量的近红外光谱测定和大麦的多元校正测定外文翻译资料

 2023-01-06 11:13:15

籽粒蛋白质含量的近红外光谱测定和大麦的多元校正测定

文章信息

文章历史:

2013年10月14日收到

收到修改后的形式是2014年4月2日公认时间为2014年4月13日

2014年4月24日可以在网上使用

摘要:

籽粒蛋白质含量(GPC)是大麦质量的一个重要决定因素。本研究旨在探讨大麦GPC和漫反射光谱之间的关系。结果表明在正常化情况下,可以考虑实行一阶导数通过提高信号噪声比,减少基线和背景移位的方法提高类模型。用GPC导数光谱得到最准确和稳定的模型。三多元校正包括最小二乘支持向量机回归(LSSVR),偏最小二乘法(PLS),和采用GPC测定模型的发展的径向基函数(RBF)神经网络。Lin_LSSVR和RBF_LSSVR模型比PLS和RBF_NM模型的精度更高。十三个光谱波长被发现具有较大的频谱变化,并显示高贡献的校准模型。从目前的研究,GPC的大麦校准模型研制成功,并可以应用到啤酒中的质量控制,饲料加工,养殖的选择。

关键词:

籽粒蛋白质含量(GPC),大麦(Hordeum vulgare L.),近红外光谱技术(NIRS),最小二乘支持向量机,回归(LSSVR)

  1. 介绍

籽粒蛋白质含量(GPC)是禾谷类作物品质的一个重要因素。在大麦中,GPC是与饲料和麦芽品质密切相关的(克兰西,汉族,与乌尔里希,2003;See, Kephart, amp; Blake,2002)。较高的蛋白质含量是对饲料质量有利,而蛋白质含量较低或中等预计对啤酒大麦有利。GPC在许多方面影响着啤酒的质量,包括酵母营养,啤酒和酶活性的混浊形成(克兰西等,2003;See等,2002)。按常规方法GPC估计是费时,耗费体力,此外还应使用大量的种子。在大多数情况下,在早代育种程序中只有有限的种子用于GPC测定待分析(CAI et al.,2013)。显然,当务之急是具有GPC分析的一种简单,快速和高度有效的方法。

近红外光谱法(NIRS)是一种非常有效的方法来用于它们的化学特性的植物材料的高通量筛选。近红外光谱和一个基于有机化学分子化学键的振动性质和红外辐射的相互作用的一个样品的化学成分有关的(Pasquini, 2003)。最近,近红外光谱技术在生物和非生物材料如在农业,食品,纺织,石油化工和制药领域的农业定性和定量分析中变的受欢迎(Huang et al., 2012; Li amp; He, 2010; SalgueroChaparro, Baeten, FernándezPierna, amp; PeñaRodríguez, 2013; Xu, Shi, Ye, Yan, amp; Yu, 2013). 该光谱技术对于经典的化学和物理分析来测定 (Lammertyn, Nicolaï, Ooms, Smedt, amp; Baerdemaeker, 1998)。几项研究都集中在近红外光谱法作为用于生物评估的另一种方法,例如莜麦的营养价值评价分析应用(Bellato et al., 2011), 牛油果树(Vitellaria paradoxa) 和坚果的脂肪谱 (Davrieux et al., 2010),蛋白质的评估,色氨酸,和玉米中的赖氨酸(Rosales, Galicia, Oviedo, Islas, amp; PalaciosRojas, 2011). 简而言之,分光技术已被证明是在植物的化学成分的评价相当有希望的。

然而,迄今没有报告发现用近红外光谱测定的大麦中的GPC。在这项工作中,我们用了277种大麦样品进行近红外光谱测定法测定大麦GPC,提供了一个快速的多种选择和从大量样本大麦GPC的一致预测。大麦GPC测定模型设计采用线性多元校正技术的发展(偏最小二乘法的多元线性回归),所以一些非线性现象不能在模型来解释。在这项研究中,一个更强大的非线性最小二乘支持向量机回归(LSSVR)是用于确定模型的发展为大麦中的GPC,和SAVE之间的系统比较,人工神经网络(ANN)和PLS被证实了。

2植物材料与方法
2.1.植物材料

二百七十七种大麦基因型在2009年初的冬天被种植在浙江大学华家池校区(Hangzhou, China, 120.0°E. 30.5°N)。每个基因型被播种成一个两线图,相邻两条线之间为2米长和0.24 m间隔,然后每一行种植40粒种子。所有地块均提供150公斤/公顷的氮复合肥,其中包括在播种前施40公斤/公顷的氮复合肥,和在叶期和孕穗期施110公斤/公顷的氮复合肥,分别等量。此外,180公斤/公顷的氯化钾在播种之前施加。实验是安排在一个区组设计并重复两次。在每个块中,277个大麦基因型随机排列。所有其他农艺措施,包括杂草和疾病控制,与那些局部施加是相同的。在到期日,收获的种子,晒干,然后储存在4°C GPC分析。对所有的样品进行GPC测定,测量每个样品进行三次。

2.2. GPC测定

成熟的谷物在Cyclotec1093样品磨生长(Tecator AB, Hoganas, Sweden) 并通过0.5mm的筛。GPC是使用凯氏定氮法对每个样品进行三次测定的测定方法。蛋白质含量的测定是通过复制的6.25倍与N含量来计算的(Mariotti, Tomé, amp; Mirand, 2008).

2.3. 近红外光谱测量

含有约2.5g的粉碎谷物被装上一个圆圈样品杯(35毫米直径和18毫米深)并略微加压以得到类似的填充密度。加载时间尽可能短,以避免过多的水分吸收。所有样品都要用近红外光谱单色器扫描,并使用反射模式NIRSystems5000(银泉,USA)收集仪器相应的光谱。三十二个扫描为参考和各样品同时进行。光谱的采集是通过使用WinISI II (InfraSoft International, USA) 软件来完成在波长范围1100至2500nm之间实现了2nm的间隔。此外,每个样品被加载和扫描4次,和四个录音的每一个的平均频谱用于近红外分析。在建模过程中,所有277个样品以2:1的比例分为校正集和预测集。为了避免子分区偏见,所有样品根据它们各自的GPC值首先设置成升序,然后将每个样品连续地从每三个样品挑出,导致92个样本的预测集的验证,和其余185个样本组成的校准。每一组中的价值的统计信息示于表S1。采用全交叉验证校准模型进行了验证 (Gomez, He, amp; Pereira, 2006).预测套组还用于验证作为外部测试装置导致模型的实际预测能力。

2.4. 数据分析

为了提高对光谱信号的化学成分的贡献,通过减少系统的噪声,一些光谱预处理方法进行了应用比较。光谱进行处理与移动平均平滑的段大小被设置为3,面积归一化,光谱转型,多元散射校正(MSC)的数据点,分别线性基线校正和标准正态变量(SNV),3的间隙算出的校准光谱的一阶导数,分别。预处理和回归算法命名为偏最小二乘回归(PLS)是根据该理瓶机v9.5说明书进行(CAMO PROCESS AS, Oslo, Norway)。PLS是一组独立的频谱变量(X)和单因变量(Y)之间的关系的线性建模方法。支持向量机回归LSSVR是一个有趣的提法(Suykens amp; Vanderwalle, 1999). 它使用了一个线性方程组来获得支持向量。标准的LS SVM算法是由Suykens和Vanderwalle定义的(1999).该LSSVR基于MATLAB的LS SVM工具箱进行的(Version 7.8.0.347, The MathWorks. Inc US).径向基函数神经网络(RBF神经网络)是一种非线性的神经网络,是用来解决几种类型的分类和回归问题。RBF网络的理论已被广泛描述(Despagne amp; Massart, 1998).RBF神经网络的所有计算均实现了基于MATLAB的神经网络工具箱(Version 7.8.0.347, The MathWorks. Inc US).

回归模型的性能通过以下基准进行评价。首先,回归模型的质量进行量化的标准误差校准(SEC), 预测标准差 (SEP), 预测和测量的参数之间的相关系数(r)。具有低SEC,低SEP和高R A模型被认为是一个很好的模型(Li amp; He, 2006).其次,剩余预测偏差(RPD),定义为标准差的比值(SD)用于近红外光谱校准样品的参考值和SEC,是评价的一个很好的指标回归模型的良好指标(Arana, Jaren, amp; Arazuri, 2005; Fearn, 2002).一个相对高的RPD值表明,该模型能够可靠地预测化学成分(Arana et al., 2005).

3. 结果与讨论

3.1.化学分析和反射光谱的特性

在这项研究中,将277个样本随机分为2组:训练集是用来开发的校准模型(185个样本),和其余的样品被用来作为测试集(92个样本)。校准的GPC设置范围从8.588%到14.40%,平均11.14%,而测试GPC组覆盖8.82%~14.36%,平均11.16%(表一)。训练样本的y值的范围几乎覆盖在测试集合中的样品。关于光谱变异,训练样本和测试样本进行了评估,通过主成分分析的光谱数据。图1显示了在第2个主成分空间中的所有样本(包括训练集和测试集样本)。图1显示了在第2个主成分空间中的所有样本(包括训练集和测试集样本)。在第一和第二组分分别占92%和原始频谱数据的7%。完全,前两个分量表示的原始频谱数据99%的变化(图1).在测试样本集的样本分布均匀。因此,样品的划分是适当的近红外分析。在测试样本集的样本分布均匀。因此,样品的划分是适当的近红外分析。

为了优化大麦GPC的近红外反射光谱的原始数据,回归建模技术是必需的。而且,对大麦GPC的不同处理模式进行了评估(表S2)。从表2可见,预处理方法可以提高回归性能的敏感性和特异性方面,说明回归模型可以通过减少散射效应提高基线的变化,提高信噪比。图2a显示所有样品的典型的反射光谱,同时与一阶导数的数据的预处理呈现显著变化。图2a中的六峰和图2b中的七峰分别被发现。与此同时,在图2b中的峰均比图2A更加清晰。在图2b中的峰均比图2A更加清晰。结果表明,一阶导数预处理的数据可能包括比其他预处理更多的大麦GPC信息。

图1. 主成分空间中训练样本和测试样本的分布。大麦的GPC由每个轴线解释的百分比被表明。蓝色加号和红色圆圈分别表示训练集和测试。(对于这个数字传奇色彩的引用解释,读者可以参考这篇文章的网页版。)

3.2.LSSVR的优化

开发LSSVR模型之前,建模参数应当被优化。例如,两个参数,包括gamma;和RBF核函数的sigma;2,应该是rbf_lssvr应用前确定。该gamma;确定结构风险最小化原则和经验风险最小化之间的权衡是一个调整参数。该sigma;2是核宽度参数,它在提高LSSVR模型的泛化性能发挥重要作用。此外,sigma;2关系到信心数据;sigma;2的调整也影响了回归的非线性的性质。内核由于sigma;2的增加变得更宽,迫使模型朝向较不复杂的解决方案(Chauchard, Cogdill, Roussel, Roger, amp; BellonMaurel, 2004). 此外,sigma;2反映训练数据的x值的分布/范围(Cherkassky amp; Ma, 2004).

两步网格搜索方法和十倍交叉验证的组合物用于本研究这些参数的全局优化。用于建模参数的每个组合,残差平方的平均值在各个误差中被计算出来,产生较小的MSES的最佳参数被挑选出来。这个过程反复放大到候选最佳。例如,利用GPC lin_LSSVR模型的优化过程被示于图3。对gamma;和sigma;2在rbf_lssvr模型的初始值都设置为2。gamma;的范围为0.110,000和sigma;2的范围分别为0.0132,769。在搜索平面中,由于这些参数的研究范围内的大幅度的对数形式。在搜索平面中由于这些参数的研究范围内的大幅度形成对数形式。用8.5840 E 003和4.7209 E 005,分别导致最小的MSE值和获得c和sigma;2的最优值。

3.3. LS SVM的准确性与其它回归模型的比较

在我们的研究中,4种校正模型被研制出来,即PLS,lin_LSSVR,RBF_LSSVR和RBF_NN运算。所述LSSVR模型的最优参数设定为相同的值作为临LSSVR,PLS和RBFNN模型。这四个校正模型设定相同的最佳参数。图4中所示的训练和测试集的相关图。这四个模型代表的预测值和实际值之间良好的相关性。Lin_LSSVR和RBF_LSSVR的样品密度和非常接近的回归线相比PLS和RBF_NN模型。表三,我们可以发现lin_lssvr获得比rbf_nn SEC和较高的RV和RPD值较低的GPC rbf_lssvr模型,和PLS模型的交叉验证。此外,lin_lssvr和rbf_lssvr模型显示RP值较高和相对较小的SEP和测试样品的偏置值。以上我们可以得出结论,lin_lssvr和rbf_lssvr模型优于传统的线性模型和非线性rbf_nn模型。

3.4. 比较近红外模型和大麦GPC测定化学法

最近,近红外模型用于开发在农作物的化学成分的测定。王、王、刘、柳、杜(2013)探讨了近红外光谱法检测蛋白质含量的近红外光谱在花生的可行性,并发现测定系数和在设定为验证的标准误差验证的标准偏差的比率对应于0.99和6.53的蛋白质。在玉米中,预测的用于校准的标准误差(SEP)和GPC的系数确定审定分别为0.26和0.9798(Rosales et al., 2011). 使用大麦GPC分析凯氏定氮法测定是费时,劳动强度大,并且需要大量的种子(Kjeldahl, 1983).因此,经典的测量是在早期的一代,因为对于非常

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[286564],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。