质谱数据分析的数值方法外文翻译资料

 2022-11-19 15:22:20

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


质谱数据分析的数值方法

摘要

新一代的质谱仪在短时间内产生了惊人数量的高质量数据。一段时间内,必将导致不可避免的数据分析瓶颈。自动数据分析算法需要快速和可重复的包含数百个峰的质谱处理,其中包含部分光谱中的信息。新的数据处理算法必须使用最少的用户输入,节省操作员的时间的同时,也可以消除不可避免的操作偏差。为此,提出了一种精确的数学算法。它自动定位并计算峰值下的区域。本文给出了该算法在原始数据上的应用前景。

1.简介

现代质谱仪能够在短时间内产生大量高质量的数据集。合成聚合物的光谱有数百个峰,这并不罕见。这将激发自动数据分析算法的设计,能够快速,可重复地处理质谱仪数据。虽然很多分析原始质谱仪输出的算法已经存在,但它们都需要大量的操作员输入。在某些情况下,必须选择平滑参数,在其他情况下,必须识别噪声的峰值,反之亦然。数据的功能形式接近高峰或低谷。一旦数据被处理,例如,已经选择了峰值和低谷,并且计算了部分数据下的区域,仍然没有标准或参照点。

这项工作的目标是提出一种算法,它具有从原始质谱仪输出自动识别峰值结构的潜力,而无需使用平滑,参数特定的过滤或手动数据分析。这种方法不需要了解峰值形状,也不需要对数据进行预处理或者后处理。基于矩阵辅助激光解吸/电离时间的飞行质谱的经验表明,噪声的功率谱不能完全由实验条件来预测。因此,对平滑和或滤波算法的盲目应用可能会无意中从数据中删除信息。该方法不会有这种缺陷。它不需要相同的数据点间距。它确实需要一个可以准确估计的单个灵敏度参数。灵敏度参数的大小可以根据仪器的最终分辨率的值来界定,并且可以很好地利用原始数据的统计特性来进行自动逼近。

目前没有一种算法能够在没有输入算子的情况下,始终准确地识别原始质谱仪数据中的峰值结构。然而,一种独立于任何运算符参数选择或信号到噪声估计的算法,将对比较的目的有极大好处。

2.算法:

本节概述两阶段算法。描述是一种算法,通过求解一系列最大正交距离问题来确定策略点,就可以求解非线性规划问题来寻找最优的线段,从而构成我们的解决方案。

考虑容量为的集中原始数据集,对。不失一般性,假设原始数据为和在第一个坐标系中是严格单调的,。在原始数据不单调的情况下,它可以被重新排序,或者可以应用简单的同位素回归。给出任何两对数据集里的数据,令,可以定义一个线段连接他们,记为,介于和间点集可以记成。给定一组数据点D和一条线段,这样可以快速定位中的点,最大限度地最大化从到的正交距离。为了简单起见,假设只有一个点,这里会解决:

的距离最优值问题。令。我们的目标是对数据

进行分段数值逼近,精确到误差范围内。如果,那么可以成为两条新线段的终点,即和,这个过程可以持续直到所有的点满足。这个参数可以为任何给定的数据集做数据估计。解决问题的所有点的集合将构成我们的策略点。

接下来给定一个集合,策略点集,通过求解一个等式来约束非线性优化问题,可以找到最优分段线性拟合。考虑两个相邻的策略点,记为和,并假设有数据点在上,即有这样的中间策略点在和之间。最小值问题的解决将会为策略点和找到最优高度(或者第二坐标)。由于求出连续的分段函数,因此必须包含解之间的连续性约束。给定个策略点,一个变量的非线性规划问题,线性等式约束,要求相邻线段的端点必须相同。这个问题的解决方案提供了在最小二乘的意义上,关于相邻策略点之间的数据的最优高度。再次强调,问题是通过连续性约束来保证连续的分段线性函数。该算法课表述如下:

理论上,确定最大正交距离的数据点的问题可能不会产生唯一的解决方案,但我们还没有在数值实验中观察到这一点。

算法完成后,是对原数据点连续分段线性逼近,从中可以更容易地提取出最大和最小值。一旦确定了一个峰和两个相邻的槽,那么峰值下的区域可以通过一个正交规则来近似,也可以通过计算两个相邻波谷间的策略点的多面体面积来近似。

3.数值结果:

本节描述了算法的数值行为。作为一个数值例子,我们选择聚乙二醇来演示算法的性能。这个数据集包含了19772对数据,之所以选中某个数据,是因为根本没有与之竞争的基准,因此在这里展示了算法的“峰值选择”方面,这是一个非常好的方面。该算法已应用于众多其他质谱数据集,并对数值行为能作出较为全面的描述。

在算法的第一步中,最大的正交距离问题可以通过从左到右的扫描来快速解决。该算法的第二步要求求解非线性规划问题。目前采用了中描述的序列二次规划算法,尽管任何大规模的NLP算法都可以满足要求。

该算法编码在Fortran95中,并在450MHZ SPARCstation Ultra-80上安装了IEEE浮点运算(64位)。当与原始数据挂钩时,t的价值估计为t=0.47234。此外,该算法应用了4种不同选择值的t。显然,不同数量的策略点将选择不同的t值,结果如表一所示。然而山峰的数量(和相关的面积近似)都几乎相同的t值在0.25到1之间。

Table 1

Values of tau; 0.25 0.5 0.75 1.0 0.47234

Number of strategic pts. 8031 7856 6999 6251 7855

Number of peaks found 831 831 830 825 831

Elapsed CPU time (s) 18.84 16.12 15.03 14.67 16.66

当绘制完整的数据时,原始数据(图一)和处理后的数据(图二)看起来是相同的。这说明,算法的结果是一个分段线性逼近的数据。 仔细研究表明,处理后的数据更清晰地显示出波峰和波谷。在图三中,解决方案与原始数据密切相关。然而在图4中,在1844.5 u和1845.75u的质量之间,解决方案确定为单个峰值,从原始数据的检查中出现的是3个不同的峰值。

如果该算法选择一个参数(可以在统计上估计为【12】),那么大多数其他算法都需要更多的参数选择。本文提出的算法对数据的变化有很好的适应性,是完全可以复制的。这个算法产生的解决方案形成了一个很好的比较工具。

4.结论:

我们提出了一种自动化的两阶段算法,用于快速,健壮,可重复性地识别原始质谱数据中的峰(和槽)。该算法不依赖于平滑或参数驱动的滤波技术,相反,它只需要一个参数(可以直接在数据中估计)。

该算法速度快,对单个参数的宽范围产生了合理的结果。对较小的值t,显然这个算法在小于等于一个数量级的范围或者数据噪声上会错误地识别峰。如果t值太大,那么很小的峰的结构可能无法正确识别。然而,该算法的健壮性和重现性使得它成为处理原始质谱数据的首选。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[23525],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。