英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
标准极值分布的概率图和顺序统计量
Mir Nabi Pirouzi Fard
摘要:当数据集从来自标准极值分布时,本文对普通最小二乘估计与加权最小二乘估计进行了比较,应用极值分布的概率图,介绍了标准极值分布的拟合优度检验方法,研究了检验统计量的百分比。对于检验统计量的有力的研究结果,在各种各样地可供选择下表明,绝大多数所提出的检验统计量与备选检验统计量一样起作用。
关键字:均值;顺序统计量的方差和协方差;概率图;标准极值分布;加权最小二乘估计
1.引言
概率图是将变量的次序值与特定理论分布的百分位数进行比较的图解方法,将次序观测值沿着理论分布以这样的方式绘制,即近似地,这些点应近似形成一条直线。如果发生较大或系统的偏差时,则应将其视为表示数据不适合拟合到这种分布。
在我们的研究中,概率图的研究表明使用普通最小二乘估计的线性回归可能不能提供最优模型估计。研究还表明,为了避免这种对极端观测值对模型估计的影响的敏感性,可以使用加权最小二乘估计,这是一种能够很好地利用小数据集的有效的方法。Cook和Weisberg(1994)、Carroll和Ruppert(1998)、Draper和Smith(1998)以及Kutner(2004)等人讨论了概率分布图与加权最小二乘估计。
White(1967)在当数据集来自极值分布时,应用了概率图和加权最小二乘估计。本文利用标准极值分布顺序统计量的方差来确定权值。他倾向于在回归分析中使用标准极值分布顺序统计量的协方差,并指出协方差的估计是复杂而繁琐的。
在第二节,当数据集来自极值分布时,回归分析中基于方差和极方差的权重的效果研究。我们还发现,不可靠的观测结果影响了概率图中未知参数的估计,加权最小二乘估计的使用改进了最小二乘。在第三节,我们提出了基于加权最小二乘估计的检验统计量,并给出了检验统计量的百分比。
2.顺序统计量与加权最小二乘
,,...Yn是一个容量为n的随机样本,它是来自具有如下概率密度的极值分布
其中gt;0和()是参数。
具有和的极值分布称为标准极值分布,则标准极值分布的概率密度函数为:
分布(2)的均值和方差分别为和,其中被称为欧拉常数。这种分布在左边是长尾,右边是短尾。
2.1概率图与回归
设表示等式(2)中容量为n的样本中的顺序统计量。本文中,标准极值分布的概率图由顺序样本相对于组成,即标准极值分布的i阶统计量的期望值。如果直线被拟合,在图中穿过点(,在一个绘图中,则直线的斜率将接近于1,截距将接近0
样本次序统计量的回归关系,对顺序统计量期望值的影响,可以通过简单的回归模型
来描述。其中斜率被定义为第种情况的统计误差,。本文给出了斜率的一般最小二乘估计的表达式
给出等式(4)中的计算要求顺序统计量的期望值来自标准极值分布。对于n=1(1)6,Lieblein和Zelen(1956)给出了来自标准极值分布的次序统计量的均值、方差和协方差。White (1967,1969)列出了n=1(1)50(5)100的标准极值分布顺序统计量的期望值和方差。Balakrishnan和Chan (1992)给出了样本容量n=1(1)15(5)30时来自所有顺序统计量的均值、方差和协方差表。另外,在麦克马斯特大学的一份未发表的报告中,Hamilton展示了直到30的所有样本容量对应的的表格。
可以近似为
其中是一致顺序统计量的近似,Pirouzi Fard和Holmquist(2007)近似为
通过模拟研究,我们检查了具有点(的曲线。具有不同容量的伪随机样本是等式(2)中的分布所产生。
图1对于四个不同的样本容量显示了标准极值概率图。将有序伪随机值绘制在垂直轴上,将顺序统计量的期望值绘制在水平轴上。
对于给定实例,n=30(20)90的回归线的斜率分别为0.853、0.841、0.948和0.956。图1表明,在左尾部比在中心和右尾部有更大的可变性。
对观测的数据点和拟合曲线的观察显示,由于左尾部的变化较大,拟合的直线偏离参考线。显然,这会对参数估计产生负面影响。尾部的极端观测会显著影响导致错误结果的概率图,而使用普通最小二乘估计的线性回归可能无法提供最佳模型估计。
2.2基于加权最小二乘算法的beta;估计
等式(4)中的估计参数是无偏的,如果基本假设和满足等式(3),则方差最小。在我们的情况下,数据集是具有如图所示的情况
图1用于比较次序统计(水平轴)的期望值与次序响应数据(垂直轴)的概率图。此处-符号作为参考线(;带点符号的直线表示基于的普通最小二乘估计的拟合曲线,并且x表示依赖于的数据,其中对于 , 通常不为零。
应用加权最小二乘估计等式(3)中的参数,这导致在所有线性估计的集合中具有最小方差的无偏估计参数。用作为标准极值分布顺序统计量方差-协方差逆矩阵的元,给出了的估计
其以矩阵形式表示为
其中y是等式(2)中顺序随机观测值的(ntimes;1)向量。m是等式(2)中顺序统计量期望值的(ntimes;1)向量,且(ntimes;n)矩阵是由等式(2)得到的次序统计量的方差-协方差矩阵。
图2用于比较有序统计量()的平均值与有序响应数据()的概率图。此处-符号为基准线(=);带点符号的直线表示基于beta;的普通最小二乘估计的曲线;带加号的直线表示基于加权最小二乘估计beta;的拟合曲线,并代表数据。
我们注意到,要指定权重,我们需要来自等式(2)中概率密度函数的顺序统计量的方差和协方差。由于缺少关于来自等式的顺序统计量的ngt;100和ngt;30的协变的精确方差值的信息。我们使用由Pirouzi Fard和Holmquist (2008)给出的模型的近似值
其中是标准极值分布的i阶和j阶顺序统计量的协方差。
目前,研究和下的直线的差异是很有意义的。图2显示出了样本容量大小30的四个概率图,并且除了图c之外,和之间的关系似乎近似线性。
回归线显示出与左尾部参考线的偏离越来越大。而且在具有垂直偏差的左尾部中的点也比中心和右尾部少。除曲线b外,基于的回归线与参考线的偏离小于基于的拟合曲线。基于普通最小二乘估计的a、b、c、d的估计值为1.123、0.946、0.517、1.056,基于加权最小二乘估计的估计值为1.031、0.822、0.769、0.963。
我们可以表达等式(4)矩阵形式
其中
在我们的基本假设下,得到的均值和方差为
此外,通过设定
我们可以得到等式(6)中的均值和方差为
通过观察期望平方误差和均方误差,比较了普通最小二乘估计和加权最小二乘估计的权。如上所述,这些估计是无偏的,这相当于研究相对效率,即它们的方差比var()/var()。因此,相对效率是
其中Cauchy -Schwartz不等式大于1,表明估计量具有较低的方差。
表1显示了不同样品容量的和的差异。给出方差的相对知觉差异
从表1可以明显看出,加权最小二乘估计改进了回归参数的估计。加权最小二乘估计表示为相对知觉差异,对于n=10,加权最小二乘估计将估计参数的方差减小约46%。而且,随着样本量的增加,回归模型(3)中估计参数的改善变得更好。
表1 、的方差和方差以及的相对百分比差异
n |
10 |
20 |
30 |
40 |
50 |
60 |
80 |
100 |
200 |
12.49 |
6.08 |
4.04 |
3.03 |
2.43 |
2.02 |
1.52 |
1.22 |
0.61 |
|
6.75 |
3.04 |
1.96 |
1.44 |
1.14 |
0.94 |
0.70 |
0.56 |
0.28 |
|
46.00 |
50.00 |
51.50 |
52.50 |
53.10 |
53.50 |
53.90 |
54.10 |
54.10 |
图3基于对n =5、15、35使用50,000个样本的模拟的的直方图和正常概率图
3.检验统计量
3.1 的百分比
本文提出用作为检验统计量,检验其分布是一个标准极值分布。用蒙特卡罗方法估计等式(3)中的beta;基于加权最小二乘估计,对n =5、15、30使用50,000个样本。
图3显示了的直方图和正常概率图。结果表明,对于大样本,的分布具有近似正态分布。从上一节我们知道的方差等于表2kappa;乘以var()得到的值
表2 的方差等于表2kappa;乘以var()
n |
10 |
20 |
30 |
40 |
50 |
60 |
80 |
100 |
200 |
K |
0.675 |
0.608 |
0.588 |
0.576 |
0.570 |
0.564 |
0.560 |
0.560 |
0.560 |
图4样品尺寸n与、的方差之间的散点图和拟合曲线及其值随着样品尺寸n的增加而减小。我们可以假设这个方差与样本大小之间的关系是由var () =kappa;/ n表示的方程,其中kappa;是一个参数,其值依赖于n和var ()。
我们使用从表1收集的信息来评估kappa;的值。表2给出了kappa;的值,它显示参数kappa;落在大约0.56-0.68的范围内。我们折衷并使用这些值的平均值,并且得到kappa;=0.3307。图4显示了样本大小与方差之间的散点图和拟合曲线。从图4中可以看出,对于nge;20,拟合曲线n对kappa;/n的曲线接近数据。
表3给出了检验统计量的分位数。对于n=3(1)10,我们使用来自Balakrishnan和Chan(1992)表的次序统计量的精确值,对于ngt;10,我们使用等式(5)和(7)对顺序统计量的均值、方差和协方差进行近似。出于实际目的,
近似对于nge;20是精确的。
表3 基于5万次重复的试验统计量的分位数
n |
0.01 |
0.025 |
0.05 |
0.10 |
0.20 |
0.50 |
0.80 |
0.90 |
0.95 |
0.975 |
0.99 |
3 |
0.10 |
0.16 |
0.23 |
0.34 |
0.51 |
0.91 |
1.46 |
1.80 |
2.12 |
2.42 |
2.83 |
4 |
0.17 |
0.25 |
0.34 |
0.45 |
0.60 |
0.95 |
1.38 |
1.63 |
1.86 |
<p 剩余内容已隐藏,支付完成后下载完整资料
资料编号:[23873],资料为PDF文档或Word文档,PDF文档可免费转换为Word </p |
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。