随时间变化分布的论文零被引率规律:基于六种期刊的实证研究外文翻译资料

 2022-11-16 11:19:55

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


随时间变化分布的论文零被引率规律:基于六种期刊的实证研究

摘要:零被引率是指期刊出版后一段时间中不吸引任何引用的论文所占的比例。在网上科学,谷歌学者和Scopus数据库查阅了所有相关的论文,我们发现引文相关的文章更多的关注拥有至少一个引用的论文及百分比的分布,而对时间依赖模式的研究较少,以及适合时间依赖模式的分布模型和影响零被引率的因素相关研究都比较少。在这里,我们运用一个在不同的时间段内期刊论文的零被引率实证试验数据,在我们选定的六个样本期刊的连续的引用时间窗口下面的文件,并研究文章长度对论文被引的机会的影响。通过以上分析,下面得出一般结论:(1)一个三参数负指数模型能很好地拟合时间—未被引用论文的百分比的相关分布曲线(2)在初始被引用时间窗口,在每一个杂志上从未被引用的论文的百分比是非常高的。然而,由于引文时间窗变得越来越大,未被引率开始迅速下降,然后下降更慢,总的来说,大多数的期刊是非常大的下降,(3)当应用更大的引用时间窗口,每一个杂志的从未被引用的论文百分比开始接近一个稳定的值,在该值之后,这些稳定百分比的变化将非常少,除非我们遇到了大量的“睡美人”式的论文;(4)文章的长度对它是否会被引用的一个很大的影响。

1引文

在科学界,存在着频繁平庸,低质量的,难解的,不相关的,有价值但未被发现的或卓越的被遗忘,以及众所周知的文章(加菲尔德,1973)未被引。Price(1965)估计,在1961年所有已发表的论文中,有35%的论文在任何给定的一年没有被引用过以及10%的文章在发表的近十年没有被引用过。Koenig(1983)报道了在医药文献在四年以下的引文时间窗有50%未被引过。这是一个公认的事实,学术生活相关的一些论文,无论在任何地方出版,都会被引(伯勒尔,2002;egghe,2000;卢梭,1994)。

虽然由于各种原因导致论文在较短的时间窗口中未被发现和利用,引用次数较少的论文可能是很有价值的,但如果他们在出版后很长一段时间内未能吸引任何关注,可能它们会有相关性,重要性,普及性,新颖性,质量或影响的弱点。当然也有一些例外,比如,一些“睡美人”在很长一段时间内仍然是未被引论文,在在随后很长一段时间一下子被好多次引用,好像睡美人被唤醒(伯勒尔,2005;范RAAN,2004)。某种程度上,在出版后很长一段时间候未被引用论文的比例可以作为一个来评价期刊质量和研究人员及组织或国家的学术影响负指标。macroberts和macroberts(2010)也认为评价引文分析应把未被引考虑进去。一个在期刊零被引率及其影响因子之间的递减函数关系已由van Leeuwen(2005),egghe(2008,2010)和Hsu和黄(2012)验证。

零被引率研究已成为科学计量学领域的重要研究课题。一些相关的经典评论(加菲尔德,1972,1991,1998,1990、1991)给我们带来了最新的一些实证研究(ABT,1981;博特amp; Hargens,1991;egghe,枪支,amp;卢梭,2011;Ghosh和等,1974;许,1975;合生,2008;施瓦兹,1997;森和帕特尔,2012)对某些指定的期刊在固定引用时间窗中的非论文零被引率进行了调查和比较。

然而,很少有学者把在一个固定的收集出版物的零被引率作为一个整体,在它们出版后一系列的不同长度[ 0,infin;]的引用时间窗口观察其发展模式,以及研究什么分布模型可以适合他们的时间依赖性的模式。

幸运的是,一些学者已经较早地探讨了书籍或论文由于老化的未来的发展(或使用)模式,并且开发了一些被引书籍或论文的指数衰减函数模型。特别是有一篇由戈斯内尔(1944)写的文章,其研究了三个选定的图书列表中的标题的发布日期,并发现了一些在出版后书籍的使用模式。例如,在每一个各自的列表的发行日期前几年中使用的标题数量迅速上升。一般而言,每一年的使用次数最多的发生在每一个列表的公布的三年内。在达到这个最大值之后,每年使用的标题数量迅速下降起初,然后下降更慢,接近零渐近线。最初的上升可能归因于图书选择的滞后性。这种滞后性是由于学者们的评论和接受的延迟,而随后的下降可以归因于书籍的陈旧。由于没有适合这种先上升,然后下降的特殊分布曲线的令人满意的模型,戈斯内尔减少最初几年上升部分的数据,当达到早期最大,检查曲线下降。然后,他提出了一个函数来模拟这种衰减曲线随着时间的推移:

Y是使用的标题的数目,y0是用滞后消除的最大或初始点的使用标题的数量,t是时间。欧米茄omega;= 1minus;B成为每年的下降率的曲线,或淘汰率。

之后,许多学者也对论文出版老化后未来的使用模式(如引文模式)进行了深入的研究(阿尔瓦雷斯,埃斯卡洛纳,amp; Pulgariacute;N,2000;布鲁克斯,1970aB;Cole,1963;egghe amp;ravichandra,1992;egghe,1993,2001;格里菲思,1979;Gupta,1990线、1970线;;迪森,1974;奥利弗,1971;Stinson与兰开斯特,1987;余amp; Li,2010)。其中,布鲁克斯给出了戈斯内尔模型具体的证明。格里菲思(1979)应用该模型来确定到一定日期中被SCI引用的所有科学文献的淘汰。Gupta的分析引用的1983卷的物理评论(1990)显示,随着时间的推移,可以与衰减曲线的引用按指数模型吻合。因此,在当引文滞后的影响是消除假设的情况下,随着时间的推移,有一个指数衰减,一个经典的负指数衰减模型可以得到如下:

在式(2),t是文章的存在时间,K是一个常数,a一个是老化系数。有趣的是,这两个模型(方程(1)及(2)是等效理论,玉和Li(2010)从公式(2)推导出了公式(1)。对于进一步的细节,我们建议读者看原始论文。

从有关引用文献数量随着出版后时间的推移的发展模式的描述,我们可以看到,这样的曲线表现出共同的特点:“当被引用滞后的影响被排除在外,迅速下降,然后下降更慢,接近零渐近基准线。”虽然有一个较大的表达差异:被引文献的数量和比例与没有引用的文献的数量和比例,有类似的发展模式。例如,被研究的论文的零被引率时间依赖性模式也提出了类似的分布曲线。在初始被引用的时间窗口接近零,由于引用的滞后,几乎所有的出版物是在非引用状态。随着引文的迅速增加,零被引率一开始迅速下降,然后在论文快速老化的情况下,那些没有被引用的出版物在前几年有较小的机会在随后的几年中被引用,因此,从未被引用的出版物的百分随时间下降变慢,经过一个无限长的时期接近零基线渐近(如引文引用周期接近infin;)。因此,在一定程度上,解释了文献的引用模式随时间变化的模型,随着时间的推移,可以用来解释从未被引用的论文的时间依赖性的模式。

关于零被引率的影响因素,van Leeuwen(2005),egghe(2008,2010,2013),许黄(2012)和伯勒尔(2013)发现降低S型函数关系和影响因素之间的零被引率因子。egghe(2011)等人通过调查来自数学,物理,化学领域的75个顶尖研究人员(菲尔兹奖获得者)和(诺贝尔生理学或医学奖获得者),证明了h指数和未被引文章数量之间存在正相关关系。这种现象似乎与我们的直觉相矛盾的,正如auml;nzel GL,德贝克勒,Thijs,和舒伯特(2006)所说:“事实上,一个文章不经常被引用或甚至在出版后几年后还未被引只能说明其不能提供被同仁接受的有关信息,但不能说明任何有关其质量的信息或者作者在领域中的地位,很少有学者关注零被引率与论文长度之间的关系。

2数据,模型和方法

2.1数据

我们从信息科学领域十二种期刊中选择了四种,其来源于White and McCain(1998), Zhao and Strotmann(2008a), 和Chen, San, and Hou (2010)作为研究样本,两种多学科期刊领域作为参考。至少有600篇发表在1992-1999期的论文和在各自的领域上IFS是我们样本期刊选择的标准。自然与科学是两个世界上最好的期刊,并在1992-1999一段时间内分别发表了21000篇以上的论文,作为一门学科的四种期刊的参考文献:信息科学。体积在每本杂志至少有600篇论文中,可以充分验证我们的模型,并取得令人信服的结论,并在顶部而大量的论文可以摆脱低的影响,如果和小体积的非引用。此外,该选定的期刊有不同的国家,不同的学科、不同的卷纸和不同的IFS,这可以使读者更清楚地看到,在时间分布的变化规律性的百分比其中未被引论文。

我们收集的六种期刊的数据集包含发表在1992–1999年间的49971篇论文,涵盖所有类型(如文章、评论、书信、评论、反驳、新闻,评论和注释,等)和1992-2012期间收录的3795480独特的引文中,以及根据Web of Science数据库(如表1所示)来源国、期刊的影响因素报告(JCR)2011。我们收集这些数据从2012年12月1日到2012年12月30日。为更简洁和更精确的表达我们的想法,在后续部分,我们将所有的文件分为三类:“文章”、“评论”和“他人”,涵盖所有类型的出版物以外的“物品”和“评论”,如字母、社论、反驳、更正,新闻、注释和评论,等等。

2.2模型

我们采用上述简明负指数模型2和标准最小二乘回归方法来拟合我们的数据在1992年发表后不同的引用时间窗口的零被引率,其结果显示在表2。

从表2中,我们可以看到,大多数期刊拟合优度值不符合我们应大于0.8的期望,拟合优度差可能是参数的数目太少,这使得模型出现问题。上述不令人满意的拟合结果促进我们定义一个更强大的三参数的负指数模型以适应我们的样本数据。它的表达

在式(3),P(X t = 0)是在T年引文时间窗口没有吸引任何引用论文百分比,Tge;0。参数K和两个常数,其中一个是未被引用率随着时间幅值。参数是废弃率或衰变常数,这表明未被引论文率随着时间的流逝保持零被引的概率。我们称这种状态为“睡觉”(直到被第一个引用)系数唤醒。

这种模式的解释如下:

如果没有趋向于零,那么对P(X t = 0)的倾向,这是在初始的引用时间窗口未被引论文的比例。在特殊情况下t = 0, 以及 K A = 1,,所有项目都没有被引用。如果没有趋向于无穷大,则对P(X t = 0)趋向于K,这是在无限长的引用时间窗口从未被引用的论文比例,其将渐近基准线。因此,模型3是一个凹函数,有两个主要的属性(例如推论):

注那个当K = 0 and A = 1的模型(3)被转化为具有一个参数的一个简明的负指数分布模型。同时,K = 0降低基本上是模型(1)(注意改变Y 0 A和B = exp(minus;alpha;))或者,等价地,到(2)(更改为一个),在这种情况下,每一项都将最终被引以概率一。这与通常报道的是相反的,也就是说,总有一部分从未被引用的项目和在根据我们的初步分析,案例0是不可持续的。因此,我们会期待0,所以我们离开它作为我们模型中的一个自由参数。

2.3方法

我们使用自己开发的程序,以获得六个样本期刊在1992,1993,。..,1999 的零被引率 。对于在不同年龄段的论文,通过其开始时间和时间窗口来判断他们是否得到了引用。例如,对于在1992年初发表的论文,我们可以通过从一年到十九年后不同的时间段判断他们是否得到了引用。但在1999年底发表的论文中,我们只能判断他们是否在一年到12年的时间里,它们是否被引用。为了保持一致的引用时间窗口进行比较,在这里,我们限制的范围引文时间窗口T [ 1,12 ]。不考虑情况T=0。

然后,我们使用一个软件命名为“原点8”绘制在一到十二年不同的引用时间窗口论文零被引率的时间依赖性的散点图。在同一时间,我们使用的模型3,以适应这些散点图,并计算出相应的参数。

最后,为了探索文章长度对论文被引概率有多大的影响,我们分析和比较了发表在1992-1999年间不同的网页上论文的数量,和在一个更广泛的十二年的引用时间窗口中,观察到不同的页面的数量和份额的变化。

3 结果

3.1六个样本期刊中论文零被引率的时间分布规律

我们采用的模型3和标准的最小二乘回归方法,以适应随时间变化的在十二个不同的被引用时间窗口的论文零被引率的散点图。六个样本期刊的拟合参数的时间间隔为表3

通过观察和比较了3种不同参数的值,我们发现该模型3显示了很强的稳固性和更好的性能,R平方值的区间,显示适合所有期刊的拟合优度是都在0.92和1之间。此外,JASIST与科学计量学,两更注重信息科学期刊实证研究表明,随着时间的推移,较大幅度值(1)随着时间的推移,非引用率随时间的推移而下降,相对集中于图书馆学和理论研究。振幅值(A)为JASIST与科学计量学也高于科学与自然,往往在多学科科学,发表多篇论文类别。

Figs. 1–8显示的一到十二年不同的引用时间窗口论文零被引率的时间依赖性的散点图。在这些数据中,不同的分散点代表不同的期刊。

表4给出了十二种时间窗口上六种期刊的零被引率。

显然,一些常见的模式或规律性的发展可以从图Figs. 1–8看到。也就是说

期刊论文的零被引率的时间依赖性分布显示惊人的持续相似性,并形成了一系列的凹曲线,其特征是“迅速下降,在最初几年,然后下降更多。慢慢地,上一个非常“零和稳定的基准线”,例如,如表4所示,未被引用论文的百分比在出版后一年的初始引用时间窗对于JASIST下降43.2百分位(相对于原来的100%),然后下降18.2个百分位数(相对于一年前引文的时间窗口56.8%)在里面三年后的引文时间窗口。而在随后被引用的时间窗口从四年到十二年,它只下降7.9个百分。在经历了一段长的引用期后,有很少变化的百分比从来没有被引用的论文,与六个样

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[28726],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。