英语原文共 28 页,剩余内容已隐藏,支付完成后下载完整资料
零影响:零被引的大规模研究
Jeppe Nicolaisen1,Tove Faber Frandsen2
摘要:本文展示了零被引现象的大规模研究。根据文献综述,零被引至少和三个因素有关:领域、文献类型和时间。为了进一步探索这些因素和它们的共同影响,并尽可能在比此前的研究更广的范围进行研究,本文关注了7个学科领域(艺术人文;社会科学;计算机科学;数学;工程学;药学;航天物理学),7种文献类型(论文;综述;笔记;信件;会议论文;书籍;专著)和20年的出版窗口(1996-2015)。所有文献数据都来源于Scopus,并按照年份、学科以及文献类型进行检索(共计:29472184篇文献,7508741篇零被引文献)。结果表明根据学科领域和文献类型的不同,零被引率有着显著的差异。这可能是由于在所有学科领域都存在某种默认的具有显著学科特征和差异的等级梯度。本文还描述了时间维度的重要性。不同主题的首次被引时间各有不同,从而表明零被引率对引用窗口的长度十分敏感。
关键词:零被引;主题;文献类型;引用窗口。
介绍
过去,人们已经使用出版物计数和引用分数来研究科研活动和影响。绝大多数影响力研究都在关注被引文献、被引作者、被引期刊、被引机构和被引国家 - 即被引用的实体。已经有研究通过关注被引情况和比较引用次数,来制定用于区分不同类型的实体及其各自影响的指标。
零被引这种相反的现象早就有人开始对其进行研究。最近的研究包括Egghe等人(2011)汇报了诺贝尔奖得主的零被引论文率,Hu和Wu(2014)研究了6本特定期刊的零被引情况,Liang等人(2015)研究了图书情报学的零被引情况,Zhao(2015)研究了文献综述的零被引情况。显然,这些研究都对理解零被引现象起到了一些重要作用,然而至今没有人对零被引现象进行一个包含更长引用周期、多学科以及不同文献类型的系统性研究。Hamilton(1990,1991)在科学期刊上发表的两篇新文章比较接近这种研究。他们分析了科学(47.4%)、社会科学(74.7%)以及人文艺术(98%)领域期刊论文的零被引率。然而,正如Pendlebury(1991)所指出的一样,这些数字都不准确,因为他们涵盖了所有文献类型,其中包括信件、会议摘要、社论、公告和其他手记,这些文献类型很大程度都会是零被引的。Hargens和Bott(1991)也提醒人们不要太认真的看待这些数字,因为“社会科学和人文学科的期刊有着包含大量书籍评论的特点,并会发表大量评价和辩论。在研究零被引时混入这些文献会导致研究性论文的引用水平被低估,并夸大自然科学、社会科学以及人文科学之间的被引水平差距。
在这项研究中,我们尝试建立了一个更大更加精细的基准来探索零被引。我们将首先给出有关这个主题的研究综述,结果表明零被引率主要和3个主要因素有关:领域、文献类型和时间。因此,我们的大规模将研究关注七个学科领域(艺术和人文科学;社会科学;计算机科学; 数学; 工程; 医学; 物理学和天文学),七种文件类型(文章;评论;笔记;信件;会议论文;书籍;书籍目录)和20年的出版窗口(1996-2015)。我们使用Scopus数据库检索零被引文献。因此,本研究中的零被引文献指的是Scopus数据库中的零被引文献,并不是指文献完全零被引。零被引文献都是按照年份、学科还有各个文献类型进行检索的。这个过程能够将学科之间和内部的比较。因此,我们将比较6个学科的零被引率以及这些学科之间和内部7种文献类型的零被引率。
下一节将给出零被引文献的综述,再下一节将描述本研究的检索流程和分析收集到的数据的方法。结论章节将展现结果并且最后的讨论和总结章节会对结果进行讨论。
综述
1965年Price估计每年都会有文献“死去”从而导致全部文献中近10%的文献从未被引用(1965)。自那之后,文献计量学就开始尝试评估和解释零被引现象。相关零被引研究已经发现了不同的零被引率,Mackenzie 发现5年后零被引率几乎为0(Mackenzie 2009),van Dalen 和 Henkens发现10年后零被引率到达24%(van Dalen and Henkens 2004)或者4年后到达50%((Koenig 1983)。然而,下面的文献综述将揭露不同零被引研究的分析对象和方法之间有着很大的不同。
尽管被引频次是文献计量学的主要关注点,但是文献计量分析会受到零被引文献的影响(Thelwall 2016)并显得极为重要。因此研究者已经开始分析影响因子和期刊零被引文献之间的额关系(比如Burrell 2012, 2013; Egghe 2013; Hsu and Huang 2012; Van Leeuwen and Moed 2005)
现在有关零被引的研究所使用的研究方法各有不同。最常见的分析对象为零被引论文,然而,零被引还可以用零被引文章的水平以及零被引作者和标题来计算(Liang et al. 2015)。零被引指的是学术论文、作者和标题在引用窗口中从未被引用过的状态。因此,零被引的概念很大程度上取决于为了分析所设置的时间窗口长度(Hu and Wu 2014)。一篇最近没有被引用的文献并不表示它永远不会被引用,也就是所谓的未被引文献。这种文献可能是一位“睡美人”(详见van Raan 2015对于睡美人文献的综述)并且Ho and Hartley (2017)使用三个神经学领域的案例证明了这种睡美人现象。
对零被引的分析可以在文献和研究者的层面上进行。文献水平分析包括获奖论文和特定的文献类型。Sen和Patel (2012)将25年内的获奖论文作为研究对象并发现零被引率大概在25%。Zhao (2015)使用Web of science上的文献综述作为文献集合并发现零被引率在出版后3年快速下降并在5-10年稳定在4%。Hu 和 Rousseau (2013)研究了会议摘要的零被引情况,结果显示大多数会议摘要都几乎不被引用。Tang (2008)研究了专题零被引并且发现其零被引率比期刊零被引率更低。人们一般会将作者作为研究对象,从而研究著名研究者的人数。研究诺贝尔奖获奖论文和菲尔兹奖得奖论文(Egghe等人,2011年)可以发现他们的零被引率在10%以上。然而,Heneberg (2013)发现分析结果中的高零被引率是因为包含了具有零被引特性的文献类型所导致得,并且通过单独分析论文和综述,他发现它们的零被引率都少于1%。最后,Thelwall (2016)认为Scopus的高零被引率可能是因为Scopus上的学术性杂志被编入索引所导致得。
零被引也能从领域或国家角度来分析。相当数量的研究以及找出了一个特定领域或几个领域的零被引情况(比如,Gopalakrishnan et al. 2015; Liang et al. 2015; Mavrogenis et al. 2018; Rosenkrantz et al. 2018)。有一些研究值得特别注意。Wallace等人 (2009)检索了自然科学与工程,医学和社会科学领域的所有研究论文、笔记和综述性文章在2、5和10年引用窗口下的引用情况。他们发现零被引呈现出全面下降的趋势。Lou and He (2015)发现在6个学科领域的额从属关系和零被引情况之间存在一种较弱的负相关性。Liang等人 (2015)发现图书情报学中零被引的文章、参考文献以及作者的平均论文数量很低。van Dalen 和 Henkens (2004)发现人口统计学领域引用曾经从未被引用过的文章的几率不会随时间变化而下降。同样,还有一些研究分析了地质学的文章或期刊(比如 Cuenca 等人 2017; Li 2013; Tahmasebi 等人2017)。
最后,分析可以包括数据库中的所有出版物或大规模的出版物。Hamilton (1990, 1991)就是一个大规模研究的例子。不幸的是,学科分析和子学科分析无法解释文献类型,这可能会导致Pendlebury (1991)指出的结果。此外,使用Web of Science上的所有科研论文进行分析,结果表明第一作者的姓位于字母表最后的论文会有很高的零被引风险。(Arsenault 和Lariviegrave;re 2015)
大量不同的方法已经被应用到零被引研究中去。对于零被引现象,可以对有限数量论文中零被引的出版物的特点(比如主题和文献类型)进行描述性分析(Law 等人,2013)。然而,这种分析确实无法和其他出版物的零被引率和特点进行比较。可以使用高度引用的论文形成对照组(Kamat 2018; Yamashita and Yoshinaga 2014)。然而,分析零被引的方法一般为使用被引出版物、领域或者年份左右比较零被引率的方式。有些研究者使用几种引用窗口(比如 Wallace等人.2009)而其他人则使用基于出版年的引用窗口(比如Liang等人. 2015),他们使用了1991-2010的出版窗口以及出版当年到2014年2月的引用窗口。因此,他们让最近3-4年出版的文章获得至少一次引用而最早的文章有着20年的引用窗口。
综上所述,许多研究已经清楚地展示了从两种解释因素:学科和文献类型去分析零被引情况的重要性。已有的研究至今为止只是将这两个因素作为单独的解释模型。然而,因为文献类型在不同的领域可能被使用的情况有所不同(Becher 1989),每种文献类型的影响以及它们的作用都需要被考虑。此外,现存的文献表明引用时间窗口的长度很重要,因为零被引情况会受所选时间窗口的影响。
方法
本文数据来自于Scopus数据库。截止2018年12月6日,26112764篇文献中有73413715篇文献未被引过。设置出版窗口为1996-2015并且文献类型被限制在7种最为常见的文献类型(文章,专著,书籍目录,会议报告,信件,笔记以及综述)。“附录1 ”提供了从数据库中检索到的27个学科领域的数据概况。需要注意的是,标题可以使用多个主题区域代码编制索引。本文从27个学科领域中选取了7个来进行进一步分析:人文艺术、计算机科学、工程学、数学、医学、航空物理学和社会科学
所选学科领域包含了不同类型的学科领域并且7508741篇文献中有29472184篇文献未被引用,这几乎占据了20年内所有零被引文献的65%。
选取的每个学科领域的详细数据是通过限制特点文献类型和出版年来检索的。和Liang等人(2015)一样,我们使用了开放引用窗口。因此,本文的零被引文献主要指在检索时间前Scopus上从未被引用过得文献。因此,老的文献相比较新的文献有更多的时间来被人引用。因此,零被引率的详细比较是逐年进行的。虽然本文给出了总数,但它只是作为一个笼统的指标。
结果
表1展示了零被引率的概况。需要注意的是这些数据包含了整个引用窗口(1996-2015)以及所有文献类型。
每个所选学科领域,每种文献类型以及20年引用周期的细节都包含在附录1-4。表2展示了每种文献类型以及学科领域文献占所有文献的百分比以及零被引率的概况。
所有所选学科中有6个学科倾向于将期刊论文作为交流工具。在计算机科学中,会议论文的数量几乎是论文的两倍。然而,在计算机科学中,零被引会议论文的数量是零被引论文数量的3倍。结果表明,计算机科学会议论文的总零被引率0.33,先比而言,论文的总零被引率只有0.16。人文艺术学科和医学的综述型文章出版的频率相当高,社会科学的综述型文章出版的频率相比其他四个学科领域较高。不同学科领域文献综述的总零被引率之间也各自不同(航空物理学为0.12,人文艺术为0.44)。剩余四个文献类型在数量和零被引率也有着更大的不同。医学学科中,信件类文章总共有约600000篇,几乎占所有出版物的6%,相比而言,数学学科只有2465篇信件类文章(占所有出版物的0.13%)。笔记类型的文章有着相似的模式。然而,人文艺术学科(0.79/0.72)以及社会科学学科(0.82/0.65)中信件类文章的总零被引率比笔记类要高。专著和书籍目录在所有学科领域中都会被用作交流的媒介,但是被使用的程度则各有不同。人文艺术学科中专著和书籍目录相比所有出版物所占的份额是所有学科中最高的(3.6%和13.9%)。医学领域中专著的零被引率(0.33)是所有学科中最高的,而数学领域中专著的零被引率(0.16)是所有学科中最低的。然而,需要注意的是,专著的覆盖范围可能是一个问题。特别是在周期的前1/3中,每个学科领域的能够索引到的专著数量相当少。和专著覆盖范围一样,书籍目录的覆盖范围也是一个问题。在此期间的前半部分,会缺失大部分数据。将分析限制在20年周期(2003-2015)的后2/3部分,结果显示零被引文献总数在0.49(社会科学)到0.66(医学)之间。
所有报告的总数都隐藏了学科领域之间存在的巨大差异。这在接下来四个特定文献类型(文章、综述、会议论文和信件)的四个指数中能够明显体现出来。主要由于可能存在的覆盖问题,接下来3种文献类型无法呈现这里的细节(但是所有数据都能在附录1-4中找到)。
人文艺术和社会科学领域的文章有着最高的零被引率(分别为0.33和0.22)。然而,如果只分析首个5年(1996-2000),并因此开放一个足够长的引用窗口,艺术与人文科学和社会科学最终落入了中间地带。
人文艺术和社会科学的综述类文章有着最高的零被引率(0.44和0.31)。只分析时间周期的最后的1/3,结果表明这两个学科领域和其余学科有着本质不同。
相比于其他文献类型,会议论文的总零被引率波动较小,波动范围为0.29(人文艺术)和0.51(航空物理)。值得注意的是人文艺术的数据没有涵盖所有年
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20093],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。