英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
科研协作的超网建模和节点重要性测量
摘要:在研究合作组织中,评估研究人员的贡献并且找出核心研究人员是一个重要问题。网络是用来研究这个问题的基本模型,但随着日益复杂的协作行为,在语义表达上显示出局限性。在本文中,通过引入超网络(比传统网络更强大的建模工具)来建立科研协作超网络(SRCH),我们将从合作关系的结构及协作方面成就价值两方面着手,从而测量研究人员的重要性。可调整参数加权法被用来整合成一个综合的评估。数据实例验证了我们对于SRCH的测量方法的合理性和有效性。
关键词:科研协作超网络;节点的重要性;可调参数
1.简介
目前,跨学科领域的快速发展使得深入合作变成必要和可能,因为合作已经成为用于科学研究的主流方式。核心研究人员是那些拥有关键能力,并且能为一个组织实现创新或建立研究联盟的人。评估和识别人才对于组织实施绩效考核和管理知识型员工来说是一个至关重要的问题,而且是人才流失的危机面前一个关键要解决的问题。近日,与网络分析日益成熟,通过网络调查大数据已经成为许多学科的热点(Demirkan,2013年)。科研机构或者研究人员之间的合作关系形成了一个由知识、研究人员、成就、运营商和机构组成的一个复杂网络。因此,用于科研合作,我们可以充分利用网络分析的方法来描述论文引用的关系,研究员间的合作和研究者对彼此的影响。
在复杂的协作行为的背景下,我们尝试引进超网络,它比普通的网络拥有更强大的建模能力,并可以评估研究人员在组织中涉及到协作关系结构和协作成就价值这两方面的重要性。具体而言,以研究论文合作者为对象构造SRCH,然后通过节点和边的权重等测量节点的重要性,定量的综合评估所有的作者,包括他们的学术榜、贡献、协同介数和输出能力,这些指标最终将对识别研究组织的核心人才提供依据。
2.相关作品和回顾
2.1科研协作网络
科研协作网络(SRCN)是一种社会网络尤其是用于描述研究参与者(研究人员或组织)的协作关系。审阅科研协作网的文献,存在个人层面不同领域的合作研究和组织层面的研究,它们是研究组织内部或跨组织之间的合作(辛格,2007)。据考证焦点,有包括整体网络和个人网络研究。整体网络主要涉及研究者形成的知识网络或社会网络的整体拓扑结构,以及其演化对组织内、跨组织知识形成、传播和重组的影响(严,2010)。个人网络主要基于“人们倾向于发现信息,依靠自己的社会网络获取知识和解决问题的方法”,深入研究了网络中个体的中心性和倾向性(辛格,2007年)。目前,出现了越来越多的理论和对广大科技的建模以及分析技术的应用,如复杂网络、聚类分析和Web挖掘等(艾伯特,2002)。
2.2网络节点重要性度量
在网络中,评估节点的重要性和确定关键的节点,在网络分析和系统科学领域已经成为值得研究的问题(肖,2013)。目前网络中节点重要性的度量方法分为以下两种类型。
- 社会网络分析(SNA)方法:基于社会网络分析的主要方法是假设一个节点的重要性相当于它与其他节点连接时的知名度。其基本思想是找出一些有用的属性,突出节点之间的差异。基于SNA提出的指标主要包括两大类为“中心性”和“信誉”,而指标包括度、亲密、介数、特征向量,累计提名等。基于社会网络分析方法,诸多代表性作品已经完成了。
- 节点的删除方法:这是用来测量节点重要性的另一种思路,其通过测量删除某节点后网络的毁坏程度来表示节点的重要性。移除节点的严重程度越大,该节点就越重要。如曦,唐(2002)注意到距离成反比节点之间的权重值,然后计算出所有断开节点对的加权总和来衡量网络连接的破坏性。
作为一种网络,科研协作网络和它的节点重要性测量引起了许多学者的关注。Newman(2001)通过网络研究了多种局部统计,例如通过网络研究科学家之间的典型距离,以及通过网络发现对作者之间的典型距离,这种特性被定义为“小世界”特性。唐(2008)开发了一种称为ArnetMiner科技文献的数据挖掘工具,其中可提供的一个重要的功能是发现重要作家。越来越多的研究成果已经达到类似科研协作网络及其节点重要性的测量,但是,仍然存在一些问题。
a)网络的表示是基于经典的图论,这不能用来表现多元、多层或多粒度的特点。
b)每一个指标都集中在网络的某一特定特征上,如网络结构中节点的位置、节点对信息传播的影响和控制能力、节点在子结构中的贡献等。
c)基于整体视图的节点重要性测量需要遍历整个网络。
2.3超图和超网络
随着网络复杂性的增加,基于经典图论的传统的网络,其建模的局限性日益显现。超图和超网络的出现,为网络的不同种类及其关系提供了一种新的研究视角。对网络的概念最初是由Sheffi在1985提出的,定义为“超越现有网络的网络”和“网络的网络”(Sheffi,1985)。超网络利用代表嵌套、多层、多层次、多属性的特点,具有超越了普通图和网络的能力。
就科研协作网络而言,将作者看作一个节点,一篇论文由两个或两个以上的作者完成可以表示为一个超边连接两个以上的节点。虽然有许多节点的超边可以转化为连接所有节点的普通的网络,但在这种情况下,很难分辨是两位作者还是多个作者间的合作。
图1.科学论文合著者的超级网络表示
正如图1所示,五位作家合作完成一篇论文的情形可以表现为如图(b)所示的超网络。图(a)展示了五位作者中的每两位合作的案例,其中有10篇论文完全写成。在图(c),这五个作家两两合作,和五个作者合作完成一篇论文,还有,1号、2号和3号作者合作完成了另一篇论文。如果我们按节点度进行分析,在图(a)和图(b)中,所有节点的度分别为4,但其含义是完全不同的。因此,传统的图形度量指标不能直接移植到超网络。作为一种研究工具,超网络模型可以用来表示网络之间的相互作用和影响。到目前为止,研究主要集中在网络的供应链网络,建设金融超网络等等。
3.测量方法
3.1符号定义
- 超网络的定义
我们参考Berge的超图的基本定义(Berger,1973)来对超网络做定义如下:
定义1:设是一个有限集,若,,则称二元关系为一个超图。的元素称为超图的顶点,是超图的边集合,集合称为超图的边。
除了集的形式,超网络具有一定的等价形式为闭合曲线,矩阵和二部图。其中,矩阵形式在计算在计算过程中具有简洁性,系统性和适应性强的特点,所以网络往往用在科学或工程计算任务矩阵处理。在这项工作中,我们使用超网络的基质包括关联矩阵(IM),邻接矩阵(AM),以及距离矩阵(DM)。
3.2测量方法的基本思想
尽管根据许多不同的标准对节点重要性进行了衡量从而提出了大量不同的方案,但是在科研协作网中,被视为是科研能力的标准,通常是由数量和产出质量决定,如共同撰写的论文,书籍或发明专利。其中,研究性论文的共同作者很容易获得强有力的解释,因此,调查合著者关系的合作现象是很有用的(纽曼,2001b)。
在科研协作网的许多研究,节点的重要性取决于节点的度。这样,作者就获得了大多数的合作者,但不足以判断他所具有的综合影响。实际上,SRCN的节点重要性应该综合考虑节点和边的权重信息,其中节点的度反映了作者的贡献,边权反映了论文的价值。核心作者应满足两个条件:他发表了大量论文,并与他人广泛合作。因此,在研究研究者对组织的重要性时,应考虑与他人合作的广泛程度,即合作关系结构和合作成就价值。
3.3测量方法
- 合作关系结构测量
在(Xiao,2013)的研究中,我们发现并测量基于经典图形的方法不适用于超网络,因此有必要重新考虑这个问题。玺,唐(2002)提出的立体多核网络的概念,并在测量节点重要性的过程中采用了“破坏性相当于重要性”的思想,多核网络的形式化描述是超网络。因此我们可以引入破坏性的想法来衡量SRCH节点的重要性。
对于一个连通的无向加权网络节点,如果节点v被删除,网络的连通性可以在两个方面:首先,打破了原本与我将断开连接的节点,所以它们的重量不能传播到其他节点,这将导致直接损失(DL);其次,一些的剩余的节点之间的路径被中断,由于丧失功能为删除节点v我的桥梁,它将导致这些节点无法交换或分享权重,造成间接损失(IL)。因此,节点v在超网中的重要性等于HN减去总损失(TL),并计算:
其中的和是协同行为衰减系数,定义为它们与距离是反比关系;表示和之间的信息量。在本文中,我们将信息量看作是他们之间合作的次数。
合作关系结构的重要性可以通过邻接矩阵(AM)和距离矩阵(DM)表示,计算方法为:。
- 合作成就价值测量
合作成就价值维度反映了研究者产出的数量和质量。通过测量每一篇论文的学术价值和各合作者的贡献,我们在所有论文组中积累了每个作者的贡献,从而获得了每个人的合作成就值。一般来说,论文的价值可以通过指标来源、被引时间、期刊的影响因素和基金项目水平等因素来综合评价:
其中,,,代表指标来源,是SCI,是EI,并且,;代表基金项目的水平,是国家项目,是省部级项目,是市政工程,是水平的项目,具有和;是期刊的影响因子;是被引次数的纸;是数年论文发表的固定总量。
在一篇科学论文中,每个作者的贡献是不同的。为了描述不同作者数的论文中的贡献比例,我们定义了作者贡献比例矩阵。是一个较低的三角形矩阵,其中每行代表不同的作者数情况。元素是位总作者中位作者的贡献。对于每一种情况,。如果论文共有位作者,那么位作者在论文中的贡献是。如果位作者共同发表了篇论文,那么他的合作成就价值的测量为:
(3)多指标综合评价
通过以上分析,我们知道单指标不足以反映一个节点对整个网络的影响,因此我们采用了多指标。然而,如何整合这些指标进行有效的评价是需要解决的问题。乘法算子能够综合两个指标,但很容易放大单因素的影响,导致评价结果不合理。因此,我们采用“加权法”得到可调参数的综合重要性评价。表示是节点在SRCH中的重要性,其计算公式为:,其中,和是可调参数;是节点的协作关系结构的重要性,是节点的协作成就价值的重要性;。以便于在不同网络之间的比较,并消除网络规模指标的影响,我需要进行归一化,即,使分布在区间[0,1]中的值为:。
4.实例和分析
4.1数据分析
利用上面的测量方法,我们可以构建特定的组织,主题区域,或学术期刊(组)的SRCH,然后决定在所述数据元素集合中的重要性。下面,我们把我们的工作单位,江西财经大学(江西财经大学)为例,说明其应用过程中,所提出的测量方法及结果分析。我们用Java编写一个网络蜘蛛程序,运行显示出最近五年(2008- 2012年)的论文信息爬行负载的纸张信息五条全套年,其中作者的隶属关系是江西财经大学,在一个最大的科研数据库、万方数据库(www.wanfangdata。com)。我们一共获得了4748位作者撰写的8335篇论文的资料。
4.2网络特性
通过分析我们发现研究的科研协作网是非连接的,它是由独立的子网络构成(见表1)。
在表1中,4748名作者中的2011位在近五年内没有和其他人合作过,2868名作家在相对较小的研究界(NOSN lt; 4),这可能是由研究对象引起的。同时,有两个大型网络,分别包括407名和417名作者,他们在促进新的知识和思想方面发挥了巨大的作用。图2为NoA和NoSn的双对数曲线,这表明了科研协作网的幂律特征。
在江西财经大学的SRCH中,我们发现很多节点具有非常小的度(3795作者度小于3),他们很少与他人合作。只有少数作者有相当大的度(43作者拥有度超过10)。详细信息见表2。
根据表2,D和NoN的双对数曲线绘制成图3,图中说明度分布呈现幂律衰减模式和明显的无尺度特性。因此,合作关系的非连接的现象是自组织的,并且科研协作网是一个特定的无标度网络。
4.3测量结果与分析
表3显示的是通过我们的方法测量出的江西财经大学中最重要的20名作者。通过收集的数据,在过去五年的平均水平是每个作者发表了2.38篇论文,然而每篇论文由1.37名作者完成,且超网的平均度为1.50。考虑到这20位重要作者,他们的平均度是17.20,这意味着每一个这所大学的一流研究人员有一个合作圈,规模约为20,在过去的五年中前20名作者发表了23.15篇论文。在他们的论文中,平均有2.49作者,高于平均水平。此外,我们得到了一些数据分析的发现如下。
(a)度数大的节点并不总是具有更综合的重要性,或者代表具有较高输出能力的作者。同样,作者写论文越多并不意味是更重要的作者。总体来看,PC、D和TL的发展趋势基本一致,但在一定程度上也存在偏差,尤其是在PC和Val,这反映了不同级别论文对学术价值的歧视。因此,仅考虑单指标D或PC就不可能判断节点的重要性,但是,如果将D和PC一起引入到评价指标体系中,则由于测量的重复性会导致耦合度过高。
(b)最重要的20个作者,WSP排名第四是一个特殊的情况,节点度的仅为2,这意味着他与在过去的五年中只有两个其他作者,列为no.954。在他的所有论文中,有91.38%是由他自己撰写的。然而,在过去的五年里他发表论文58篇,排名第一,他论文的Val也是所有作者中最高的。进一步调查后,我们发现他是大学教授,在江西财经大学连续几年赢得了“10大杰出研究者”称号,并且他在江西财经大学的学术界产生了一定的影响。因此,虽然他的节点度低,但他的排名为第四是合理的。通过乘法算子对指标进行了综合实验,其综合重要性为0.0323,仅排名第八十六,与实际情况不符。
(c)作者WSP的Val是最高的,然而,作者TCQ仅为0.3198排名第二,存在较大偏差。通过分析,WSP分别发表了20篇论文,比TCQ发表的多。但WSP绝大多数论文的作者是自己,而TCQ97.36%的论文是和别的作者一起完
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[141355],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。