Twitter是什么,社交网络还是新媒体?外文翻译资料

 2022-11-16 11:19:43

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


Twitter是什么,社交网络还是新媒体?

Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon

Department of Computer Science, KAIST

335 Gwahangno, Yuseong-gu, Daejeon, Korea

摘要:twitter是一种微博客服务,截至2009年7月,twitter诞生不到三年,却吸引了超过4100万用户,增长十分迅速。Twitter用户可以在140字符的限制内发表任何主题的推文,也可以关注其他人并收到其推文。本文的目的是研究twitter的拓扑结构(特点)以及其作为一种新的信息分享媒体所发挥的作用。

我们利用爬虫软件采集了整个twitter的数据,获取了4170万用户的资料、14.7亿条社会关系、4262条热门话题以及1.06亿推文。在twitter的关注者-正在关注的拓扑结构分析中,我们发现非幂律的关注者分布,短有效直径,低互惠的特征,而这与社交网络的已知特征有些不同。为了确定在Twitter上的影响,我们分别根据关注者数量和PageRank将用户排名,发现两种排名方法的结果是类似的。通过转推数量排名得到的结果与前两个不同,这意味着通过关注者数量推测得到的影响力与通过推文热度得到的结果之间存在差距。我们分析了最热门的一些话题的推文,并对其当前行为以及用户参与度进行了报告。我们根据活跃期和推文数量对热门话题分类,结果显示大多数(超过85%)的话题是新闻标题和持续性新闻。仔细观察转推会发现,对任意一条被转发的推文而言,不论原始推文有多少关注者,平均1000名用户能够阅读此推文。推文一旦被转发后,几乎立即到达吓一跳,推文第一次被转发后,信息迅速扩散。

据我们所知,在整个twitter领域和基于twitter的信息传播领域内,本文为首个做定量研究的论文。

关键词:推特;在线社交网络;相互作用;同质化;分隔度;转发推文;信息传播;影响力;PageRank

1.引言

Twitter作为一种微博客服务,通过(传播)近期发生的事情,如一名美国学生在埃及入狱、美国航空公司的飞机在哈德逊河坠毁等,已经成为一个新媒体并引发了广泛关注。Twitter用户可以关注其他人,或者被关注。不像大多数Facebook、MySpace等在线社交网站,Twitter上的关注与被关注并不要求双向。用户可以关注其他任何用户,而被关注的用户不需要回粉。成为Twitter上的关注者意味着该用户可以收到其关注用户发出的所有信息(即推文)。回应推文的普遍做法已经演变成定义良好的标记文化:RT代表转发推文,“@”及后面的用户名可以指向该用户,“#”后面通常跟着一个词,代表标签。这种明确定义的标记词汇结合推文严格的140字符限制可以使用户表达更简洁。转推机制使用户能够传播其选择的信息,并且不限于关注用户的推文。

人们如何连接twitter?最有影响力的人是谁?人们谈论什么?信息如何通过转推传播?本文的目的是研究twitter的拓扑结构(特点)以及其作为一种新的信息分享媒体所发挥的作用。我们利用爬虫软件采集了4170万用户资料、14.7亿社会关系以及1.06亿条推文。我们从网络分析开始,研究了关注者与正在关注的分布、关注者与推文数量的关系、互惠性、分隔度和趋同性。接下来我们分别根据关注者数量、PageRank和转推数将用户排名,并定量比较它们之间的关系。如果以转推数为依据,关注者少于100玩的用户比关注者多于100万的用户排名更靠前。通过热门话题分析,我们将热门话题分为不同的类别,并分别显示话题持续时间以及参与用户的数量。最后,我们研究了通过转推的信息传播。我们构造了转推树并观察其时间与空间特征。据我们所知,本文是第一篇对整个twitter领域以及基于twitter的信息传播做定量研究的文章。

本文写作安排如下。第2节描述我们通过爬虫方法得到的数据,包括twitter用户资料、热门话题和推文信息。我们会在第3节开展对twitter网络的基本拓扑分析。在第4节中,我们将应用PageRank算法并比较其与基于转推数的排名结果。在第5节中,我们研究用户热度是如何随时间变化的。在第6节,我们通过转推树着重研究信息传播。第7节阐述了相关研究工作并展望了我们的工作。第8节得出结论。

2.推特数据收集

Twitter提供了一个应用程序编程接口(API),便于抓取和收集数据。我们抓取并收集了2009年6月6日至6月31日所有twitter用户的资料信息,以及2009年9月24日以前参与热门话题的用户的资料。另外,我们也收集了twitter上的热门话题以及相关推文,下面我们将详细描述我们是如何收集用户资料、热门话题以及相关推文的。

2.1 数据收集

2.1.1用户资料

Twitter用户通常会提供关于个人的简短介绍。公开资料包括全名、地理位置、网页、简短的自我介绍以及用户的推文数量,还会列出关注该用户以及该用户关注的人。为了收集用户资料,我们从拥有过百万关注者的Perez Hilton开始,利用广度优先算法采集其关注者与正在关注的用户信息。Twitter对每个白名单IP的请求有每小时20000次的限制。我们使用了不同IP地址的20台机器,将自调节收集率设定为每小时10000次请求,收集了从2009年7月6日至7月31日的用户信息。为了抓取没有与twitter网络的巨连接组件连接的用户信息,我们还收集了6月至8月间推文提到热门话题的用户资料。最终,我们收集到的用户资料有4170万条。在这之间,有14.7亿关注与被关注的直接关系。

2.1.2热门话题

Twitter可以追踪最常提到的短语、词和#标签,并定期将其贴在“热门话题”的标题下。#标签即“#”字符后紧跟一个词,用于twitter用户之间创建并讨论话题。社交书签网站Del.icio.us也使用相同的#标签惯例。

默认情况下,Twitter在每个用户主页右侧栏显示当前最热门的10个话题。Twitter并不将相似的热门话题归为一类,迈克尔·杰克逊去世时,大多数的十大热门话题都是关于他的:Michael Jackson、MJ、流行音乐之王(King of Pop)等等。尽管twitter挖掘十大热门话题的确切机制无从知晓,我们相信即使热门话题可能不能完全代表关注最多的事件,但它仍具有很好的代表性,因此我们决定抓取该信息。我们通过Twitter搜索API,每隔5分钟收集一次最热门的十个话题。API返回热门话题标题、查询字符串以及API请求时间。我们使用查询字符串抓取提及热门话题的推文。我们总共收集了4262条独特的热门话题以及相关推文。

一旦一个短语、词或者话题成为最热门话题,当它不再是十大热门话题后,我们还将持续追踪七天。

2.1.3推文

针对最热门的话题,我们收集了所有提及该话题的推文。每次查询,Twitter的搜索API最多返回1500条推文。每隔5分钟下载一次热门话题的相关推文也就是说,我们每秒最多采集5条推文。我们收集了推文全文、作者、发布时间、推文的ISO标准语言代码、接收者(如果该推文是回复)以及第三方应用,如Tweetie。

2.2 去除垃圾推文

据报道,随着twitter的广泛使用,twitter上垃圾推文的数量也在增加。由于垃圾网页破坏了PageRank的准确性,并且网页中嵌入的垃圾关键词会阻碍相关网页的提取,垃圾推文会添加分析的干扰和偏差。如果一个用户被举报发送垃圾推文,Twitter支持团队会暂时停止其的twitter服务。但我们的数据中仍然包括未被举报的垃圾推文。为了去除垃圾推文,我们使用了人们熟悉的Clean Tweets插件的(过滤)机制。Clean Tweets插件是一款FireFox插件,当向firefox呈现搜索结果时,它会过滤注册少于一天的用户发布的推文。它也可以去除包括三个及以上热门话题的推文。我们使用了相同的机制从数据中去除垃圾推文。

在将垃圾推文过滤规则设为3个热门话题之前,我们分别将数字设为3-10,观察识别的垃圾推文的数量有何不同。将限值从10依次降低为8、5、3时,被识别为垃圾推文并被除去的推文数量依次显著增加。由于推文有140字符限制,引用其他网页时,大多会使用URL缩短服务(如http://www.tiny.cc/和http://bit.ly),因此读者难以猜测该引用指向哪里。这项功能对发布垃圾推文的用户而言十分具有吸引力,他们可以在推文中添加多个热门话题,以使其推文在许多热门话题搜索结果下显示。包含多于3个话题数的推文有20, 217, 061条,这些推文来自1, 966, 461位特定用户.在本文的其余部分,我们会从收集的推文中去掉这些推文。最终我们收集的推文数量为1.06亿条。

3. 对推特用户的分析

我们对twitter空间的分析开始于以下问题:twitter内的直接关系如何影响拓扑特征?大量的社交网络都分析过该问题并互相比较。在深入钻研twitter的反常与特殊之前,我们运行了一个有名的批处理分析并给出结论。

3.1 基础分析

表1 粉丝数与关注数

我们构造了一个基于正在关注-关注者的有向网络并分析其基本特征。图1中,正在关注的数量分布用实线表示,关注者数量用虚线表示,Y轴表示互补累积分布函数(CCDF)。首先说明正在关注的数量分布。实线上有明显毛刺,第一个毛刺在x=20处。新用户注册时,Twitter会为其推荐20个用户,并且可以一键关注,不少人会直接take up on the offer。第二个毛刺出现在大约x=2000处。2009年以前,一个用户可关注的数量有上限。Twitter现在已取消此限制。该毛刺代表了由上限造成的网络建设势头的差距。很少有用户关注超过10000人。他们(关注超过10000的)大多为政治家或名人的官方网页,他们需要提供某种形式的客户服务。

图1中,x=105之前的虚线服从于指数为2.276的幂律分布,包括社交网络在内的大多数实际网络的幂律指数都在2到3之间。超过x=105的数据点代表用户的关注者远远超过幂律分布所预测的数量。在[1]中也发现了Cyworld中存在度分布中类似的尾巴的表现,但并非其他社交网络中也存在此现象。Twitter和Cyworld的共同特点是,许多名人都是其用户,并且他们容易形成与粉丝在网上的关系。

关注者超过100万的用户只有40个,并且全部是名人(如Ashton Kutcher, Britney Spears)或大众媒体(如the Ellen DeGeneres Show, CNN Breaking News, the New York Times, the Onion, NPR Politics, TIME)。前20名在表7中列出。他们中有些人关注了其关注者,但大多没有(前40名用户正在关注数量的中位数为114,要比关注者数量少三个数量级)。我们会在3.3节中再次讨论互惠性的问题。

3.2 关注者与推文

图2 关注者数量与每个用户的推文数量

为了衡量关注者数量与推文数量的相关性,我们绘制了推文数量(y)与关注者数量(x)的比值,如图2所示。我们将关注者数量以对数形式表示,并用虚线表示中位数。拥有十个以下关注者的用户大多从不发布推文或者只发过一条,因此中位数为1。每个用户推文的平均数量与关注者数量的比值总是高于中位数,这意味着有些用户发送推文的数量远大于根据其关注者数量预测的值。从x=100到1000,推文数量的中位数相对稳定;xgt;5000时,中位数依次显著增加。

图3 用户关注数量与推文数量

我们认为随着用户关注数量的增加,推文的数量也会明显增加,并将这种关系表示在图3中。正如图1中所指出的,我们可以观察到x=20和x=2000处存在异常。然而,在x = 250, 500, 2000, 5000处,曲线突然降低。我们推测这些账号为垃圾账号,因为在2009年10月,其中许多账号都已经消失。我们仍将关注者数量以对数形式表示,并用虚线表示中位数。虚线表示出一个增长趋势,尽管在100至1000之间虚线是平坦的。与图2相同,当关注数量超过5000时,推文数量会随关注数量的增加而显著增加。

图2和图3表明,xlt;=10时,推文数量随关注者与关注数量的增加而增加;x=10至100时,中位数相对平坦;xgt;5000时,推文数量显著增加。我们的数字并不能说明同侪压力的因果关系,只能说明推文数量和关注者数量之间的相关性。

3.3 相互作用

在3.1节中,我们简单提及,关注者数量最多的一些用户大多是名人和大众媒体,并且他们中大部分并不会关注其关注者。事实上,twitter显示了低水平的互惠性,77.9%的用户联系是单向的,只有22.1%是双向的。我们将那些会回粉的用户称为r-friends。以前的研究表明,其他社交网站有着更高的互惠性:Flickr上为68%[4],Yahoo! 360为84%[18]

此外,67.6%的twitter用户并没有被其所关注的任何人关注。我们推测,对于这些用户而言,Twitter是一种信息来源而非社交网站。进一步的验证并非本文研究范围,我们将它留给未来的工作。

3.4 分隔度

图4 分隔度

自从Stanley Milgram进行著名的“六度分隔理论”实验以来,分隔度的概念已经成为理解社会结构的关键。在他的工作中,他提出,任意两个人之间所间隔的人不会超过6个[27]。Watts和Strogatz发现许多社交和技术网络存在很小的路径长度[37],并将它们称为“小世界”。今日,Leskovec和Horvi

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[28716],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。