了解互联网短视频分享的特点:基于对YouTube的测量研究外文翻译资料

 2023-10-09 11:05:47

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


了解互联网短视频分享的特点:基于对YouTube的测量研究

成立于2005年的YouTube已经成为最成功的互联网网站,提供了新一代的短视频分享服务。今天,仅YouTube就消耗了2000年整个互联网的带宽。因此,了解YouTube和类似视频分享网站的特点对它们的可持续发展和网络流量工程至关重要。本文利用1.5年的时间跨度(2007年2月至2008年9月)对YouTube视频的特征进行了深入系统的测量研究。我们发现,与传统的流媒体视频相比,YouTube视频的统计数据有明显的不同,从长度、访问模式到活跃的生命周期。这一系列的数据集也让我们能够确定这个快速发展的互联网站点的增长趋势,这是以前很少有人探索过的。我们也密切关注YouTube的社交网络方面,因为这是其成功的关键驱动力。特别地,我们发现上传者的选择生成的相关vide操作系统的链接形成了一个小世界网络,这表明这些视频彼此之间有很强的相关性,并为开发新的缓存和对等分发方案创造了机会,从而有效地将视频交付给最终用户。

最近四年,网络视频共享作为一种新的杀手级互联网应用出现了爆炸式增长。最成功的网站,YouTube,现在每月有超过60亿的vide操作系统被观看。类似网站的成功,如新的雅虎视频和优酷(中国最受欢迎的视频分享网站),以及谷歌对YouTube的昂贵收购,进一步证实了大众市场的兴趣。他们的伟大成就在于结合了内容丰富的视频,而且,更重要的是,建立了一个社交网络。该系统允许内容供应商轻松上传视频,并进行标签。上传带有关键字和其他视频链接的视频。用户可以很容易地通过邮件链接分享视频,或者添加在博客中。这些视频不再彼此独立,客户可以通过链接浏览它们。因此,流行的短视频可以以一种非常有机的方式上升到顶部。毫无疑问,这些网站正在改变内容分布格局,甚至流行文化。

YouTube成立于2005年,是增长最快的网站之一,根据Alexa的调查,它已经成为互联网上访问量第三大的网站。2008年4月的一份报告估计,YouTube的带宽消耗与2000年整个互联网的带宽消耗相当。业内人士估计,YouTube每天为其服务器带宽支付的费用约为100万美元。另一方面,最近的一项研究显示,YouTube的表现要比许多其他网站差得多。因此,了解youtube类网站的特点对于网络流量工程和新一代服务的可持续发展至关重要。

本文对YouTube视频的特点进行了深入系统的测量研究。2007年初,我们花了4个月的时间爬上YouTube网站,收集了300万个不同视频的信息。2008年,我们进行了为期7个月的第二轮抓取,获得了59个数据集,共计5043082个不同视频的信息,是目前为止我们所知道的最大的一次抓取数据集。从这个庞大的数据集集合中,我们发现YouTube视频在视频长度和访问模式等方面与传统的流媒体视频有着明显的不同。这两轮测量的长时间跨度也使我们能够研究以前测量研究中没有涉及的新特性,例如增长趋势和活动寿命。

我们也密切关注YouTube的社交网络方面,因为这是YouTube和类似网站成功的关键驱动力。特别是,我们发现上传者的选择所生成的相关视频链接形成了一个小世界网络。这表明视频之间有很强的相关性,并为开发新的缓存和对等分发方案创造了机会,从而有效地将视频交付给最终用户。

在理解传统媒体服务器的工作负载方面,已经进行了大量的研究工作,例如查看视频的受欢迎程度和访问位置。我们仔细比较了他们的测量结果和我们的测量结果,发现这些传统媒体服务器在分享相似的特性的同时,很多视频统计数据与youtube类网站有很大的不同,例如视频长度分布、用户访问模式和活动寿命。更重要的是,这些传统的研究缺乏视频之间的社交网络。

在过去的四年里,我们已经看到了同时对YouTube和类似的Web 2.0站点进行调查的工作。Cha等人研究了YouTube和韩国最受欢迎的用户生成内容(UGC)服务Daum UCC。他们研究用户的行为,找出影响受欢迎程度分布的主要因素,并就教资会的设计提出一些改善建议。Gill等人跟踪了校园网中的YouTube事务,重点从网络边缘的角度推导视频访问模式,并讨论了诸如缓存和CDNs等改进方法。我们的工作是对他们的工作的补充,通过爬行一个更大的视频集,从而能够更准确地测量他们的全球属性,特别是社交网络,这在那些工作中没有提到。

Halvey等人首先研究了YouTube的社交网络方面,主要关注用户。Mislove等人研究了4个在线社交网站(Flickr、YouTube、LiveJournal和Orkut),证实了在线社交网络的幂律性、小世界性和无尺度性。我们的研究补充了这些现有的工作,包括我们之前的工作,通过长期测量,跨度为1.5年。我们关注的是YouTube视频网络,它是由用户交互间接形成的,但它比用户网络具有更重要的含义。我们还初步尝试探索社交网络,以加速内容分发。

我们建立了一个YouTube爬虫程序,通过YouTube API和YouTube视频网页碎片的组合来收集YouTube视频的信息。在本节中,我们首先简要介绍YouTube技术,然后描述我们的YouTube爬虫和爬行数据集。

YouTube视频格式和元数据: YouTube的视频播放技术是基于Adobe的Flash Player, Flash Player允许YouTube播放与成熟的视频播放技术(如Windows Media Player、QuickTime和Realplayer)质量相当的视频。YouTube接受多种格式的上传视频,上传后转换成. flv (Adobe Flash Video)格式。众所周知,使用统一的易于播放的格式对YouTube的成功至关重要。在我们的测量过程中,YouTube使用了H.263视频编解码器,并在2008年底推出了使用H.264编解码器的“高质量”格式,以提高观看质量。然而,我们的测量和结论在很大程度上独立于这些变化。

YouTube为每个视频分配一个由0-9、a-z、a-z、-和_组成的不同的11位ID。每个视频包含以下直观的元数据:视频ID、上传用户、添加日期、类别、长度、观看次数、评分和评论,以及“相关视频”列表。相关视频是指向具有类似标题、描述或标签的其他视频的链接,所有这些都是由上传者选择的。一个YouTube页面一次最多只能显示20个相关视频,所以我们也将我们的刮擦限制在这20个相关视频中。

Youtube爬行器:给定视频之间的链接,我们考虑所有YouTube视频构成一个有向图,其中每个视频都是图中的一个节点。如果视频在视频的相关视频列表中,则有一条从到的有向边。我们的爬虫程序使用宽度优先搜索(BFS)在图中查找视频。我们定义了id列表的初始集,爬虫程序在爬行开始时将其读入队列。在处理每个视频时,它检查相关视频列表,并将任何新视频添加到队列中。给定一个视频ID,爬虫程序首先从YouTube API中提取信息,其中包含除了添加日期、类别和相关视频之外的所有元数据。然后爬虫抓取视频的网页以获取剩余的信息。

我们每两天运行一次爬虫程序,因此获得了许多数据集。在大多数情况下,每次爬到第四个深度时,爬行就结束了。我们从2007年2月22日开始爬行,第一轮于2007年5月18日结束,共收集了29994947个视频。2008年3月27日,我们开始了第二轮爬行。平均而言,爬行者每次能找到81000个不同的视频。此次抓取于2008年9月8日结束,共抓取5043082个视频,其中只有8.3%的数据在第一轮中被抓取,说明YouTube正在快速增长。

最后,爬虫从YouTube API中检索到每个用户上传视频的数量和好友的信息,总共有200多万用户。

我们的抓取视频占了整个YouTube视频库的很大一部分(截至2008年9月,大约有1.2亿个视频)。由于这些视频中的大多数都可以在YouTube主页上用不到10次点击就访问到,因此它们通常是活跃的,因此在度量存储库的特性方面具有代表性。稍后我们还将展示我们的爬取数据集是没有偏见的。

在测量中,视频的一些特征是静态的,可以从整个数据集(如类别、长度和添加的日期)测量一次。有些特征是动态的,从一个数据集到另一个数据集(例如,视图的数量)会发生变化。我们认为这个动态信息是静态的。之后,更新的观看次数信息将被用来衡量视频的增长趋势和活动寿命。

视频的类别。在YouTube上,用户上传视频时会选择15个类别中的一个。表二列出了所有类别的数量和百分比。在我们的整个数据集中,我们可以看到分布是高度倾斜的:最受欢迎的类别是“娱乐”,约25.4%,其次是“音乐”,约24.8%。这两类视频占整个YouTube视频的一半,说明YouTube主要是一个娱乐类网站。

视频长度。YouTube视频的长度是与传统媒体内容最大的区别。虽然大多数传统的服务器包含大量的长视频,通常1-2小时的电影(如HPLabs媒体服务器和在线电视录像机),YouTube主要由短视频剪辑组成。在我们的整个数据集中,98.0%的视频长度在600秒内。这主要是因为YouTube对普通用户上传视频的时间限制为10分钟。但是我们确实发现视频的长度超过了这个限制,因为YouTube表II中的YouTube视频类别列表如图1所示。YouTube视频长度分布。Director程序允许一小群授权用户上传超过10分钟的视频。

视频文件大小和视频比特率.使用普通抓取的视频id,我们检索了13万多个视频的文件大小。毫不奇怪,我们发现视频大小的分布与视频长度的分布非常相似,这是由于YouTube使用的恒定比特率(CBR)编码模式。我们在图3中绘制了YouTube视频文件大小的直方图和CDF。在我们的抓取数据中,99.1%的视频小于25mb,对于2008年的数据集,我们计算平均视频文件大小为7.6 MB,比2007年的数据集(8.4 MB)小,所以上传的短视频越来越多。然而,考虑到youtube上有近1.2亿个视频,存储所有视频所需的总磁盘空间接近900 TB!因此,智能存储管理对这样一个超大型且仍在增长的站点的要求非常高,我们将在第六节中详细讨论。

我们发现我们抓取的99.6%的视频包含FLV元数据,在文件的开头指定了视频的比特率。对于剩下的视频,我们从文件大小和长度计算平均比特率。YouTube视频比特率的分发。表三视频长度、文件大小和比特率统计数据比特率峰值约为320kbps,其他两个峰值约为285kbps和200kbps。这意味着YouTube视频有一个适度的比特率,可以平衡质量和带宽。

软件的上传趋势。在我们爬行的过程中,我们记录了每个视频上传的日期,以便研究YouTube的上传趋势。YouTube成立于2005年2月15日,我们可以看到起步比较慢,最早的视频是在那一天的8天后上传的。请注意,只有当早期的视频仍然非常活跃,或者被我们抓取的其他视频链接时,我们才能获得这些视频。在YouTube成立6个月后,上传的视频数量急剧增加。这种趋势可用幂律曲线很好地拟合。

在我们收集的数据集中,从2008年3月开始上传的视频数量急剧下降。然而,这并不意味着YouTube视频的上传速度突然下降。原因是当时很多新上传的视频还没有被包含在其他视频的相关列表中,所以我们的爬虫无法找到它们,除非它们在上传后非常受欢迎。我们发现2007年的数据也显示了这一特点,2008年的数据确实证实了上传趋势并没有下降。

客户访问模式。视频的浏览量是我们衡量的另一个重要特征,因为它反映了视频的受欢迎程度和访问模式。因为这个属性随着时间的推移而变化,所以我们不能从将所有数据组合在一起的整个数据集中度量它。因此,我们使用一个包含15万多个视频的单一数据集,可以认为是相对静态的。我们检查了所有的数据集,其他数据集也显示了相同的结果。显示观看次数作为函数的排名的视频,其受欢迎程度。虽然在线性尺度上有一个长尾,但它没有遵循众所周知的Zipf分布,在对数-对数尺度上应该是一条直线。我们认为这是因为视频之间的链接可以让感兴趣的观众通过各种途径浏览每一个视频。另一个原因可能是用户上传后会多次访问自己的视频,以检查是否成功上传,因此很少有视频从未被访问过,或者只访问过一次。

虽然之前对传统媒体服务器的测量也发现,对媒体服务器的视频访问不遵循Zipf的[7]-[10]定律,但是我们的结果与他们的不同,他们的曲线要么是从开始到结束倾斜,要么没有沉重的尾部。他们的研究结果表明,受欢迎的视频并不像齐普夫定律预测的那么受欢迎,而YouTube的情况并非如此。

接下来,我们研究视频长度与观看次数之间的相关性。我们将数据集分为五组,计算视图的统计量。可以看出,中等长度的视频(151 s - 240 s和241s-420 s)相对于非常短的视频和非常长的视频更受欢迎。但是,我们发现这五组的偏差都非常大,视频长度和观看次数的相关系数为0.007,说明相关性确实非常弱。

最后,我们检验了视频年龄与观看次数之间的相关性。毫不奇怪,视频年龄会影响观看次数(相关系数为0.166),因为较老的视频有更多的机会被访问。然而,我们可以看到在年轻的视频组中有非常受欢迎的视频,而在老的视频组中有非常不受欢迎的视频。事实上,所有组的偏差都很大。这说明不同的视频具有不同的增长趋势,即,视频的受欢迎程度以不同的速度增长。

YouTube是一个著名的社交媒体服务:YouTube上有社区和群组,因此视频不再彼此独立。接下来我们研究YouTube用户和视频之间的社交网络,这是新一代视频分享网站非常独特和有趣的一面。

用户评分和评论,朋友和上传。YouTube目前有超过1100万注册用户,其中2人可以登录上传视频或观看一些受限制的视频。注册用户还可以将另一个用户添加到好友列表中,方便地观看好友的视频。我们的爬虫程序发现了210万不同于所有爬虫的注册用户,这在现有注册用户中占相当大的比例。

我们首先研究来自相同数据集的评分和评论数量的统计数据,就像我们研究视图数量一样。由于用户需要登录对视频进行评分和评论,所以

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[609594],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。