英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
博客空间的信息扩散研究
D.Gruhl R.Guha David Liben-Nowell A.Tomkins
摘要:我们通过收集大量随着时间推移的博客作为我们的示例域,来研究低成本人群发布环境中的信息传播动态。我们在两个层面上对这个示例域进行描述和建模。首先,我们通过我们的语料库介绍主题传播的宏观表征,将长期运行的“热门”的话题的概念形式化,该主题包括由外部世界事件产生的“峰值”主题的递归,或者更罕见地,由社区内的共振产生。其次,我们提出了从个体到个体的传播的微观表征,借助传染病理论来模拟这种流动。我们提出一种算法来从一系列帖子中引出深层的传播网络,并验证和使用了这种算法,呈现在结果中。
- 引言
在历史进程中,社会结构和不同社会之间的关系在很大程度上受到其中信息流的影响[11]。 最近,在过去的15到20年间,人们不仅关注观察这些流动,还关注影响和创造这些流动。 这样做需要深入了解所涉及的宏观和微观层面结构,而这反过来又将注意力集中在建模和预测这些流动上。
互联网和网络的主流采用改变了信息传播的物理特性。 直到几年前,想要通过社区传播信息的人的主要障碍是接触大量人员所需的技术基础设施的成本。 今天,随着互联网的广泛使用,这个瓶颈已基本消除。 在这种情况下,诸如网络日志之类的个人发布方式已经变得普遍。
与先前在基层传播信息的机制不同,博客提供了在个人层面直接,频繁和低成本地观察信息流的机会。 这反过来又可以实现以前不可能的应用程序。 鉴于公司和政治组织花费大量精力和金钱来传播信息,及时的反馈和监控对于最大限度地发挥营销,政治或其他活动的影响至关重要。 另一方面,被组织淹没的用户吵着要求他们的注意力。 我们希望利用博客社区来识别具有新闻价值的事件,相关社区的热门帖子就是证明。
我们感兴趣的是低成本个人发布环境中的信息传播动态,例如网页,Weblog,公告板和网络新闻。我们将重点放在Blogspace上,这是所有博客的空间。当然,个人发布不是孤立发生的。它受到较老的主流媒体来源的影响,并影响着主流媒体。因此,在我们的分析中,我们既包括Weblog的帖子,也包括来自路透社和AP Newswire等来源的新闻文章。博客空间的一个明显的分析过程将基于博客链接等中显示的链接结构。我们假设博客空间在以不同的时间粒度进行检查时表现出不同的结构。在粗粒度下,我们找到了[22]中描述的那种结构。我们关注的重点不在于博客空间的这种结构,而在于信息的传播,反映在谁影响谁上,这是一种更具活力的结构。在这样做的过程中,我们发现像路透社和AP这样的传统媒体来源(通常不会出现在博客中)仍然具有巨大的影响力。因此,我们认为我们的研究更普遍地适用于个人出版环境中的信息传播,而不仅仅是博客空间。
有许多维度可以描述信息传播的特征。在本文中,我们将探讨以下内容:
主题:我们感兴趣的是首先确定关于某个主题的帖子集,然后表征关于该主题的帖子集合可能落入其中的不同模式。 我们建议主题主要由热门的联合组成(正在进行的讨论,其子主题流主要由作者的决定决定)和峰值(短期,高强度地讨论与该主题相关的现实世界事件)。 我们开发了一种生成模型来捕获这种观察到的结构。
个人:虽然个人发布的出现给每个人带来了同样的影响力,但并非所有人都有同样的把握。 我们在数据中观察到,通过博客空间对信息传播的影响可以看出,有几个不同类别的个体。 这种表征使我们能够根据关于其他环境中个体行为的历史观察来预测发布模式(关于主题)。 我们基于该领域的先前工作开发了用于传播的模型,以及用于从观察中学习模型参数的算法。 我们将此模型应用于大型数据集,并报告结果。
- 相关文献
信息的传播已经在各种形式的网络中的闲聊和广播[18]的背景下进行了广泛的研究,但该文献的焦点本质上是算法的。 在这里,我们感兴趣的是信息分散的模型,其中网络中的节点可能或可能不对信息感兴趣,因此可能会或可能不会将信息传递给它们的邻居。 从热力学到流行病学到市场营销,已经在许多社区研究了通过人群理解传播的问题。 在热力学的背景下,Maxwell和其他人是第一个对这个问题进行严格分析的人。 在那个和随后的工作中,统计力学已经研究了一种气体颗粒在另一种气体中扩散的各种模型。 虽然这种设置非常不同,但如果我们将信息视为一种粒子,我们可以从该领域借鉴。
-
- 信息传播与流行病
以前通过网络调查信息流的大量研究都是基于对疾病传播与网络信息传播之间深刻比较的观察。感染和信息之间的类比使得人们可以将几个世纪的流行病学研究结果用于信息传播问题。 (例如,参见Bailey的书[4],了解该领域的一些广泛工作。)
流行病学中的经典疾病传播模型是基于宿主疾病的循环:一个人首先对疾病易感(S),如果你因感染性接触而暴露于疾病,那么你自己以某种概率p被感染(I)(和传染性)。然后疾病在宿主u中运行,然后恢复(R)(或取出,取决于疾病的毒力)。一个恢复的个体在一段时间内对疾病免疫,但免疫力可能最终会消失,让你再次易感。因此,SIR模拟疾病,其中恢复的宿主永远不再对该疾病敏感 - 如同赋予终生免疫力的疾病,如水痘,或宿主无法恢复的高毒力疾病 - 而SIRS模拟恢复的情况宿主最终会再次变得敏感 - 就像在流感中一样,例如网络的一个重要参数是其流行阈值:最小传播概率rho;是多少,以便如果单个种子节点最初被感染,疾病会传播以感染网络的恒定部分? (在我们在5.2节中考虑的模型中,与流行病学中的典型模型不同,传输概率p = p(u,v)在网络中从边缘到边缘变化。)
在博客空间中,人们可能会将SIRS模型解释如下:最初,人们对主题x不感兴趣,但可能会对此感兴趣(S);你对x(I)主题感兴趣并发帖;你已经厌倦了主题x并且不再发布它(R);你已经忘记了她的无聊,现在可能再次对话题x产生兴趣(S)。例如,Girvan等。 [13]研究具有突变的SIR模型,其中节点u对任何与先前感染的菌株足够接近的疾病菌株免疫。他们观察到(通过适当的参数设置)可以产生定期爆发,疾病在流行病爆发期间和平静期之间振荡,同时它变异为足以引起另一次大爆发的新形式。在博客空间中,人们可以想象一位博客写一篇关于阿诺德电影明星的文章,对这个话题越来越厌倦,然后,在阿诺德的主题发展得很好之后,又开始博客关于阿诺德的州长。 (我们在各种“热门的热门”型模因的流行中观察到这种潮起潮落。见4.2.1节。)
大多数流行病学文献,包括Girvan等人的工作。 [13],侧重于“完全混合”或“同质”网络的情况,其中在任何时间步骤中的节点的联系人是从群体中的所有其他节点随机选择的 - 即,没有底层网络定义联系人 每个节点。 最近,随着网络结构的重要性变得越来越清晰,研究已经开始探索现实网络模型上的疾病和信息传播。
在由Watts和Strogatz [31]定义的小世界网络模型中,Moore和Newman [24]计算了流行阈值。 但是,该模型并未考虑真实网络的一些有趣且看似非常重要的属性。 权力法网络是节点的程度为k的概率与k-alpha;成正比的概率,对于常数alpha;通常在2和3之间。在许多重要的现实世界网络中已经观察到幂律[23], 包括由博客到博客链接定义的社交网络[22]。 我们现在回顾一些先前关于遵循幂律的网络上的流行病传播的研究。
Pastor-Satorras和Vespignani [28]分析了幂律网络中(计算机)病毒传播的SIS模型,表明 - 与随机或常规网络形成鲜明对比 - 流行阈值为零。 (换句话说,对于跨越网络边缘的疾病传播的概率εgt; 0,将发生流行病!)幂律网络的流行阈值也对网络对随机边缘的鲁棒性进行解释。失败。假设网络中的每个边缘都以概率(1-ε)独立删除;如果大多数节点仍然连接,我们认为网络“健壮”。很容易看出,在边缘删除过程之后与某个发起者v0保持在同一组件中的节点与根据上述疾病传播模型v0感染的节点完全相同。从互联网等网络的容错性角度考虑了这个问题:如果互联网中链接的随机(1-ε)分数失败,网络会发生什么?许多研究人员观察到幂律网络具有极高的误差容限[2; 7]。
这些结果表明,使用这种传输模型在博客中建模信息分散是不充分的,因为这错误地预测,如果获取主题的概率非零,网络中的几乎每个节点都将被“感染”一个主题 来自邻居 一个改进是考虑更准确的幂律网络模型。 Eguıluz和Klemm [12]在SIS模型中证明了由一个生成模型产生的幂律网络中的非零流行阈值,该模型考虑了高聚类系数 - “封闭”三角形的比例。 也就是说,如果他们在真实的社交网络中找到一个共同的朋友,那么两个人v和w将成为朋友的概率[31]。
人们也可以通过修改传输模型来解决这种差异。 吴等人。 [33]在一个模型下考虑通过真实和合成电子邮件网络(根据幂律分布生成)的信息流,其中节点u将模因转发到邻居v的概率随着图的距离衰减 来自模因的原始源节点s的d(s,u)增加。 (该模型的灵感来自对社交网络中同性恋的观察:一个人偏向于拥有与自己有相似兴趣的朋友。)他们观察到这种模式下的模因爆发通常在范围上受到限制 - 不同于没有腐烂的相应模型 ,流行阈值为零 - 正如人们在实际数据中观察到的那样。 纽曼等人。 [27]还通过检查用户社区的电子邮件地址簿定义的网络,经验性地检查了电子邮件病毒的模拟传播。
-
- 创新的传播扩散
通过社交网络传播的信息也可以被视为通过网络传播创新。 (例如,提供新的有价值服务的网站的URL就是这样一条信息。)因此,我们可以谈论采用主题t的博主,类似于采用新技术,例如博客本身。
在社会学领域,人们对社会网络中创新的传播进行了广泛的研究,研究了口碑传播过程在传播创新中的作用。 在特定时间点,网络中的一些节点采用了创新,而其他节点则没有。 文献中已经考虑了新节点采用的过程的两个基本模型:
bull;阈值模型[15]。 网络中的每个节点u选择阈值tuisin;[0,1],通常从一些概率分布中得出。 你的每个邻居v都有一个非负的连接权重wu,v使得pisin;isin;(u)wu,vle;1,并且u采用当且仅当tule;Padoptersvisin;Gamma;(u)wu,v。
bull;级联模型[14]。 每当节点u的社交接触visin;Gamma;(u)采用时,则u采用某种概率pv,u。 (换句话说,每当一个人接近你所采用的人时,你有可能决定“跟随”v并采纳。)
在Goldenberg,Eitan和Muller [14]的独立级联模型中,我们得到了一组N个节点,其中一些已经采用。 在初始状态,一些非空的节点集被“激活”。在每个连续的步骤中,一些(可能是空的)节点集被激活。 当没有新的激活发生时,该集被认为已经结束。 该组节点在有向图中连接,每个边(u,v)用概率pu,v标记。 当在步骤t中激活节点u时,具有弧(u,v)的每个节点v以概率pu,v被激活。 这种影响与所有其他节点激活的历史无关。 (如果在该时间步骤中没有激活v,那么你永远不会激活v。)Kempe,Kleinberg和Tardos [19]的通用级联模型推广了独立级联模型--同时也推广了上述阈值模型--解除独立性假设。
Kempe等人。 我们对具有营销动机的社交网络上的相关问题感兴趣:假设创新根据这样的模型传播,并给出数字k,找到k个“种子”节点S * k,最大化创新的预期采用者数量 如果S * k最初采用。 (例如,可以将产品的免费样品提供给S * k。)
- 语料库详情
任何涉及成千上万出版商的研究中的挑战之一是跟踪个别出版物。 对我们来说幸运的是,大多数出版商,包括主要的媒体来源,现在都使用RSS(丰富的网站摘要,或偶尔,非常简单的联合)提供他们的出版物的描述[20]。 RSS最初是为支持Netcenter门户的个性化而开发的,现在已被weblog社区采用为一种简单的联合机制。 在目前的工作中,我们专注于RSS,因为它一致地呈现日期 - 这种类型的时间跟踪的关键特征。
我们的语料库是通过每天抓取11,804个RSS博客供稿来收集的。我们每天收集2K-10K的博客帖子 - 星期日很低,星期三很高 - 在这些博客中,我们的数据集共有401,021个帖子。 (每个帖子对应于RSS中的“项目”条目。)作为补充,我们还每小时从rss.news.yahoo.com抓取14个RSS频道,以确定主要媒体或现实世界事件驱动主题的时间,如反对博客空间本身出现。博客条目作为父/子实体存储在WebFountain [32]中,并使用半开的特殊用途博客注释器进行分析,以提取RSS中流行的各种日期格式,转换为UTF8,详细信息等。参见图1在一天内和每天的博客帖子,由海报的时区标准化。最常见的发布时间是上午10点。在下午6点和晚上7点有明显的下降(通勤回家?晚餐?必看电视?),凌晨2点到3点之间的奇怪高原以及凌晨5点的全球最低点。发布似乎在周中达到峰值,并在周末大幅下降。
图1:博客帖子的数量(a)按时间和(b)按星期几,标准化为发帖人的当地时间
- 主题特征描述与建模
在本节中,我们将探讨数据中讨论的主题。 我们区分两个模型族:(i)地平线模型,旨在捕捉长期变化(在数月,数年甚至数十年的过程中),作为讨论的主要焦点,即使是像伊拉克这样的大型chatter主题 和微软一样,在写这篇文章的时候也是如此。 (ii)快照模型,重点关注短期行为(数周或数月),同时假设背景“热门”主题保持固定。 本文探讨了快照模型; 我们不解决地平线模型,而是将问题提升为一个有趣的开放问题。
-
- 主题识别与跟踪
为了支持我们描述主题活动特征的目标,我们必须首先通过语料库查找和跟踪主题。 主题检测和跟踪领域已经深入研究了这个问题多年 - NIST已经开展了一系列研讨会和
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20666],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。