网络百科贡献者专业背景对内容质量的影响研究外文翻译资料

 2022-12-16 11:34:18

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


Signal Processing 93 (2013) 2361–2368

Contents lists available at SciVerse ScienceDirect

Signal Processing

journal homepage: www.elsevier.com/locate/sigpro

Multimedia encyclopedia construction by mining web knowledge$

Richang Hong a,n, Zheng-Jun Zha b, Yue Gao b, Tat-Seng Chua b, Xindong Wu a,c

a School of Computer and Information, Hefei University of Technology, China

b School of Computing, National University of Singapore, Singapore

c Department of Computer Science, University of Vermont, USA

a r t i c l e i n f o

Article history:

Received 18 December 2011 Received in revised form

28 May 2012 Accepted 26 June 2012

Available online 11 July 2012

Keywords:

Web knowledge Multimedia encyclopedia

近年来,我们目睹了诸如维基百科,Flickr和YouTube等Web 2.0内容的盛行。我们如何从互联网上提供的丰富的媒体资源中获益?本文提出了一种称为Mediapedia的新概念,即一种动态多媒体百科全书,它利用了网络上的文本和图像资源,实际上是这样构建的。 Mediapedia从四个主要方面与传统的百科全书区别开来。 (1)它尝试向用户呈现多媒体内容(例如,文本,图像,视频),我们认为这些内容对用户更为直观和翔实。

(2)它完全自动化,因为它从Web下载媒体内容以及相应的文本描述,并组合它们进行演示。

(3)它是动态的,因为它将使用最新的多媒体内容来构成答案。传统的百科全书不是这样。 (4)Mediapedia的设计灵活可扩展,我们可以轻松地将新型媒体(如视频和语言)纳入框架。展示了Mediapedia的有效性,并在本文中描述了两种潜在的应用。

概述

“百科全书”一词来自古典希腊语,并在1954年由Joachimus Fortius Ringelbergius [8]首次用于一本书的标题。 我们认识的百科全书是从18世纪的字典开发的。 然而,它与词典不同之处在于,百科全书中的每篇文章都不是一个词,而是一个主题。 此外,它更深入地对待发表的文章,并传达与此相关的最相关的积累的知识。 因此,百科全书是人类知识的丰富,并被广泛认可。

大多数早期的百科全书都是使用纯文字绘制的,有些图纸或草图[8,33]。他们的演讲也有点平淡,不那么生动。这引起了当时印刷和照相技术的启动。二十世纪以来,多媒体技术的蓬勃发展促进了百科全书的发展。百科全书中的一个里程碑式的开发是微软的Encarta的生产,它是以CD-ROM发表的,并附有视频和音频文件以及高质量的图像。最近网络百科全书如Wikipedia通过利用超文本结构和用户贡献内容的属性出现[23,27]。虽然维基百科的偏见和不一致性有一些批评,但由于其内容的及时性,在线访问性和免费性,它仍然是最受欢迎的百科全书。迄今为止,维基百科包含超过1300万篇文章,其中约290万篇为英文

考虑到维基百科的成功,它是百科全书的最终形式,还是有其他方法来构建一个更有趣,有用和有吸引力的百科全书?

我们知道,Web 2.0内容,如Flickr,Zoomr,YouTube等,允许用户在社交网络中分发,评估和互动[29]。以Flickr为例,截至2009年6月,它包含超过360万张图像,许多图像都是高分辨率的。因此,Web 2.0的特点丰富了在线可用资源。那么有可能利用这些丰富的多媒体存储库来提供概念的动态含义以及通过自动组合多媒体环境的新概念?实际上像Everything,Encarta和Wikipedia这样的项目包括一些图像,音频甚至视频。但是,它们只出现在有限数量但并非所有条目中,并且它们可能不是最新的和最具代表性的。此外,演示文稿是一些繁琐而不吸引人的,因为它主要集中在多媒体内容的文本描述上,主要用作插图。

在本文中,我们提出了一种称为Mediapedia的多媒体百科全书,通过利用在线Web 2.0资源自动生成和更新。百科全书的新颖形式以更直观和生动的方式解释主题。 Mediapedia将其与其他百科全书区分开来的关键特征是:(1)呈现以视频的形式; (2)完全自动生成,(3)动态更新;和(4)整个框架是灵活和可扩展的,有助于更多潜在的应用。通过Mediapedia,用户可以根据其最常见的“意义”或“多样化”形式来选择观看概念,从而影响概念呈现的持续时间。当用户输入查询时,系统首先从Flickr中抓取不同的图像,并生成示例图像;然后将噪声标签过滤后的范例与维基百科摘要相关联;和最后,它自动生成多媒体百科全书,用于同步多媒体演示的概念。

虽然Mediapedia是有希望和希望的,但我们必须面对许多挑战。例如,图1说明了在维基百科上手动分组的Flickr的前60个图像伴随着消费者“苹果”的消歧条目。我们可以看到检索到的图像是多样的,有点嘈杂。维基百科的歧义页面标识了这个概念的不同感官或子主题。因此,我们必须从图像堆中找到示例,并将它们与相应的简明维基描述相关联。我们总结出如下挑战。 (1)如何在“典型”与“多样性”之间进行权衡[25,22]。换句话说,面对检索到的图像的列表,哪些更典型的表征概念,以及它们在多大程度上足以显示多样性。

(2)在哪里和如何发现相应的文本内容并修剪它们来描述图像样本。 (3)如何呈现多媒体内容(例如文字,图像和音频),以确保多媒体百科全书的一致性和优雅性。 (4)最后和最重要的挑战是为什么我们这样做呢?有没有基于这项工作的潜在应用?在下一节中,我们将回答“如何构建”问题来应对挑战(1),(2)和(3)。第3节评估Mediapedia的表现。我们在第4节描述了几个潜在的应用,并在第5节中总结了论文。

2.如何构建

本节介绍系统框架和涉及的算法。 图。 图2说明了Mediapedia提出的框架工作。 我们首先阐述图像聚类来制作样本。 然后,我们将讨论范例与维基百科的关联

将示例与Wiki上的用户贡献内容相关联[10,20,21,36]。 我们终于组合了样板和简明的描述,以制作出多媒体百科全书,其中以有吸引力和生动的方式呈现图像,抄本和背景音乐。 我们在以下小节中描述详细的算法。

2.1。图像聚类,用于生成概念的样例

考虑到Flickr的图像属性,自然出现的一个问题是如何有效地向用户呈现概念的代表图像?已经提出一些作品将检索到的图像组合成组,以改善用户体验[1,4,31]。然而,这些作品是基于传统的聚类算法,虽然它们可以产生更有组织的结果,但是如何向用户呈现集群仍然是一个挑战。从图像堆中找到样本的研究可以看作是解决问题的另一个步骤,其中最流行的方式可能是k中心算法,如[4,32,13]。 Frey等人提出的亲和力传播从一组数据点发现样本,已经发现比传统方法更有效[5,34]。也可以认为是解决图像样本问题的有效尝试[16,6],这与四个挑战中的第一个是一致的。在这里,我们利用亲和传播(AP)算法[5]获取演示文稿[37]。

我们将一组n个数据点表示为X = (x1,x2,... ,xn)和两个数据点之间的相似性度量为。聚类的目的是将数据点组合成m(mlt;n)集群,其中每个集群由X表示为“示例”。在AP算法中提出了两种消息。第一个是从数据点i发送到数据点k的责任r(i,k),这表示k作为点i的示例,考虑到i的其他潜在示例。第二个是从数据点k发送到数据点i的可用性a(i,j),j表示如何适当地点i选择点k作为考虑可能选择k作为其示例的潜在点的示例。

2.2。 范例协会维基百科页面

强化每个群集的范例的发现。

考虑到这些示例,我们必须面对第二个挑战,即在哪里和如何获取相应的文本描述,并为这些示例修剪。 我们知道,大多数上传的图像在社交媒体网络中包含大量用户贡献的标签。 然而,标签倾向于包含大量噪声,并且不足以帮助用户了解图像的固有含义。 直观的方法是通过利用exem-plar的标签将样本与维基百科相关联。 因此,我们需要首先去除嘈杂的标签,然后分析每个样本的剩余标签与其相应的Wiki页面的相关性[24]。 我们还需要通过汇总技术来修剪Wiki页面,以便在Mediapedia中简要描述。

2.2.1。嘈杂的标签过滤

由于我们的目标是通过对样本的标签进行杠杆化来描述维基百科中相应文本描述的示例,因此标签的质量应该是高质量的。换句话说,我们需要删除不重要的标签,如打字,数字,

模型ID和停止词等,从标签列表。 WordNet2是一个流行的词汇数据库,已广泛用于消除噪声标签[9,38]。这里我们在各自的单词组中列出标签,并删除WordNet中没有显示的标签。我们在噪音之后表示标签

过滤为T={tij,1lt;=ilt;=m,1lt;=jlt;=N(tj)},其中j表示组ti中的标签,N(tj)表示总数

ti中的标签数

然后,我们利用每个集群中的概念及其关联标签之间的归一化Google距离(NGD)[11]作为它们之间的语义关系的度量。由于NGD是Google搜索引擎返回的命中次数所产生的语义相互关系度量,因此可用于探索

不同概念 - 标签对之间的语义距离。给定q和标签tij的概念,它们之间的NGD被定义为:

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[27072],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。