DataShot:从表格数据自动生成事实表外文翻译资料

 2023-04-08 22:26:02

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


DataShot:从表格数据自动生成事实表

摘要——具有生动的图形设计和有趣的统计见解的事实表在呈现原始数据时很普遍。它们帮助观众有效地理解与数据相关的事实并留下深刻的印象。然而,设计资料单需要数据和设计专业知识,并且是一个费力且耗时的过程。人们不仅需要深入了解数据,还需要生成复杂的图形表示。为了协助设计过程,我们展示了 DataShot,据我们所知,它是第一个从表格数据自动创建资料表的自动化系统。首先,我们对 245 个信息图示例进行了定性分析,以探索工作表和元素级别的一般信息图设计空间。我们在研究期间确定了常见的信息图表结构、表格布局、事实类型和可视化样式。基于这些发现,我们提出了一个事实表生成管道,包括事实提取,事实构成, 和演示合成,用于自动生成工作流程。为了验证我们的系统,我们展示了三个真实数据集的用例。我们进行了实验室内用户研究,以了解我们系统的使用情况。我们的评估结果表明,DataShot 可以有效地生成令人满意的资料表,以支持进一步的定制和数据呈现。

索引词——事实表、信息图、可视化和自动化设计

1 简介

事实表是数据、知识和信息的呈现形式,以简洁的方式从各种角度强调关键点[59]. 在资料表中,多个数据事实,它们是从数据中得出的数字或统计结果[48], 组合在一起讲述一个数据故事。通常采用可视化和信息图表组件来说明数据事实。利用引人入胜的视觉效果而不是大量文字的解释,事实表有助于简化人类吸收信息的过程[6].

然而,事实表的创建并不容易。它需要两种完全不同的专业知识,即数据分析和图形设计。一方面,事实表需要内容丰富、有趣、发人深省、有见地和可靠[22]. 要撰写资料单,用户需要探索数据,找到重要的数据事实,并将其组织成有趣的数据故事,这对大多数用户来说要求很高且负担很重。抓住这个机会,Power BI 等商业工具[2] 和谷歌表格[1] 引入了功能,通过自动推荐数据事实来帮助用户立即获得洞察力。但是,这些工具生成的数据事实没有逻辑联系,用户对数据的全貌一无所知。因此,他们仍然需要检查整个建议库以提炼出有意义的故事。另一方面,一份好的数据资料表不仅要内容丰富、有趣,还要美观。要创建概况介绍,Adobe Illustrator 等设计工具是专业设计师的常见选择。最近,研究人员改进了设计环境,以简化灵活和富有表现力的数据驱动信息图表的创建,例如 DDG[23], 数据插画师[28], 宪章者[40], 和 InfoNice[58]. 尽管这些工具或多或少地简化了数据绑定和编辑图形形状的过程,但用户仍然需要花费大量时间来自主考虑事实表的内容和设计选择,并通过反复试验手动进行数据绑定。错误。

在实践中,数据科学家和图形设计师通常一起工作,密切沟通,并反复设计以组成具有视觉吸引力的数据资料表。他们需要确定事实表主题、选择重要的数据属性、可理解的视觉表示,并调整整体视觉效果,从而导致大量沟通和琐碎的设计问题。

Y. Wang, H. Zhang, W. Cui, and D. Zhang are with Microsoft Research Asia.

E-mails: fwangyun, haizhang, weiweicu, and dongmeizg@microsoft.com

bull; Z. Sun, K. Xu, and X. Ma are with the Department of Computer Science and

Engineering, Hong Kong University of Science and Technology. Work done

during Z. Sun and K. Xursquo;s internship at Microsoft Research Asia. E-mails:

fzhida.sun, kxuakg@connect.ust.hk and mxj@cse.ust.hk

bull; *These authors contributed equally to this work.

Manuscript received xx xxx. 201x; accepted xx xxx. 201x. Date of Publication

xx xxx. 201x; date of current version xx xxx. 201x. For information on

obtaining reprints of this article, please send e-mail to: reprints@ieee.org.

DigitalObjectIdentifier:xx.xxxx/TVCG.201x.xxxxxxx对于没有数据和设计专业知识的普通用户来说,这样的任务实际上是不可能的[16]. 因此,大多数事实表仅由数据和设计专业人士创建也就不足为奇了。

这项研究的目标是显着减少创建事实表的工作量,并使一般用户可以访问事实表的创建。我们采用一种新方法来简化事实表设计过程:从表格数据自动生成事实表。我们选择表格数据是因为它被广泛使用并且为普通用户所熟悉。有两个主要挑战需要克服。第一个挑战是从数据表中提取数据事实并将事实组织成有意义的主题。生成的数据事实应该是可靠且有趣的。提取的主题应该是有意义的和可以理解的。第二个挑战是选择可以展示数据事实的适当可视化。要将数据内容转换为富有表现力的信息图表页面,事实表设计不仅应考虑视觉元素级,还应考虑工作表级表示。

为了实现这一点,我们提出了一个基于对获奖信息图表设计集合的形成性调查的事实表生成框架。该框架由三个部分组成,即事实提取、事实合成和视觉合成,对应于上述挑战。然后,我们实施了一个概念验证系统,该系统会自动创建信息图表资料表。给定一个具有多列和多行的表格数据集,我们首先根据具有重要性分数的列和行的统计特征提取各种数据事实。然后,我们将数据事实组织成不同的主题,并选择与主题最相关的事实。之后,我们可视化数据事实并添加描述。我们将一个主题的数据事实整理成一页,并统一了事实表的样式。用户可以根据自己的需要进一步定制数据资料表。

考虑到数据资料表的巨大设计空间,生成的资料表并不能涵盖所有的事实选择和可视化表示。相反,生成的事实表为用户探索、组织和设计数据事实提供了垫脚石。根据我们的候选设计,用户可以进一步定制事实表以满足他们的需求。本文的贡献有三方面:

  • 我们调查了一个屡获殊荣的信息图表数据集,以分析数据资料表的常见设计实践。
  • 我们用新技术描述 DataShot 框架,将数据事实组织成主题并将数据事实转换为事实表。为了验证我们的技术,我们实施了一个概念验证系统,以从表格数据中自动编写事实表。
  • 我们使用真实世界的数据来展示我们系统的使用情况,并进行实验室内用户研究以揭示 DataShot 的潜在优势。
  1. 相关工作

数据驱动的讲故事

数据驱动的故事讲述在最近的研究出版物中得到了广泛的讨论。数据驱动讲故事的研究是关于如何有效地传达数据并赋予数据发言权。

西格尔和赫尔[46] 确定了七种叙事可视化类型。后来的两次独立研究[26, 27] 讨论和总结数据驱动讲故事的未来研究方向。最近,其他研究人员[32, 41, 49] 进一步研究了围绕数据驱动讲故事的设计空间和理论。由于事实表也可以被视为一种数据驱动的故事讲述方式,我们对事实表设计的调查进一步扩展了这一研究方向。

创建数据驱动的故事讲述的研究可以分为两个分支。一个分支专注于创作系统以简化设计过程,假设用户已经对数据和他们想要呈现的内容有深刻的理解。这些系统通常是为特定类型的故事设计的,以满足用户的需求。例如,数据剪辑[4] 帮助用户轻松制作数据驱动的视频;省略[44] 和 ChartAccent[38] 启用动态注释以支持数据讲故事;时间线说书人[9] 是表达时间线叙述的工具。

数据讲故事研究的另一个分支更侧重于自动化系统和技术,以节省用户的工作量。这些系统将数据作为输入并为用户生成故事组件的组织。它们中的大多数针对特定领域或数据格式并相应地生成故事。例如,新闻视图[18] 是一个自动管道,用于从新闻文章中创建带注释的地图。语境词[20] 使用从股票新闻中提取的文本注释时间序列股票数据。王等人。[57] 使用动画可视化可视化 MOOC 时间变化,以突出显示时间跨度内不同类别的关键事件。布莱恩等人。[10] 通过针对时变数据的交互式探索过程创建自动注释的视觉摘要图像。一些研究人员研究数据内容的自动化组织。例如,赫尔曼等人。[21] 将故事构成研究成线性叙事呈现流程。 GraphScape 进一步构建了基于可视化相似度的图模型进行排序[24].

为了支持数据讲故事,DataShot 将自动生成的数据事实组织成围绕数据的主题。从大量的数据事实候选中,我们提取并排列从表中提取的主题,以帮助用户轻松地从不同方面获得数据集的概览。

可视化推荐

多年来,研究人员一直在探索可视化的生成。可视化生成系统通常旨在帮助用户交互式地探索数据并提供见解。麦金莱 APT[29] 引入了组合代数来枚举可视化编码。自动可视化推荐的研究长期以来一直使用规则和启发式来促进探索性数据分析。例如,Tableau、Power BI 和 Polestar[36] (原北极星[50]) 根据数据字段的用户规范推荐图表。用户需要通过将数据字段拖入 x 轴和 y 轴来指定数据字段。

最近,研究人员开始根据数据的统计特性推荐有趣的可视化,并从数据表中更深入地搜索任何可能的数据见解。例如,航海者[60] 和航海者 2[61] 推荐基于统计和感知测量的可视化图表; DataSite 通过一组启发式算法主动推荐数据分析结果[13]; Foresight 推荐在大规模数据的不同类型数据洞察中排名的数据可视化[14]; 唐等人。[52] 和 Vartak 等人。[56] 进一步推荐关于重要性或兴趣度度量的 top-k 见解;斯里尼瓦桑等人。探索如何用可视化来说明系统生成的数据事实[48]. Microsoft Power BI 和 Google Sheets 等行业系统[15] 还根据洞察挖掘引擎检测到的数据洞察力推荐可视化图表。这些研究是 DataShot 的形成性研究,我们的研究进一步支持用户通过事实表生成工作流程理解和呈现数据,包括事实提取、组合和可视化。

信息图创建工具

信息图表可以有效且引人入胜地传达数据、知识和见解。虽然信息图的形式和目标差异很大,但信息图的共同特点是数据可视化和文本描述相结合,并辅以图标和图像。主要由图形设计师创建,具有艺术性和装饰性的设计可以帮助数据信息快速广泛地传播。为了展示数据密集型信息,可视化旨在支持数据呈现。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[590350],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。