使用文本数据的会议时间序列结构分析方法和状态转换的可视化方法外文翻译资料

 2023-04-13 10:28:45

英语原文共 25 页,剩余内容已隐藏,支付完成后下载完整资料


使用文本数据的会议时间序列结构分析方法和状态转换的可视化方法

冈田亮太郎·中西孝文2田中雄一3·小笠原裕3·大桥和弘

收稿日期:2018年6月3 日/接受日期: 2018年12月3 日

0hmsha,Ltd.和Springer Japan KK,Springer Nature 2018的一部分

摘要

在本文中,我们提出了一种使用文本数据的会议时间序列结构分析方法和一种状态转换的可视化方法。我们的方法使用会议的文本数据在时间序列中评估和可视化会议的收敛/发散。重要的是促进和审查会议以提高效率。因此,重要的是不仅要在会议期间审查对话中的最终协议和结论,还要了解对话过程。我们引入两个指标:新鲜度和代表性。我们的系统以新鲜度和代表性的组合对应四个象限(“停滞”、“探索'、“深化'和“共识建立')来表达会议的状态。通过使用这些指标进行分析,我们可以客观地找出对话的哪些部分停滞或推进了讨论。此外,可以将会议过程作为审查和促进的结构加以澄清,从而提高会议的效率。因此,我们实现了一个系统来实现这种方法。此外,我们将该系统应用于从由实际多公司成员组成的会议中收集的真实数据,并验证了其有效性。

关键词会议支持·发散与收敛·头语音信息·时间序列可视化

介绍

在日常的生产活动中,对话在交流信息和创造新想法方面起着非常重要的作用。在公司等组织中,人们有很多会议要交谈,因此会议时间占据了工作时间的很大一部分。根据NTT Data Institute of Management 的一项调查

m冈田亮太郎

rokada@glocom.ac.jp

文章最后一页提供了扩展作者信息

[1],在日本公司,开会时间平均占总工作时间的15.4%。此外,调查还要求参与者指出会议存在的问题。提到的重要问题是频繁的不必要的会议、持续时间过长的会议以及过多的会议。我们从这些事实推断,提高会议的效率是不够的,即使它们占用了大量的工作时间。

一般来说,提高会议效率意味着改进会议的各个部分,比如事先共享文件、把握时间、明确成员角色、任命协调人等。分析对话中的语言信息和评论流也很重要。

在会议的分析方法中,大部分研究都是关于人种学方法的[2]。在这些方法中,研究人员在会议期间不断观察参与者的行为。这些方法需要研究人员实际参加会议进行观察。一般来说,由于观察会议的分析成本很高,因此很难继续使用这些方法进行分析。此外,由于这些方法是一种基于人们观察的定性研究形式,我们目前无法通过计算机程序将其自动化。

另一方面,由于麦克风的改进和成本的降低,获取语音数据变得更加容易。此外,由于最近语音识别技术的改进,从语音数据中获取文本数据变得更加容易。因此,我们通过数据挖掘技术为这些文本数据设计了新的指标来满足效率。会议效率意味着消除无用的会议,缩短会议的持续时间,促进更有成效和更有意义的会议。

促进和审查会议对于提高效率很重要,不仅要分析会议的结论,还要了解导致决策的过程,从而提高效率。

冈田等人研究了在会议期间构建和可视化对话过程的方法。本研究的分析对象是从会议记录的语音数据中转录的文本数据。该系统将会议沿时间序列划分为多个片段,根据片段的相似性对片段进行聚类,从聚类中提取群组作为会议的主要议题。通过按时间顺序排列分析的片段,该系统可以可视化会议中的哪个时间点提出的主题类型。在这项研究中,该系统显示了同一组中频繁出现的单词。这些词被视为群组的话题,系统将每个片段中的特征词显示为当时所说的词。此外,他们定义了一个代表细分市场重要性的指标。从会议整体的观点来看,该指标表示为段的相似度。这种方法可视化并显示参与者谈论重要话题的时间和地点。

在本文中,我们提出了使用文本数据的会议的时间序列结构分析方法和状态转换的可视化方法。在该方法中,我们定义了两个量化指标:“新鲜度',侧重于所用词的新颖性,以及“代表性”,代表从会议整体来看的重要性,作为代表发散/收敛状态的指标。会议。此外,通过将这两个指标组合为轴,我们构建了一个

平面坐标系。对应坐标系的四个象限,我们定义了四个状态((“停滞'、'探索”'、“深化审议'、“共识建立')作为会议的状态。此外,我们提出了一种方法,将会议的进度可视化为坐标系上的状态转换。通过使用这些指标和状态进行分析,我们可以客观地了解讨论的哪些部分停满不前或达成了共识。此外,通过明确会议的流程结构,并用于审查和促进,我们将能够更好地提高会议效率。

本文组织如下。在“相关作品',我们描述了相关的研究。在“会议状态的定义',我们定义了'新鲜度'和代表性''两个指标,代表会议的发散/收敛状态。此外,通过组合它们,我们定义了会议的四种状态(“停滞'、'探索”'、“深化'和'共识建立')。在“公式-建议的方法'中我们描述了指标的具体推导方法的制定和“中定义的状态'会议状态的定义'。在“实验'中我们通过使用实际文本日志数据的实验来验证所提出的系统和指标。在“部署到实际系统',我们展示了一个包含硬件的真实系统原型的实现示例。在“结论',我们总结了这篇论文并讨论了未来的工作。

相关作品

在本节中,我们介绍相关工作。在“会议分析研究',我们展示了大会分析研究。在“发散收敛研究思维'',我们展示了关于发散和收敛思维的研究。

会议分析研究

分析会议的因素很多,例如讨论内容、发言量、语音频率特征、成员属性、发言者和听众的行为等。

人种学方法[2]在评估会议质量时考虑这些因素。这些方法基于对对话分析的综合观察,是很大程度上依赖于观察者经验的定性评价方法。

对话分析中也有一些定量的评价方法。专注于非语言信息的分析方法研究,例如参考文献(例如,[4-6])被积极使用。这些方法考虑非语言因素,例如话语和沉默的时间、语调、音高和音量以及语速,以评估对话的不同特征。这些非语言特征可以很容易地从语音数据中自动提取。

我们的方法是一种专注于语言信息的分析方法。近年来,由于机器学习技术的发展,语音识别技术的性能有了很大的提高。据预测,各种对话将在不久的将来积累为文本数据。当文本挖掘应用于这些数据时,就可以有效地回顾对话并分析其含义。

我们的方法使用语音识别技术从语音数据中提取的文本数据,并通过文本挖掘提取会议的特征。四种类型的评价—―定性评价、定量评价、非语言信息评价和语言信息评价一一相互补充。例如,当成员大声说话时,我们可以推断他们正在谈论重要的话题,因此这种洞察力可能有助于我们找到主要话题。语调是一种使用非语言信息的评价,话题转换是一种使用语言信息的评价。通过将它们结合起来,我们能够找到新的见解。

在不久的将来,随着语音识别技术的进步,从语音数据中提取文本数据将变得更加容易。因此,基于语言信息的方法将成为对话分析研究的主流。语言研究能够对内容和意义进行深入分析和评估。此外,通过积累会议日志的文本数据,我们将能够分析多个会议以及它们是如何连接的。可以查看项目进度并分析项目中每次会议的效率。

关于发散和收敛思维的研究

心理学家吉尔福德[7]介绍了人类思维过程有两类:发散和收敛的想法。吉尔福德提出了'智力结构''理论(SI理论)作为表达智力因素的模型。在该模型中,人类智能的要素通过'内容'、“产品'和'运营'三个维度的组合来表达。吉尔福德将'操作'分为'思维能力'和'记忆能力',将'思维能力'进一步分为'认知能力'、“生产能力'和'评价能力'。此外,他将''生产能万'分为收敛生产'和'发敛生产'。收敛生产意味着从已知信息逻辑地得出一个解决方案的思考,而不同的生产意味着提出许多解决方案的思考。

吉尔福德的SI理论中的发散思维和收敛思维是对个体智力的分类。奥斯本[8提出了“头脑风暴',这是一种在会议上使用的众所周知的方法。奥斯本定义了两个阶段,发散阶段和收敛阶段,作为会议的不同状态。在这里,这种分类是根据群体的智力而不是个人的智力提出的。头脑风暴是一种产生想法的会议方法,遵循四个原则。根据这些原则,成员尝试分享想法并根据彼此的意见产生新的想法。

  1. 拒绝批评。
  2. 欢迎疯狂的想法。
  3. 去数量。
  4. 结合和改进想法。

这些原则完全对应于发散思维,但头脑风暴并不是一种只对这种思维有用的技术。这种方法需要明确分离分歧和收敛作为会议的状态。发散性思维和收敛性思维相互干扰,因此,这种方法鼓励在产生想法时注重发散性思维,在评估和批评时注重收敛性思维。

Jiro Kawakita开发的KJ方法[9]是著名的收敛思维方法。它用于会议和研讨会,以帮助创造性地解决问题而闻名。首先,成员集思广益以产生想法并将每个想法记录在卡片上。然后,成员将卡片分组并在一张大纸上空间排列,并发现组之间和组内想法之间的关系。通过这种方式,KJ方法用于通过整合和理解想法的过程来创造新知识。这种方法也有意识地将发散和收敛阶段分开,就像头脑风暴一样。这些方法和研究表明,在促进会议(例如[10]].

然而,许多实际会议很少将发敛和收敛分清楚,而且会在小范围内反复出现。一野等人。[11]提出了一种基于非语言信息将会议状态划分为发散或收敛阶段的方法。本文显示了在应用传统会议支持系统时区分阶段的必要性。此外,许多传统的会议支持系统侧重于分歧或融合。

—些研究人员提出了各种指标来精确判断会议状态是发散阶段还是收敛阶段。—野等人。

[11]提出了五个特征作为会议时间序列分析的指标。这些特征基于非语言信息:发声频率、重叠语音时间的比率(%)、发声长度、切换停顿和不同类型说话者转换的频率。他们的系统使用这些特征和会议状态之间的关系作为训练数据,通过监督学习来确定会议状态。

在Tomi yama等人的研究中[12],他们的系统使用语言信息和非语言信息来区分发散和收敛。在系统上,要分析的最小单位是讨论的每个话语。在这里,在他们对语言信息的分析中,每个话语中新出现的词的数量对应了一个分歧指标。这与我们的研究中的想法相同。他们还提出了其他指标,例如在使用焦点话语和最后话语之间的匹配词数时对语言信息的分析。非语言信息的其他指标是话语长度、重叠时间、话语量和转头量。他们使用这些指标构建了通过监督学习来确定发散和收敛状态的模型。

在我们的研究中,我们还定义了新鲜度''这个指标,它代表了新出现词的数量的程度。Tomiyama等人的研究确定每个评论都是发散的或趋同的。但是,我们的研究恻重于与特定时间段相对应的细分,而不是每个评论。此外,我们的研究确定了会议本

我们还定义了一个指标,'代表性',即从整个细分市场来看,重点细分市场的重要性程度。通过结合'新鲜度'和'代表性',我们将会议的四种状态定义为表达讨论特征的状态。

会议状态的定义

在本文中,我们通过分析会议的语言信息,提出了一种具有时间序列的会议主题的可视化方法。在本节中,我们将会议的状态定义为分析结果。定义大致分为两步。第一步,我们将''新鲜度'和'代表性''定义为代表讨论是否发藏或趋同的指标。第二步,我们构建一个以两个指标为轴的平面坐标系,并在坐标系上表达讨论状态,我们定义了四种状态((“停滞'、'探索'、“深化'和'共识建立')“)通过结合两种状态和两种指标。

“新鲜度''和''代表性'的定义

在会议分析中,重要的是从讨论的分歧和收敛的角度来分析会议。在本文中,我们将'新鲜度''和'代表性'定义为区分会议状态分歧和收敛的定量指标。对于时间序列会议分析,来自整个会议的话语文本数据被分成具有相同时间长度的段。这些细分市场是本研究的基本分析单元,使用'新鲜度'和'代表性'两个指标来评价这些细分市场。他们表示会议的哪个时间段处于哪个状态。

新鲜

我们将'新鲜度'定义为一个指标,显示在该段中说出了多少新词。该指标直接对应于背离。发散阶段是引入大量想法的阶段。我们把之前段中没有出现过的词的数量作为新想法的数量。

代表性

我们将“代表性''定义为一个指标,该指标显示该部分中主要话题的讨论量。该指标对应于收敛。我们根据每个片段中出现的词来衡量片段之间的相似度,我们将与其他片段的相似度的总和定义为'代表性'。这是关注主题时分歧和趋同的指标。

主题的发散意味着设计丰富的想法并增加主题的多样性。一个主题的收敛意味着整合或选择想法并得出一个结论。从话题的角度来看,讨论一个重大话题的部分对应于收敛。使用这个指标,我们可以通过回顾会议来了解哪个部分有一个主要话题。

代表讨论性质的会议四种状态的定义

新鲜度是一个指标,它通过关注词来区分分歧和收敛,而代表性则关注主题。在讨论中,新词的出现可能与新思想的出现有关。但是,即使是与讨论的主要话题无关的闲聊,新鲜度也会更高。因此,即使没有出现新词,也并不一定意味着讨论接近尾声。针对这种情况,可以通过结合新鲜度和代表性两个指标来定义会议的状态。这些状态可以作为审查会议的有效指标。在这里,我们将新鲜度高的状态定义为'新鲜',将新鲜度低的状态定义为'正常'将代表性高的状态定义为'居中',将代表性低的状态定义为“环绕'。我们用新鲜度和代表性两个轴构建平面坐标系。此时,通过将两个指标的两种状态结合起来,定义了以下四种状态。

-话题:周围,词:平常→停滞-话题:周边,词:新鲜→探索话题:居中,词:新鲜→深化话题:居中,词:平常→建立共识

数字1显示会议的四种状态。

从发散思维和趋同思维的角

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[589606],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。