英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
访谈记录中的情感分析:NLP定量分析的一种应用
摘要:
一对一的访谈和手工分析转录材料是研究人员深入研究以获得被采访人的详细见解的最常见方式。这些方式获取见解非常主观,往往缺乏客观性。在本文中,我们演示了一种方法和一个用例来实现客观的分析。我们提出使用自然语言处理(NLP)来进行情感分析并执行各种定量技术。通过发现模式和建立一个简单的线性模型来解释情绪模式的变化来获得见解在分析中非常有用。我们也提出了一种观点,主张使用这种技术来使研究人员有效有效地利用时间,以从偏离平均的异常访谈中获得最大价值。
关键词:数据挖掘,情感分析,监督学习,自然语言处理,词典
一、引言
在社会科学中,像一对一访谈这样的主要研究方法是一种被广泛使用的技术,通过该方法可以获得有意义的见解并得出较为全面的结论[1]。在以技术创新为主导的业务场景中,客户的需求获取是通过一对一的访谈来完成的,以获得所需的产品特性、定价和发布策略[2]。从个人访谈中能获得珍贵的信息。被记录成文本后,这些访谈内容有助于提供定性分析[3],[4]。然而,这样的分析是主观的,很大程度上是从作者或研究者的无意识偏见中得出的。除此之外,每次从新访谈中获取的信息都会大幅度减少,这并不是对研究人员宝贵时间的有效利用。
我们使用了自然语言处理(NLP,Natural language processing,)领域著名的情感分析技术,为获取个人访谈的解释和有意义的见解提供客观性支持,[5]。我们在社会研究、NLP和无目的分析等领域开发了这项技术。我们对个人在访谈中对每个问题的回答进行了情感分析,取平均值得出整个访谈的最终情绪。我们整理了一个访谈数据集,并对其进行了深入的性分析,以提高理解的准确性。通过此分析,我们了解了有关问题和人口统计学的情绪模式。 这种联系提供了更深入的见解,这些见解很难通过简单的定性分析来发掘。 通过将不合格的访谈标记为需要学习的模式,我们的方法可用于减轻高级研究人员的负担。 可以之后再对这些被标记的访谈进行详细研究,从而以最小的努力获得最大的收获。
二、背景和问题陈述
人们普遍认为千禧一代是独一无二的[6]。世界各地已经对该主题进行了多项研究[7] – [11]。我们进行了一项研究,通过收集来自多个不同行业的管理人员和千禧一代的想法,详细描述了印度背景下千禧一代的特点。首先,我们进行了文献调查以了解当前的观点,然后分别设计了单独的问卷调查表来收集千禧一代,高级经理和人事经理的观点。我们对五个行业总共进行了18次访谈。他们的观点是通过半结构化访谈获得的。转述记录经过处理以生成定性视图。定性分析提供了对千禧一代的详细理解。由于缺乏确定定性分析的标准化方法[12],我们讨论并认识到需要进行定量分析以增加必要的客观性和标准化。我们在这里介绍我们的研究方法和相关的定量分析,作为使用NLP技术和分析解决上述问题的方法。
三、研究方法
基于文献调查,我们创建了两组调查表,一组用于千禧一代,另一组用于经理们,以了解他们各自不同的观点[13]。 总的来说,让每个参与者回答了十个问题。 答案会被录音,并针对每个问题以及其他变量(所在行业,性别,职业经验,角色类别(千禧一代,高级经理,人力资源经理))进行转录。 这些步骤是手动执行的。 在记录的笔录上,我们使用NLP技术对每个答案进行了情感分析。如果出现对所有问题都没有任何价值的答案,则将其视为废弃的数据,并且不会将废弃的数据纳入计算。 得出每个参与者的平均情绪值,这些数据将会作为用于进一步分析的基准数据。 我们通过对每个参与者提供的答案进行情感分析来创建基准数据集,并将其与之前提到的其他变量结合起来。
我们使用描述性方法和可视化方法分析了此数据集,以增进我们的理解。 这种理解进一步促使我们建立假设和验证,以发掘影响情绪的因素并建立统计关系。 通过得到证明的统计关系,我们建立了一个线性模型来解释平均情绪的方差以及相关系数。 在每个阶段,我们都获得了新的观察值和结论。
四、数据集生成
总共,我们对五个行业进行了18次采访,涉及9位女性和9位男性。数据集由八名高级经理,两名人力资源经理和八名千禧一代组成。表一列出了访谈的分布情况,包括行业,性别和在组织中的职位。
调查问卷中的问题及其答案可以在数据集中获得[13]。我们对转录的答案进行了处理,以生成词干版本,这些词干提供了答案中必不可少的基本单词。然后,使用预构建的单词词典将每个基本单词划分为积极词汇或消极词汇。为了进行研究,我们使用了积极消极单词的意见词库[14],并使用qdap的R包[15]对其进行了处理。我们使用基于词典的方法是考虑到我们的数据集容量比较小。基于词典的分析方法对数据的数量和质量不太敏感[16],[17]。根据分类之后的积极单词和消极单词出现的数量,计算并归一化数量差异。该归一化的变量将视为每个回答表现出来的情绪值。情绪分析提供介于-1和1之间的单个数字。归一化变量的取值范围是-1至1,其中-1表示完全消极的情绪,而 1表示完全积极的情绪。值为0的变量被视为中立情绪。我们有10个问题的答案,因此采用平均法从可用答案中得出访谈的平均情绪。
五、描述性分析
在本节中,我们讨论使用描述性统计信息来加深对数据集的理解。 表一代表了被一对一访谈过的统计对象的全部分布情况。 我们使用此表提供数据集的摘要。 基于情感分析,表二展示了针对参与统计的对象的情感分析后情绪值的加权平均值,我们将其用于建立可视化图表。 描述性摘要和可视化图表有助于识别变量间的关联信息和建立假设。
从表一中很容易看出数据集有九个女性和九个男性这相同数量的两种性别的代表。千禧一代和高级经理也有相当的数量的代表人数,然而,人事经理的代表的数量比较少。从行业的角度看,自动化/IT、建筑和地理/IT都有差不多的代表数量。值得注意的是,千禧一代的代表主要是女性代表,而高级经理群体的代表主要是男性代表。
情感分析的结果在表二中。表二展现了基于参与人数的加权平均情绪值。很明显的一点是代表们的总体情绪是积极的。然而,在不同的行业,性别和职位中积极情绪的程度不尽相同。千禧一代是所有人之中最乐观的。女性群体的情绪总的来说比男性群体更加积极。自动化/IT行业是所有行业中除了由于统计的代表太少的医疗和银行之外最乐观的。图一展示了表二的可视化结果。
我们为可视化图表中所有数据点提供了不同的行业、性别和是否是千禧一代的标记,同时绘制了行业经验的平均情绪的坐标轴。从图1中,我们可以推断,随着行业经验的增加,平均情绪的积极性在下降,但依旧表现为积极的状态[7]。
六、构建假设和结果
在我们的描述性分析和可视化图表中,我们找到了需要通过建立假设检验的统计方法来验证的一种关系。假设验证对于将观测结果转化成具有实际统计意义的具体理论来说至关重要[18], [19]。情绪的变化与性别,行业,工作经验和是否是千禧一代有什么关联。下面的假设都是建立在表二和图一的基础上的:
假设1: 性别会调节情绪的作用,这使女性的积极情绪更加强烈。
假设2: 是否是千禧一代会有不同的调解情绪能力,千禧一代的积极情绪会更加强烈。
假设3: 从事不同行业的职业会有不同的调解情绪能力,自动化/IT行业的积极情绪会较其他行业更加强烈。
假设4: 职业经验会影响情绪调解,职业经验越浅的群体中积极情绪就会更强烈。
我们使用了方差分析技术[20]分析了4个假设中的多重相关性。表三提供了方差分析的结果,很明显,依据95%的置信区间,只有行业因素和是否是千禧一代与情绪值有明显的统计关系。因此,假设1和假设4被认为不成立,而假设2和假设3没有被推翻。但是我们没有足够的多的数据样本来对给定行业中的性别进行详细严谨的假设验证,反之亦然,以及进行其他类似的比较。
从图1中看,认为假设4不成立还需要一个更深入的讨论,但显然随着职业经验增加,情绪积极性会减少。我们使用Pearson积差相关法[21]观察到相关系数为- 0.745746,p值为0.0004。根据这个结果,很明显, 职业经验和情绪积极性的相关性在统计学上是明确的,但是表三的方差分析结果却展现了相反的情况。这一结果表明,职业经验并不是解释情绪变化的主导变量,尽管它们具有很强的相关性[22]。
总的来说,即使从事行业和是否是千禧一代的状态并不是影响情绪积极性的主要影响因素,但是假设2和假设3也并没有被推翻。
七、线性模型
为了进一步理解各个因素间的相关关系,我们建立了多个模型来证明方差解释能力。我们选择在回顾了文献[23] - [27]中的可用技术后建立四个模型。我们使用线性回归技术建立了线性模型,使用高斯族的单位连接函数[28],随机森林的500棵树和11个森林的[29],神经网络31-1配置和6权[30]的广义线性模型。所有的模型都使用了两个主要的输入参数:从事行业和是否是千禧一代的状态。表四提供了对这四种模型的分析结果,并调整了R平方精度[31],[32]。
我们分析了模型并根据两个主要原因而选择了使用线性模型。第一个原因是线性模型的精度是四个模型中最低的,因此过度拟合程度最小。其他精度较高的模型可能在小数据集中表现出过度拟合,而模型之间的偏差方差权衡也不清楚[ 33]、[ 34]。第二个原因是线性模型的可解释性[ 35]。线性模型有效地解释了模型间的方差和相关系数。
以从事的行业作为分类变量,以是否是千禧一代作为二元变量建立线性模型。这两个变量加在一起可以占据六个不同的位置,可以解释平均情绪[ 36]的72.15%的变化。表五给出了具有象征性的t值和p值的系数值。
A. 线性模型的解释
Intercept 0.1737代表汽车/IT行业中非千禧一代求职者的平均情绪值。千禧一代增加了0.1078的平均情绪。对于建筑业来说,非千禧一代和千禧一代对比非千禧一代的平均情绪降低了0.005。同样,地理/IT产业中,非千禧一代和千禧一代比平均情绪值降低了0.081。
B. 线性模型的结果和比较
表六显示了利用模型预测的结果及其与实际数据的比较,用来确定和了解模型的工作情况。线性模型对采集数据的精度为72.15%。该模型预测了所在行业和是否是千禧一代的状态下代表性类型的情绪,与现有数据非常接近。模型预测值与实际值的偏差在0.0377 ~ 0.0253之间,均方差为0.0286。
八、讨论
这种分析访谈的转录文本的定量方法是一种新研发的方法。整体来看,我们对五个行业进行了18次采访,涉及9位女性和9位男性。数据集由八名高级经理,两名人力资源经理和八名千禧一代组成。对所有人的访谈进行的情绪分析的结果显示了几乎所有人的情绪都是积极的;但是,与管理人员相比,千禧一代更加乐观,这为千禧一代的乐观本质提供了论据[ 37],[ 38]。方差分析结果清楚地表明了所在行业和是否是千禧一代对情感变化的影响。另外,随着工作经验的增加,情绪积极性正在下降,但是由于没有进行广泛的统计检验,因此暂时无法下定论。这个结果至少证明了千禧一代和管理者是通过不同的视角看待千禧一代的[39]。建立的线性模型提供了对情绪变化的详细解释,仅根据从事行业和是否是千禧一代就可以解释情绪变化的72%。
定量分析与定性分析略有不同,并指出了一个有趣的方面,即在同一个行业中,千禧一代的确与管理者不同,并且不同的行业对这种关系的符合程度存在差异。千禧一代在不同行业中具有不同的影响,因此需要在行业背景下理解千禧一代,以利用千禧一代的积极性在组织变革中带来的乐观情绪。同时,组织管理者还应该更加积极地看待千禧一代,并努力让他们适应共同成长。提出定性分析和定性分析相结合后得出的见解,可以提高基于访谈的研究的总体水平。
九、未来的计划
这种方法在验证访谈的真实性和确定详细调查中的异常值方面有潜在的应用价值。这种方法有可能减轻研究人员的负担,因为他们可以从不符合线性模型得出的总体趋势的异常采访记录中了解更多的信息。通过加权平均情绪分析,给出每个问题情绪值的权重,进一步完善本文提出的模型。利用层次分析法(AHP)[40]可以得到每个问题的权重。该方法被扩展到执行问题的详细分析,以获得更好的见解。作者计划增加数据点的数量,并进行加权平均分析。
十、结论
我们开发了一项创新的技术,应用NLP技术来获得个人采访文本记录中的情绪平均值。我们演示了如何使用定量分析从情感分析的结果中获得有意义的信息,从而验证假设并建立线性模型。我们用两个简单的变量建立了一个线性模型来解释72%的情绪变化。我们开发的方法可以用于发现偏离平均水平的异常访谈,以提高研究人员的学习效率。
感谢
这项研究的一部分是在印度班加罗尔的印度管理学院进行的。我们非常感谢Narendra Agrawal教授和Vasanthi Srinivasan教授(印度管理学院,班加罗尔,印度)提出了他们的宝贵意见和讨论,从而大大改善了手稿。我们还要感谢三位匿名的审稿人,他们的评论和观察使手稿得到了改进和完善。
参考文献
[1] P. Burnard, “A met
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[234112],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。