Powergrading: 一种能够扩大人们简答题打分工作成果的聚类方法外文翻译资料

 2022-11-03 10:28:37

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


Powergrading: 一种能够扩大人们简答题打分工作成果的聚类方法

摘要

本文将介绍一种新的机器辅助简答题评分的方式。这种方式沿用前人的研究成果,首先通过训练,得出学生的答案之间的相似性的度量,然后使用该度量,将学生们的答案进行聚类,形成一个个集群以及子集群。分组的结果将大大提高老师们的打分效率,使得老师们只需轻轻一点就可以给出大量的答案相应的分数,同时也给教师提供了大量的反馈信息,让教师能够了解到学生们的答案大致分为哪几类,并从中发现学生们对题意误解的倾向性;我们称这种对打分工作大有益处的方式为“Powergrading”。我们致力于研究在已知答案关键字的前提下能够自动执行的过程,希望能够进一步减轻教师们在这方面的压力。我们将通过打分的形式展示研究成果,期间只需付出极少的人力,并且除了我们的方法之外,还会使用一种基于LDA的方法,所用的测试用例则是从一个测试语料库中随机挑选的10个问题以及相应的698条回答。

简介

提高青少年受优质教育的机会是一个全球性的问题,在这方面,近年来最振奋人心的一项进展莫过于MOOCs的引进,所谓MOOCs是指massively online open courses,即大量的网上公开课,这一渠道使得成百上千的学生们能够在线参与课程接受教育。这种形式无疑对各种教学讲座的开展起到了积极作用,然而随之而来的对学生学习效果的评测则比较棘手,日常的小测验以及最后的考试该如何测评都是不小的挑战。比较直接又省事的一种解决方法是使用“多选题”的形式出题,但众所周知的是相比于多选题,填空和论述题在考察学生学习成果方面更具有意义。在许多领域中,简答题在这方面或许有更大的意义;关键是如何降低这类问题打分的开销。即使是在那些相对较小的只有近百人的班级中,更高效地给这类问题打分也会给老师们减负不少。

一种解决该问题的途径是给答案打出三种分——正确、错误、某一数值。在这一领域过去已经取得了许多重大进展。然而,在实际中这种解决方式具有一些非常关键的缺陷。首先,尽管这种打分方法已经取得了重大的进步,但它从未达到过万无一失,在各种实验中都或多或少出现过给错分的答案。第二,仅仅给出一个分数是不够的,在一些小班中,老师往往在打分后也会给学生讲授其答案错在哪里。在理想的情况下,MOOC模式也能做到这样的互动。第三,在简单的对错表象之下,或许隐藏着某种始终如一的学生们理解上的错误倾向。比如,或许有很多学生会误以为公民可以合法持有枪支是第一次对美国宪法进行修正的内容,作为老师正是希望能发现学生们的这种错误倾向,那样的话就能在课堂讲评时纠正学生们的这一错误。

为了解决这一问题,我们不妨换一个角度看问题。不是尝试着全自动地给答案评分,而是平衡人力与机器,使之共同发挥作用。尤其是我们不再尝试着去将一个个答案定为对或错,而是自动地将对应于同一问题的大量答案按照相似度分为一个个的组,组内也可再细分,然后让教师运用他们的专业知识去标记这些分组。我们发现某一特定问题的答案总是聚类形成若干个分组,每一组内都遵从着某种误解模式。一旦发现了这种分组,教师便可以很快地采用“分而治之”的策略完成打分任务——将整个分组定性为对或错,并且能够针对该组答案的特点给出充分的分析与反馈。这种打分方式也解决了曾经实验中屡次出现的一个问题,就是打分者给出答案的公平一致性问题。分组的结果也有助于老师了解学生们对于知识的掌握程度,以及学生们错误的倾向性。当不存在答案关键字时,我们计划不借助于任何问题答案的模板,自动形成分组;在有简单文本关键字的情况下,我们可以利用这个简单文本自动地产生一些分组。

尽管大体上看,powergrading这种分而治之的方法很有吸引力,但实际上它还存在诸多问题,比如学生们对于同一种观点的表述可能有千差万别。很多著名的文本聚类算法,比如通过潜在主题对文本进行分类的LDA算法,都尝试着从词语的分布上来解读这些答案间细微的差别,不过这种解读方法由于是基于词语对文本进行理解,所以有很大局限性。理想情况下,我们希望根据数据来对文本项进行分组,所谓“数据”指的是一组能够随着时间推移,我们的科技日益成熟,而不断发展的特征。我们认为应当通过训练一个分类器的方式来对这个距离函数进行建模,这个分类器要能够区分两个答案是否可以归为一组。

这个“距离函数”的概念是很微妙的。我们希望互为同义词的两者的“距离”较近,比如“the Congress”和“the house of Congress”我们就希望二者距离较近,相反“the Senate and the House of Representatives”要离二者较远,这样一来我们就能发现更精准的模式。由于我们是对答案之间的距离而不是答案本身的距离进行建模,我们可以使用能够体现语义或拼写差别的项间特征。We thus supply our classifier with the best available features that can account for所以我们给分类器提供尽可能优秀的,能够识别拼写错误,语气,以及其它变量的特征,并且我们希望今后能够添加更多更复杂的特征。

最后,我们想对我们这种基于集群的打分方法带来的收益进行评估。一般来说,评估一个特定的集群对于某项任务究竟有多大帮助是比较困难的,但是对这种方法的评估有一种非常便捷又精准的标准,那就是测量使用特定人力的情况下,打分者能够完成多少工作。一种采用了这一策略的方法是“提前规定人力进行打分”,也就是说经过定额的人工操作,获得尽可能多的效益;另一种方法是测量“达到完美标准还需投入多少人力”,即为了使全部打分结果正确使用者还需额外投入的操作量。在这一标准下,我们发现使用经过学习得到的相似度度量进行集群要比使用LDA或者单独地分类效果好得多。

相关工作

数十年的教学研究表明,评估对于机器学习是至关重要的。测试在各个方面对于学习过程都有益处:在引导学习的过程中它有利于思维的成型,在测试学生学习效果时它则是具有总结意义的。显然,由于有助于增强记忆力,测试一直在学习过程中扮演着重要的角色。此外,开放式问题的答案的构建对于巩固学习效果也有着极其关键的作用。

尽管多选题目前依然是主流的测试方式,它本身是具有很多缺陷的;详情可以参考Conole、Warburton(2005)、Bull、McKenna(2004)关于计算机辅助评估的综合实验。MCQ被广泛用于减轻打分负担,不过尽管MCQ的总结性价值是显而易见的,它的形成性价值则是有待商榷的(Davies, 2002; Warburton and Conole, 2003)。另外,回答MCQ需要对正确答案有足够的认知,不过这相比于组织答案算是一项比较简单的任务了(Laufer and Goldstein,2004)。对文章打分是另一种形式的评价,并且已被证实服适用自动打分规则,不过对文章打分并非形成性的,因为打分过程不能给予任何文章质量方面的反馈。

开放式问题的打分是很困难的,不过使用开放性问题进行测试兼具形成性和总结性。这个挑战吸引了学术界以及许多类似ASAP(自动学生赞助奖)赞助挑战(Hewlett Foundation, 2013).目前使用最广泛的开放式问题自动打分方法是基于答案的谨慎创建的(Mitchell et al., 2002; Leacock and Chodorow,2003; Jordan and Mitchell, 2009; Nielsen et al.,2009)。C-rater (Leacock and Chodorow, 2003)是一个可以讲关键字的同义表达识别出来的同义词辨别器。为了实现同义词识别,c-rater使用了包括拼写自动校正技术在内的十分复杂的语言处理机制。作者描述一个教师等指导业内人士对问题的答案建模的接口,这就意味着必须要投入大量的时间,因为只有导师将同一问题应用于许多班级甚至各个学期,最初付出的努力才显得有价值。据报道c-rater方法能够与人工评分达到84%的一致性,另外一项相关研究表明,在生理测试方面达到了84%,在心理测试方面则达到了93%。类似的,Jordan和Mitchell(2009)介绍了一种不需要任何自然语言处理(NLP)知识即可使用的写作工具。这些方法在执行打分操作前有一个前提,那就是需要将正确答案之间任何语言形式上的相似性进行编码,所以这些方法不能处理意料之外的,没有事先准备到的学生答案。最后,Pulman和Sukkarieh(2005)对比了人为提取的打分模式,以及机器基于简单文字特征经过学习后得出的打分模式,结论是人给出的打分模式能够取得更好的效果。

简答题打分也可以被形式化地表述为一项对比相似度的任务,即给出分数的多少是基于学生答案与老师答案之间的相似度。(Mohler and Mihalcea, 2009; Mohler et al., 2011;Gomaa and Fahmy, 2012, i.a.)。在Mohler和Mihalcea的文章中曾说道,给出21个问题,每个问题都有相应的30个学生答案,作者对比了许多分析词汇相似性的方法,涉及了基于知识的资源(wordNet)以及基于语料库的度量(Latent Semantic Analysis, or LSA),结论是使用LSA方法利用维基百科语料库中主题与问题相关的文章进行训练后得到的结果最好,正确率可达92%,前提是连续的分数被二进制化并且门限的设置依据是其它提出的问题的二进制标签。Mohler et al.(2011)发现对老师和学生答案的语法一致的节点的相似度进行编码,可以包含特征信息。一个使用这些特征的系统仅靠其本身是不能比基于词袋的标准表现的更好的,不过结合后提高的效率是可观的。类似的,Meurers et al.(2011)、Hahn、Meurers(2012)论证了使用语义分析来对比学生答案和标准答案(包括主体、客体之类的功能角色)能够达到86.3%的准确率,改良了那些仅使用较低层次校准方案的结果。

数据

尽管有许多可用的公开的关于学生问答的数据集,但其中绝大多数涉及的学生数量都太少(e.g., 30 in Mohler and Mihalcea, 2009),或者出题形式是多选题。为了研究我们先前提出的问题,我们需要提出许多开放性问题,与之相应的也需要大量的回答。因此,我们从美国公民调查中选择了20个问题,然后把它们分为两组任务递交给亚马逊土耳其机器人;最终我们从训练用的第一组收到了100份完整的回复,从测试用的第二组收到698份完整的回复。这20个问题中的一部分被特地挑选出来,因为它们代表着不同的答案长度,少则几个词,多则一两句。20个问题中比较特殊的几个人为打分的题目被列在了表1中,与之相应的平均答案长度以及该问题不管在任何语境下都唯一的答案都列在了表中。作为对分立训练的补充,为了能更好地防止答案偏离目标集,分类器的全部训练以及参数的设置都只是作为对这些问题的一点补充,这样一来它们不论是在回答的内容还是在回答者方面都是无一例外的。

为了实施我们提到的打分方法,我们需要为我们的数据准类两种标记。第一种用于区分语义上相同的答案组;这些答案用于训练项间距离的度量。这个标签是由某一位出题者完成的,标签本身是作为对前述问题的补充,为了确保目前学习的是一般情况而非针对某方面的问题或者是某类学生。当然,这样的标记是存在一定的主观性的,不过我们要论证的并不是有最精准的标记,而是要展示经过学习的模型能够提高打分表现。

表1 用于评估本文打分方法以及698条回复的数据特征的问题的子集

表2 打分者之间判断的差异以及与注解者的一致

第二类标记是绝对打分,对于问题的每个答案,非对即错。即便预先知道答案的关键字,问题自身的开放性也意味着一些回答是否正确取决于怎么解读它。例如有这样一个问题“为什么旗子上有13条纹路?”,答案关键字是“因为最初有13个殖民地”,对于这样的问题,如果碰到有学生回答“13个州”,我们应该认为他回答正确么?或者说我们应该认为“州”等同于“殖民地”么?对于这种情况,不同的老师有不同的打分倾向。一个有影响力的系统应该有助于教师快速地将答案收拢于他们想要给出的分数而不是尝试着使普通的标记最优化。因此我们展示三个打分者一致同意的一组分立的结果。

最后,为了让别的研究者也能从我们实验的数据中收益,我们已将这20个问题及其相应的答案关键字,还有全部的回复,以及每个注解者给出的分数成组地放在了因特网上,网址是http://research.microsoft.com/~sumitb/grading。

了解学生答案间相似性的度量

现有一组标记过的相近的答案(余下的答案没有被归到任何组内),我们想利用它们找到答案间距离的度量。我们将这个问题转化为通过学习构造一个能够区分两个答案是否相似的分类器,这个分类器得出的每一个数据项都给予两个输入的答案以及一个或正或负的标记。所得的分类器可以返回一个取值为(0,1)的“相似值”,我们可以认为“答案间的距离=1 – 相似值”。每一个答案通过标记都分到了特定的组内,接下来,我们要创建一个正样本和两个负样本:正样本包含当前答案以及某个同组的答案;第一个负样本包含当前答案和一个其他组的答案;第二对负样本是从不属于任何组的答案中挑选一个和当前答案构成一对儿,总共有596个训练样本。

可用作度量的特征

对于每一对标记过的答案,我们都创建一个特征向量来表示考察项之间的关系,然后我们就能利用这些特征向量以及标记来训练我们需要的分类器。以下是“项间特征”的特点:他们关系到a1和a2之间的关系,因为我们要找的特征要能够对我们判别项间是否相似有利。要注意的是,以下所有的特征都是在去除项中的停用词后计算得出的。我们也在被Mohler称为“问题降级”的过程中将问题中出现过的词汇当做停用词去除,我们发现这可以对测量学生答案与标准答案间相似度的工作带来非常显著的提升。

Mohler和Mihalcea(2009)展示了基于维基百科上的LSA分解法(Dumai

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[141299],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。