基于强大的特征词库的短文本分类外文翻译资料

 2022-11-16 11:26:20

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


本科生毕业论文(设计)外文翻译

题 目 基于特征词库的短文本分类

基于强大的特征词库的短文本分类

陈森

南京信息工程大学计算机与软件学院,南京210044

摘要数据稀缺是短文本的一个明显特征。在基于统计方法的短文本分类中,这一特征通常被认为是导致分类低准确率的主要原因。在过去的十年里,很多学者在短文本分类这一领域做了深入的研究,但是他们忽略了一些特征词汇语义的重要性,这也可能导致分类的低准确率。本文提出了一种建立强大的特征词库的方法来解决这一问题。这一词库的建立基于LDA文档主题生成模型和信息增益模型。通过加大特征词汇在这一词库中的权重,短文本分类的准确性可以得到提高。确切地说,本文提出的方法对文本进行了更为详细的分类,展示出了它的有效性。本文分别使用了提出的这一方法以及当前最新的两个文本分类方法:支持向量机(SVM)和朴素贝叶斯多项式对两个短文本数据块进行分类实验,结果证明这一方法在现有的技术水平上有了一定的提高。

关键词短文本,分类,数据稀缺,语义,强大特征词库,LDA文档主题生成模型

1.介绍

随着网页2.0的快速发展,信息的在线发布诸如推特(Twitter),公告栏系统(BBS),社交网络服务(SNS)以及以MSN为代表的瞬时通信技术已经成为信息交换的主流方式。在网络上被归类为短文本的信息都有着一些共同点,比如文本信息长度短和很高的用户使用度。短文本覆盖了许多不同的主题并且它的重要性日益上升。它为政府机关监视整个社会的情感倾向提供了一个新的重要资源。贸易公司可以通过分析这些文本信息了解消费者的喜好。短文本分类是隐藏信息提取的基础,因此,它可以被应用于包括民众观念分析、主题追踪和消费者偏好暗示在内的多种领域。

文本简短以及信息量的匮乏导致很难将一个短文本链接到某个特定的主题。更糟糕的是,由于语言的多样性,一个相同的主题可以用完全不同的方式来表达,这就减少了一个特征词汇出现在好几个不同的短文本中的概率。这样,由于数据的匮乏,基于特征词汇同时出现的短文本分类方法的准确性往往难以得到提高。

众多学者在克服短文本数据匮乏的问题上以及提高短文本分类准确性上都做了深入的研究。2006年Sahami和Heilman尝试通过引入基于网络核的方法来解决这一问题;2007年,Metzler等人提出了采用相似性测量的方案;2008年,在含蓄的主题基础上,Phan等人提出了短文本分类的基本框架。还有其他的一些有效解决方法比如基于维基百科和词网络的语义三层次扩展模型。但是,这些研究主要集中于解决短文本数据匮乏的问题上,他们并没有考虑到特征词汇在短文本分类上的决定性作用。

为了进一步提高短文本分类的准确性,我们必须要考虑到一些特征词汇语义的重要性。2009年,Koller和Friedman在概率的图解模型中提出了“结构 平均”的方法,受这一方法的启发,我们提出基于统计和语义分析的短文本分类新方法。首先,我们将通过大规模的数据采集建立一个强大的特征词汇库,大规模数据采集将基于LDA文档主题生成模型和信息增益模型。然后,我们将着重强调特征词汇库中的特征词汇。实验结果显示这一方法提高了分类的准确性。

2.相关工作

如上文所提到的,目前主要存在有三种短文本分类方法。一种是通过使用搜索引擎计算特征词汇的相似性,然后基于相似性进行文本分类的方法。第二种是应用世界性的知识库,比如维基百科和词网络等对特征词进行一个扩充并将特征词映射到它的概念上,从而减小数据匮乏的负面影响并改善短文本分类的成效。第三种方法是挖掘大数据中的潜在主题和基于主题模型的短文本,然后通过将特征词映射到主题的方法提高特征词同时出现的概率。

一些学者利用搜索引擎反馈回来的信息计算出了短文本中特征词汇语义的相似性。语义相近但表达方式不同的特征词汇被链接在一起。这些方法一定程度上解决了短文本中数据匮乏的问题。例如,不考虑语义的情况下,计算机会认为lsquo;artilleryrsquo;(大炮)和lsquo;tankrsquo;(坦克)没有关联。但实际上这两个词有很强的相似性。将lsquo;artilleryrsquo;和lsquo;tankrsquo;这两个词作为查询在搜索引擎中进行搜索,计算返回的两个片段的语义相似性,然后利用这个相似性进行短文本分类。由此,短文本分类的准确性在一定程度上得到了提高。这一方法的缺点是需要重复的对搜索引擎进行查询,这一过程所耗用的时间较多,所以不适合一些实时的任务。

Gabrilovich 和Markovitch证明了世界知识库会在一定程度上忽略语义的区别。他们使用了本体概念将特征词汇映射到外界知识语料库(维基百科和开放目录项目)。然后再使用本体的概念将文本特征进行扩展。2006年,Li等人通过词网络挖掘特征词汇之间的语义关系的方法计算出了短文本的相似性。2009年,Hu等人提出了基于维基百科和词网络的三层次结构模型,充分利用了内部语义和外在概念的扩展来提高短文本簇的准确性。这一方法通过开拓特征词汇的语义和挖掘短文本语义的相似性来提高特征词汇同时出现的频率。这些方法一定程度上解决了数据匮乏的问题,但它们在数据方面还存在进一步改进的问题并且增加了数据处理的复杂性。

2008年,Phan等人探索了基于LDA模型的大规模数据库的含义主题。并提出了利用含义主题来进行短文本分类方法的基本构想。主要的想法是通过结合由大数据库获取的含义主题和训练短文本数据集的方法来建立一个分类器。2010年,Quan等人在LDA的模型基础上测量出了不同主题的短文本中不同特征词汇的相似性,在Yahoo的问答数据集中的经验显示分类的准确性在一定程度上得到了提高。实际上,这些方法都是通过提高短文本中特征词汇同时出现的可能性的途径来提高分类的准确性。

类似地,我们的方法使用LDA模型在大数据集中挖掘含义主题。Phan和Quan等人通过将属于同一主题的特征词汇合并在一起的方法来解决数据匮乏这一问题。相反地,我们使用LDA模型来选择在每个隐含的主题中有着最大可能性的一部分特征词汇,然后删除在多个分类中都拥有最大可能性的特征词汇。最后,我们得到一个强大的特征词汇库。

2011年Bollegala等人提出了一种建立情感相似性词库的方法来找到不同领域中用来表达类似情感的词汇之间的关联。然后利用这一词库在分类时候为特征向量做扩展。与他们的情感相似性词库不同的是,我们的特征词库中的特征词汇具有很高的类别区分度。这些特征词汇是从网络下载的大数据集中采用LDA模型获取的。同时,与采用情感敏感词库来对特征向量进行扩展的方法不同的是,我们在特征词库中对特征词汇进行强调,这一方法并不会增加特征向量的长度。更重要的是,Bollegala等人提出的建立情感敏感词库的方法的核心是将表达相同情感的不同词汇编组。而他们找到这些词汇之间联系的方法是通过找到具有相同标签的文章中同时出现的特征词汇之间的联系。我们的方法虽然也是建立一个特征词汇库,但是我们的核心是挖掘特征词汇的语义区别并通过强调特征词汇在词库当中的作用和统计的方法来比较特征词汇之间语义的不同。

3.短文本分类的整体框架

现有的文本分类方法基本上分为两种。一是应用某一领域上的专业知识。另一种是使用统计的方法。当前主流的是利用统计的方法,这一方法基本不需要人力。然而,完全依靠统计的方法很难进一步提高分类的准确性。尤其是因为短文本所固有的数据匮乏的这一问题,它限制了通过统计的方法从中所能获取的信息量。因此,短文本分类的准确性远远低于常规文本的分类准确性。为了解决这一问题,我们结合了一些领域的知识和统计分析方法。整体框架如图1所示。

图1

基本上,我们的新方法由四步组成。首先,我们得到一个专业领域知识的数据集并且建立特征词汇库。这个专业领域的数据集必须足够大并且能够涵盖这个领域的所有特征。为实现数据集的平衡,在每个目录下的每一个数据采集都要限制在最大超链接层次下,例如深度为4。为找到强特征词汇,我们对数据集使用了LDA模型。根据特征词汇在不同主题中的概率,将同时在多个主题中拥有高概率的特征词汇删除。例如,在建立强特征词库时候,我们将lsquo;conditionrsquo;这一词汇删除,因为它同时在主题3和主题15中拥有很高的概率。我们通过从专业领域词汇中宽范围内筛选出强特征词汇来建立词库。这一过程的实现中用到了LDA模型和IG模型。

第二步是短文本的预处理,主要包括词汇分割,词性标签,词性选择,频率统计,频带选择以及特征选择。

第三步中,为了强调特征词汇的重要性,我们特意加大这些包括在强特征词库里的特征词的权重。公式5用来计算特征词汇的权重。

最后,我们得到一个基于机器学习技术的带有训练装置的分类器。然后我们就能利用这个分类器对测试文本进行分类。

我们所提出的方法中有两个关键技术:一是建立强特征词汇库,然后通过给词库中强特征词汇赋予更大的权重来权衡特征向量。使用我们的方法来代替传统的一部方法主要有两个好处。

一是我们通过LDA模型和从外部更大范围的数据库中挖掘词汇建立了更大更宽泛的特征词库。这一强特征词库还涵盖了一些仅用标记的训练数据所无法辨认的特征词汇。基于这个词库,我们可以减少被标签的训练数据缺点的消极影响。例如,当lsquo;destroyersrsquo;和lsquo;missilesrsquo;不出现或者仅出现一次在被标签训练数据时,然而却多次出现在外部的大数据库中,这样根据LDA模型我们将这两个词加入特征词库中。但是如果我们仅仅采用被标记的训练数据那么就无法辨别这两个特征词汇。在分类过程中,如果lsquo;destroyersrsquo;和lsquo;missilesrsquo;这两个词出现在一个待测文本中,那么基于特征词库我们可以将这个文本归入到军事这个目录下。但是如果采用传统的基于被标记的训练数据的方法,那么就不容易准确地将这一文本进行分类。

二是在分类的过程中,通过给特征词库中的词汇分配权重,我们提高了强特征词汇在特征向量中的重要性以及将特征词汇的语义信息结合到向量的空间模型中,从而提高了短文本分类的准确性。例如,就BBS中的一个文章来说,lsquo;destroyersrsquo;和lsquo;missilesrsquo;在词库中只出现一次,但是lsquo;computerrsquo;,lsquo;learningrsquo;和lsquo;trainingrsquo;等词出现了多次。通过我们提出的方法很轻易地就将这一文本归类到军事中去,但是如果用传统的方法就可能将其归到经济这一目录中去。总而言之,通过我们的方法可以减少被标注训练数据缺点的负面影响并且提高短文本分类的准确性。

为了更好的描述本文提出的方法,在此定义一些文中用到的术语:

定义 1 (强特征词汇)强特征词汇是指具有高度语义倾向并且在文本分类中起决定性作用的词汇。例如银行,黄金和信用等在金融这一目录中的作用。

定义2 (强特征词库)强特征词库由强特征词汇组成。这些特征词汇是从大数据库中属于某个集合的词汇中获取得到的。可被表示为,其中V代表强特征词汇的数量;T代表强特征词库。

定义 3 (该目录的贡献,COC)COC是某个特定的强特征词的信息增益IG除以所有特征词汇的信息增益平均值。可被表示为:

4.强特征词库的建立与强特征词汇的权重

LDA模型

LDA是一个生产型主题模型,它利用三个贝叶斯概率图实现文本主题的建模和信息的抽取。通过LDA模型我们可以提取出有限个主题来表示文本。这一方法减少了文本表达的空间维数,但依然保持文本的主要统计信息。LDA模型包括文本设置层,文本层和外部的术语层。在文本设置层的暗含主题之间的关系力由alpha;决定。暗含主题的概率分布由beta;决定。参数(alpha;,beta;)反映了文本设置层的特征。随机的向量theta;暗示了文本层中隐藏主题的概率分布。Z表示暗含主题在文本分配给每个词中所占的比重。W代表目标文本中的术语向量。生成型模型如图2所示。更多关于LDA模型的细节请参阅Blei等人在2003年发表的文章。

图2

本文,我们利用LDA模型从每个主题中抽取高频词作为强特征词汇。LDA模型中吉布斯采样被用来提取隐藏的主题和特征词。本文也使用了相同的采样方法。

假定一个集合中有N段文本,K个特征词。数据集D包含M个隐藏的主题Z。那么在吉布斯采样中主题Zm的概率可由以下公

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[29038],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。