面向网络舆情的文本情感分析研究外文翻译资料

 2022-12-02 18:56:37

英语原文共 168 页,剩余内容已隐藏,支付完成后下载完整资料


第二章 情感分析中存在的问题

在本章中,我们定义了一个抽象的情感分析或观点挖掘问题。从研究的角度来看,这种抽象,使我们能够看到一组丰富并且相互关联的子问题。人们常说如果我们不能看懂问题的构架,我们也不可能理解问题。因此,定义的目标是抽象那些结构复杂而吓人的非结构化自然语言文本。这些共同的抽象框架,能够统一现有的多种研究方向,并使研究人员利用子问题间关系设计更强大和准确的技术性解决方案。从一个实际应用的角度来看,定义让开发者看到在实际系统中需要解决的子问题和相关的问题,以及这些子问题是如何相互联系的,整个系统应该产生什么样的输出。

不同于事实性的信息,观点和情感有自己的特点,换句话说,它们是主观的。因此从许多人的言论中挖掘观点就显得尤为重要了,因为一个人的观点对于整个系统而言并不是那么重要。由于互联网上有着大量的观点,对于这些观点进行总结是很有必要的。怎样去总结观点就是观点提取问题的定义,伴随着这个问题的定义,这一章节中我们还会讨论几个相互联系的概念,例如主观性和情绪。

请注意,在这一章或者说整个书中,我主要使用具体的句子和评论作为例子,介绍算法的思想和相关概念,但这些思想和定义适用于所有形式的一般性文本,不管是正式还是非正式的,例如新闻文章,Twitter(推文),论坛帖子,博客和脸谱网的帖子。由于产品评论是高度集中并且非常丰富,这些评论让我们比其他形式能更清楚地看到看来文本分析中不同的问题。从概念上说,他们之间没有区别。这个差异主要表现在表面上和处理的难度上。例如,Twitter的推文都非常短(至多140)字符)并且非常随意,以及这些推文中使用了很多的网络语言和表情符号。Twitter的推文,实际上更容易分析,由于长度限制作者通常是直奔要点。因此,对于推文进行情感分析往往更容易实现高准确性。产品评论也更容易,因为它们不会高度专注于无关紧要的信息。论坛讨论也许是最难处理的,因为那里的用户可以讨论任何东西而且可以彼此互动。就难度而言,有也是不同应用领域的维度。对于产品和服务通常更容易分析。社会性和政治性的讨论,由于话题和情感的复杂性,通常会有各表情,讽刺和反讽,让情感分析显得尤为复杂。

2.1 问题定义

如第1章开头所述,情感分析主要是研究观点所表达的情感是积极的或者是消极的。

因此,本节从这个角度来定义这个问题。

2.1.1 观点定义

我们使用下面的关于佳能相机的评论来引入这个问题(ID号唯一确定了一个句子,以便于描述):

发表自:约翰史密斯 日期:2011年9月10日

  1. 我在6个月之前买了一台佳能G12的照相机。
  2. 我非常喜欢这个照相机。
  3. 照相机找出的照片质量非常棒。
  4. 电池能够使用很长时间。
  5. 但是我的妻子认为这个照相机对她来说实在是太重了。

从这些评论中,我们可以注意到一些重要的观点:

1.

该评论有许多观点,既积极又消极,关于佳能G12相机。

句子(2)把佳能相机作为一个整体表达了积极的情感。

句子(3)对于照片表达出积极的情感。

句子(4)关于它的电池寿命表达积极情感。

句子(5)对于相机的重量表达消极的情感。

从这些观点中,我们可以得出以下结论:一个观点通常包含两个部分,一个目标g和对于目标的感情s。g可以是任何实体或只是实体的一个部分,s是一种消极、积极或者中性的感情。或者用户会通过数字评分表达自己的感情的强烈(例如从一颗星到五颗星)。积极、消极、中性被称之为情感(或者观点)的取向(或者极性)。

2.

例如,在句子(2)的观点的目标是佳能G12,和句子(3)中的观点的目标是佳能G12图像质量。目标也称为主题。这篇评论有两个人的观点,叫做观点持有者。句子(2)、(3)及(4)的观点持有人就是作者的评论(“约翰·史密斯”),但是对于句子(5),观点的持有人是作者的妻子。

3.

评论的日期为2011年9月10日。此日期非常重要因为人们经常想知道观点如何变化时间和观点趋势。

我们现在可以通过四元组来定义什么是观点

(g,s,h,t)

其中g代表观点的目标,s是用户的情感,h是观点持有者,t是用户发表观点的时间。

这个定义虽然很简洁,但在实践中可能并不容易识别。特别是针对产品,服务和品牌的评论。因为对目标的完整描述可能很复杂,甚至可能不出现在同一句话中。 例如,在句子(3)中,观点目标实际上是“佳能G12的图片质量”,但句子只提到了 “图像质量”。 在这种情况下,观点目标不仅仅是“画质”因为不知道这句话是在评估佳能G12相机图片的质量。在实践中,目标通常可以在结构化中被分解和描述多次,极大地加大了观点挖掘的难度。例如,“佳能G12的图片质量”可以分解为实体和实体的属性并表示为一对。

(佳能G12相机, 图片的成像质量)

让我们使用实体术语来表示被评估的目标对象。实体可以定义如下。定义(实体):实体e是产品,服务,主题,问题,人,组织或事件。 它用一对描述,e:(T,W),其中T是a部件,子部件等的层次结构,W是e的一组属性。每个部分或子部分也有自己的一组属性。

示例1:

特定型号的相机是实体,例如Canon G12。 它具有一组属性,例如图片质量,大小和重量,以及其他部件,例如镜头,取景器和电池。 电池也有自己的一套属性,例如电池寿命和电池重量。话题也可以是一个实体,例如,增税。它是由“穷人增税”,“中产阶级增税”以及“富人增税”所组成。

该定义基本上描述了实体的基于组成关系的层次关系。根节点是实体的名称,例如,对于上述评论中的佳能G12照相机。 所有其他节点是一个部分,用户可以在任何节点和节点的任何属性上表达观点。

示例2:

在上面的例子中,句子(2)将佳能G12相机作为一个整体表达出对于实体的积极的观点。 句子(3)对图像质量的属性表达积极的情感。显然,用户也可以对于相机的一部分或者组成成分表达观点。

该实体作为任何级别的层次结构需要一个嵌套关系代表它,这对于应用程序来说往往太复杂了。主要原因是因为NLP是一个非常困难的任务,识别实体的一部分和属性以及不同层次的细节是非常困难的。大多数应用程序也不需要这么复杂的分析。因此,我们将层次结构简化为两个级别并使用术语角度来表示部件和属性。在一个简化的层次树中,根节点仍然是实体本身,而是第二层(也是叶级别)节点是实体的不同角度。这简化过的框架是实际情感分析系统中通常使用的。请注意,在研究文献中,实体也被称为对象,角度也称为特征(如产品特征)。但是,特征这个词语往往会和机器学习的中的特征相混淆而在机器学习中特征表示的是数据属性。为了避免混淆,“角度”这个词语近年来已经变得越来越受欢迎,一些研究人员在特定应用程序还使用专业术语,属性和主题这些单词都是由可能的,也可以根据应用程序域约定其他名称。

定义(观点):观点是一个五元组,

(ei, aij, sijkl, hk, tl),

其中ei是实体的名称,aij是ei的一个角度,sijkl用户aij的情感取向,hk是观点持有者,而tl是时间观点是由hk表达的。 情绪sijkl可以是积极的,消极的或是中性的或者可以使用不同的强弱层次表达,例如从1到5,这种评分的方式被广泛运用于互联网上面。当观点是把实体当成一个整体的时候,“总体”就会作为一种特殊的角度。在这里,ei和aij一起表达出了观点的目标。

下面讲到的是对于上述定义的注意点:

1.

在这个定义中,我们有意地使用下标来强调五个五元组中的信息必须彼此对应。

也就是说,任何不匹配都是错误。

2.

五个要素是必不可少的。 缺少任何一个都是有问题的。一般来说。 例如,如果我们没有时间这个要素,我们会不能根据时间分析对实体的观点。这在实践中往往非常重要,因为两年前的观点和昨天的观点是不一样的。 没有观点持有者也是有问题的 例如,在这句话中,“市长是被城里的人所爱戴,但他受到了国家政府的批评”,两位管带你持有人“城市人民”和“国家政府”对于应用来说显然很重要。

3.

该定义涵盖了大多数的语义但也不可能涵盖所有的角度,因为这是非常复杂的。例如,对于句子“这两辆车的前视镜靠的太近了”,表达了对两部分距离的观点,它就没有涵盖观点的背景,例如“这辆车对于一个高个子的人来说太小了”,这句话这并不表示车子对所有人来说都太小了。“高个子”是这里的上下文。还要注意在原来的定义的是针对整个实体还是它的是一部分还是他的层次结构中的一个部分。每一部分都可以有其一组属性。由于简化,五元组表示可能导致信息丢失。例如,“墨水”是一个打印机的零件/组件。在打印机评论中,有人写道“这台打印机是昂贵的。”这并不表示打印机是昂贵的(表示价格的角度)。如果不关心任何的话墨水的属性,这句话只给墨水一个负面的看法,这是打印机实体的一个角度。但是,如果还想要的话研究关墨水不同角度的观点,例如价格和质量,墨水需要被视为一个单独的实体。然后,五元组代表性仍然适用于墨水,但部分关系需要考虑,在概念上我们也可以扩大代表性使用嵌套关系的观点的目标。尽管有限制,定义涵盖了一个观点的基本信息足以满足大多数应用。如上所述,太复杂的定义可以使问题难以解决。

4.

此定义提供了将非结构化文本转换为结构化数据的框架。上面的五元组基本上是一个数据库模式,基于此可以将提取的观点放入数据库表中。 然后可以使用整套数据库管理系统(DBMS)和OLAP工具来进行一系列定性,定量和趋势分析。

5.

这里定义的观点只是一种观点,称为一般性观点。 另一种是比较性观点,需要一个不同的定义。 2.3节将讨论不同类型的观点。 第八章定义和分析比较观点。 对于本节的其余部分,我们只关注一般性观点。为了简单起见,我们就把他们称之为观点。

2.1.2 情感分析的任务

根据定义,我们现在可以引出情感分析的目标和关键任务。

情绪分析目的:给出主观性文本d,找出d中的所有的观点五元组(ei,aij,sijkl,hk,tl)。

关键任务来自五元组的5个组成部分。 第一个组件是实体。 也就是说,我们需要提取实体。 该任务类似于信息提取中的命名实体识别(NER)。 因此,提取本身是一个问题。 提取后,我们还需要对提取的实体进行分类。 在自然语言文本中,人们经常以不同的方式写同一个实体。 例如,摩托罗拉可能被写为Mot,Moto和Motorola。 我们需要认识到它们都是指相同的实体。

定义(实体类别和实体表达式):实体类别表示特定实体,而实体表达式是表示实体类别的文本中出现的实际单词或短语。

每个实体类别(或简单实体)应在特定应用程序中具有唯一的名称。 将实体表达式分组为实体类别的过程称为实体分类。

现在我们来看实体的不同角度。 问题基本上与实体相同。 例如,相机拍摄出的图片。 因此,我们需要提取不同角度表达式并将其分类。

定义(不同角度类别和不同角度的表达式):实体的一个角度类别表示实体的一个独特角度,而一个角度的表达式是表示不同角度类别的文本中出现的实际单词或短语。

每个角度类别(或简单角度)也应在特定应用程序中具有唯一的名称。将不同角度表达式分成不同角度类别的过程称为角度分类。不同角度表达式通常是名词和名词短语,但也可以是动词,动词短语,形容词和副词。以下定义在实际中是非常有用的。

定义(显式角度表达式):名词和名词短语的角度表达式称为显式角度表达式。例如,“相机的图像质量好”中的“图像质量”是一个明确的角度表达。

定义(隐含角度表达式):不是名词或名词短语的角度表达式称为隐式角度表达式。例如,“昂贵”是“这个相机是昂贵的”的隐含的角度表达,这意味着价格的角度。许多隐含的角度表达式是用于描述或限定某些特定角度的形容词和副词,例如昂贵(价格)和可靠(可靠性)。它们也可以是动词和动词短语,例如“我可以轻松安装软件”。“安装”表示可安装性的角度。隐式角度表达不仅仅是形容词,副词,动词和动词短语;它们也可以是非常复杂的,例如“这个相机不能被容易地装在外套的口袋里”。这里,“适合外套口袋”表示尺寸或形状角度。

在观点定义的第三部分是情感。这个任务对这一角度的情绪是否是积极的,消极的还是中立的。 第四部分和第五部分分别是观点持有人和时间。 他们还需要被提取和归类为实体和角度。 请注意,观点持有者也被称为观点来源可以是表达的人或组织的一个观点。 对于产品评论和博客,观点持有人通常是发布的作者。观点持有者对新闻文章更为重要,因为他们经常明确表示持有观点的个人或组织。然而,在某些情况下,识别观点持有人在社交媒体中也是重要的,例如,广告客户或引用公司广告的人的观点。

从上述的讨论中,我们可以定义实体的模型和观点的模型。

实体模型:实体ei由自身表示为一个整体,并且有一组角度Ai = {ai1,ai2,...,ain}。 ei可以用其实体表达式{eei1,eei2,...,eeis}的有限集合中的任何一个表示。 实体ei的每个角度aij可以用其有限的一组角度表达式{aeij1,aeij2,...,aeijm}中的任何一个来表示。

观点模型:观点文件d包含对一组实体{e1,e2,...,er}的观点,以及某些特定时间的一组观点持有人{h1,h2,...,hp}的一个角度的观点。

最后总结一下,给出一组主观性文档D,情感分析分析包括以下6个主要任务。

任务1(实体提取和分类):提取D中的所有实体表达式,并将同义实体表达式分类或分组为实体集群(或类别)。 每个实体表达集群表示一个唯一的实体ei。

任务2(角度提取和分类):提取实体的所有角度

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[25605],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。