基于上下文的正则化短文本情感分析方法外文翻译资料

 2022-11-22 11:04:24

A Context-Based Regularization Method

for Short-Text Sentiment Analysis

Zhang Xiangyu1, Li Hong1*, Wang Lihong2

1School of Economics and Management, Beihang University, Beijing, China

1E-mail: {zhangxiangyu, hong_lee}@buaa.edu.cn

2National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing, China

* Corresponding author

Abstract—Sentiment analysis is an important task in natural language processing, which has promises great value to areas of interests such as business, politics and other fields. The prevalence of the internet has caused people to prefer expressing their opinion and sentiment on the Internet via methods such as tweeting on social media and commenting on products. However, the discourse of users on social media are usually short either due to limitations on post size or time limitations of the users. What emerges from these features is that the grammar used in these posts and the word meanings are flexible, which makes sentiment analysis difficult. Therefore, sentiment analysis is an important yet challenging task. In this paper, we propose a context-based regularization classification method for short text sentiment analysis. Specifically, we use contextual knowledge obtained from the data to improve performance of the sentiment classification. In this paper, the contextual knowledge includes two parts: word-sentiment knowledge and word-similarity knowledge. Moreover, we propose methods to calculate the sentiment of the words and the similarity between words on semantic level. Specifically, on the one side, we use a TRSR method based on the TextRank algorithm to rank words in each sentiment sample to determine the sentiment polarity of each word. On the other, we calculate the similarity between words according to word-embedding. In this way, we can determine the similarity between words and the sentiment polarity of a word. We then incorporate the contextual knowledge as a regularization into a supervised classification framework, which then converts into an optimization problem to train a more accurate model. Experiments on both Chinese and English datasets outperform than other baseline approaches, which demonstrates our method to be stable and effective.

Keywords—sentiment analysis; regularization; contextual knowledge; short text

  1. INTRODUCTION

With the prevalence of the Internet, more and more people prefer to express their opinion and sentiment on the Internet, using conventions such as tweeting on social media, commenting on products, etc. User expressions and their impact on organizations have gained increasing attention in recent years. In general, userrsquo;s expressions on social media have two important characteristics. Firstly, those expressions are usually short due to the limits of the imposed by social media platform (either implicitly or explicitly) and the flexibility of accepted internet communication. Whatrsquo;s more, in the environment of anonymity prevalent on the internet,

people are more likely to express their real attitudes and sentiments than in a face-to-face conversation. Thus, short text modes of communication reflect the real sentiments and opinions of users. Additionally, analyzing user sentiment is a popular and valuable task in practice and has an immense impact on a wide variety of fields. A series of works focused on the sentiment analysis of short text has been done in recent years and researchers apply the resultant sentiment analyzing methods into many real-world situations. Ringsquandl and Petković in one study and OConnor et al. in another [1,2] analyzed twitter user sentiment to predict a political election according to user tweets about the topic of the election. Meanwhile, Jianfeng, et al. [3] predicted stock market price via analyzing the public sentiment.

From the above research, we can see that sentiment analysis is usually treated as classification problem within a particular domain[4]. This is because sentiments will be different depending on the domain. For example, the sentence, “itrsquo;s so fast”, is treated as a positive comment about a carrsquo;s potential to accelerate, but it would be a negative comment when a user evaluates drain rate in a battery. So, sentiments of the short text vary depending on contextual information, and it is necessary to consider contextual information. Inspired by these observations, it is helpful to combine contextual knowledge to improve classification.

In this paper, we propose a new context-based regularization method: add the word-sentiment and word-similarity as regularization terms to a linear classification model. It has been shown that combining the information extracted from labeled and unlabeled context can improve a classification result. Different from previous research, we mined contextual knowledge on a semantic level. Short texts are usually flexible, and words are interchangeable. Especially when people express their feelings, they might prefer to use morphs or Internet language, such as lsquo;gr8rsquo; which is shorthand for lsquo;greatrsquo;, or the spelling of the word lsquo;sorsquo; with extra orsquo;s in order to express awkwardness or another, similar emotion, ex.lsquo;sooooooorsquo;. This flexible and creative nature common in short text causes issues to attempts to analyze them as it is unreliable to depend on a dictionary or simple statistics to capture the intended meaning. Therefore, it is important to capture information on semantic level. Considering these arguments, we propose to gain contextual knowledge on a semantic level. The main contributions of this paper are summarized as follows:

  • We propose a new word sentiment calculating method termed as the TextRank-Sentiment Ratio(TRSR) method. More specifically, using TextRank m

    剩余内容已隐藏,支付完成后下载完整资料


    基于上下文的正则化短文本情感分析方法

    Zhang Xiangyu1, Li Hong1*, Wang Lihong2

    School of Economics and Management, Beihang University, Beijing, China

    E-mail: {zhangxiangyu, hong_lee}@buaa.edu.cn 2National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing, China * Corresponding author

    摘 要

    抽象情感分析是自然语言处理的一项重要任务,对商业,政治等领域的利益领域具有重要价值。互联网的盛行使人们倾向于通过在社交媒体上发布推文和评论产品等方式在互联网上表达他们的意见和观点。然而,社交媒体上用户的话语通常很短,这可能是由于邮件大小的限制或用户的时间限制。从这些特征出现的是,这些帖子中使用的语法和词义是灵活的,这使得情感分析变得困难。因此,情绪分析是一项重要且具有挑战性的任务。在本文中,我们提出了一种用于短文本情感分析的基于上下文的正则化分类方法。具体而言,我们使用从数据中获得的上下文知识来改善情感分类的表现。在本文中,情境知识包括两个部分:词情感知识和词相似知识。此外,我们提出了在语义层面上计算单词情感和单词之间相似度的方法。具体来说,一方面,我们使用基于TextRank算法的TRSR方法对每个情感样本中的单词进行排名,以确定每个单词的情感极性。另一方面,我们根据词嵌入来计算词之间的相似度。这样,我们就可以确定单词之间的相似性和一个单词的情感极性。然后,我们将上下文知识作为正则化纳入监督分类框架,然后转化为优化问题来训练更精确的模型。中文和英文数据集的实验优于其他基线方法,这证明了我们的方法是稳定和有效的。

    关键词 - 情感分析;正规化; 情境知识; 短文本

    1、介绍

    随着互联网的普及,越来越多的人喜欢在互联网上表达他们的观点和看法,使用诸如在社交媒体上发布推文,评论产品等惯例。用户表达及其对组织的影响近来越来越受到关注年份。一般而言,用户在社交媒体上的表达具有两个重要特征。首先,由于社交媒体平台强加的限制(隐含或明确)以及接受的互联网通信的灵活性,这些表达通常很短。而且,在互联网上流行的匿名环境中,

    人们比面对面的谈话更可能表达真实的态度和情绪。因此,短文本的交流方式反映了用户的真实情感和意见。此外,分析用户情绪在实践中是一种流行且宝贵的任务,并且对各种领域都有巨大的影响。近年来,一系列关注短文本的情感分析的作品已经完成,研究人员将由此产生的情感分析方法应用于许多现实世界中。 Ringsquandl和Petković在一项研究中和OConnor等人分析了twitter用户的情绪,根据用户关于选举主题的推文来预测政治选举。同时,剑锋等人通过分析公众情绪预测股票市场价格。从上述研究中,我们可以看到,情感分析通常被视为特定领域内的分类问题。这是因为情绪会因域而异。例如,“这么快”这句话被认为是对汽车加速潜力的积极评价,但当用户评估电池的消耗率时,这将是一个负面评论。因此,短文本的情绪因上下文信息而异,因此有必要考虑上下文信息。受这些观察的启发,结合上下文知识以改善分类是有帮助的。在本文中,我们提出了一种新的基于上下文的正则化方法:将正则化项的词情感和词相似性添加到线性分类模型中。已经表明,组合从标记的和未标记的上下文中提取的信息可以改善分类结果。与以前的研究不同,我们在语义层面挖掘了语境知识。短文本通常是灵活的,而文字是可以互换的。特别是当人们表达自己的感情,他们可能更愿意使用变种或网络语言,比如“GR8”这是速记“伟大”。这种短文本中常见的灵活性和创造性本质导致了试图分析它们的问题,因为依靠字典或简单的统计数据来捕获预期意义是不可靠的。因此,捕获语义层面的信息非常重要。考虑到这些论点,我们建议在语义层面获得语境知识。本文的主要贡献总结如下:

    我们提出了一种新的词语情感计算方法,称为TextRank-Sentiment Ratio(TRSR)方法。更具体地说,使用TextRank模型[5]对不同情绪标记的数据集中的单词进行排序,单词的情感极性取决于单词具有较高排名值的集合。 我们使用Word2vec来计算单词的语义相似度,并将其作为正则化约束条件添加到模型中。 我们将上述正则化结合到我们的框架中,并且对真实数据集的实验证明了所提出的正则化方法在真实世界数据集上的有效性。我们的方法的最佳性能提高了比基线高4.5%的准确度。在本文的其余部分中,我们将在第二部分介绍一些当前关于情感分类和影响现有方法的约束的研究。接下来,我们将详细描述我们的方法。第四部分讨论了验证我们方法有效性的实验。最后一节是关于方法,含义和潜在研究问题的讨论。

    2、相关的工作

    情绪分类近年来被广泛研究。分类模型的起源是基于情感词典,利用情感词汇中的词汇来判断过度的情绪。在撰写本文时,已经开发了许多情感词典,例如英语的SentiWordNet和中文的HowNet,都已应用于许多情感分类问题。根据文字情绪,土耳其的科学家使用无监督方法来计算PMI指数来评估句子情绪。 Kim和Hovy [7]通过结合话题关键词的个体情绪并将句子结构中的新闻话题提取出来,为给定的句子分配一个情感类别。 Sentistrength [8]结合语法规则和拼写风格,除了词汇识别情绪和情绪强度。但这个词的情绪通常会随着不同的情况而改变。对于不同的领域分类任务,静态情感词典过于笼统。此外,社交媒体上的简短文本更加灵活,新词汇和语法快速生成。这导致基于词汇的方法在社交媒体的短文本风格上表现不佳。出于这个原因,机器学习方法在情感分析领域很受欢迎。在社交媒体领域,应用了监督和无监督模式。庞[9]是第一个使用监督模型对情绪进行分类的研究人员。他比较了三种分类算法:朴素贝叶斯(NB),最大熵模型(ME)和支持向量机(SVM)的有效性。此外,本研究证明情感分类比一般分类任务更难。为了提高情感分类任务的有效性,研究人员尝试在监督模型中添加各种特征。表情符号,主题标签[10],网址[11],主题[12]和链接关系[13]都可以是

    分类模型的特征以及那些增加的特征提高了模型的性能。然而,监督分类需要大量的标记数据,因为获得标记数据的成本很高,并且未标记数据很容易获得,研究人员使用半监督方法或无监督方法对情绪进行分类以减少对标记数据的依赖[11]如标签传播,联合培训和主动学习等。例如,基于共同训练,Wan [14]关注跨语言情感分类,使用标记的英语数据集来训练中国情感分类模型。 K Cheng,et al。 [15]使用用户链接信息。利用社交网络,链接关系分为两种情感链接,即正面链接和负面链接。他们将明确的情感信号以文本方式加入,并将来自社交网络的情绪信号汇编成无监督情绪分析的一致模型。实验验证了这种方法,但在现实世界的网络中,大部分网络都是未签名的,这在实践中造成困难。除了半监督方法之外,还有一些关于监督情感分类的情境知识正规化的研究[16,17,18]。通过获取上下文知识来提高分类结果是一种有效的方法。 Wu,Song和Huang [16]考虑词汇共生,并用PMI来计算词汇相似度。 Tai,Jen和Kao [17]提出从目标领域的大量未标记样本中提取各种背景情感知识,并将其作为情感表达之间的情感关系。他们提出了三个约束:语法,共现和基于词典的方法。吴方兆等[18]使用基于图的半监督标签传播方法来计算词的相似性。然而,由当前研究强加的语境知识主要依赖于词语和词典的共同出现,忽略了语义关系。因此,在本文中,我们将语义语境知识加入到我们的模型中,以更好地适应现实世界的短文本。

    3、基于上下文的相关知识

    已经证明,对于NLP任务来说,加入基于上下文的知识生成是有效的。在本节中,我们将使用两种情境知识来约束模型,词语情感知识和词语相似性知识;并将解释如何详细确定正规化。此外,我们将介绍如何结合正则化和分类模型。

    A.单词情感知识首先,为了提高准确性,我们在分类模型中增加了单词情感作为正则化。我们使用词作为分类模型的特征,因此在一定程度上,词级情感可以决定句子级别的情绪。事实上,如果在不同的环境中应用单词,单词情感极性将会发生变化,例如,如果用于评估汽车,“快速”是一个积极的词,但在描述手机电池放电时变成否定词。此外,在某些情况下,某些中性词语会具有特定的情绪,例如在最近的美国大选中,“电子邮件”可被视为代表否定意义的词,因为希拉里的电子邮件泄漏。基于这个假设,计算特定领域中的词汇情感已成为必要的任务,而传统方法根据情感词典是无效的。在本文中,我们使用TRSR(TextRank-Sentiment Ratio)算法来计算字词的情感极性。受PageRank启发[19],TextRank [5]是一种基于图的文本排序和关键字提取算法。文本被划分为一个单一的联合(单词或句子)作为图的顶点,边的创建基于窗口大小设置中的单词共现关系。 TextRank并不需要事先对大量文档进行训练,因此该算法由于其简单性和有效性而被广泛使用。 TextRank的公式如下:

    在等式(1)中,????ℎ???是单词i和j之间的边权重,集合((??)定义与单词i相连的单词。 参数d是概率词有联系。 这里我们设置基于文本的图文本是无向和不加权的,在这种情况下,顶点的出度等于顶点的入度,以及单词i和j之间的权重:????ℎ???= 1。与PageRank相同 ,这个词的价值取决于它的程度。 在本文中,我们将TextRank算法与句子情感极性相结合,将单词排序为不同的情感极性集。 单词们的情感分析计算方法如下:

    具体而言,我们根据他们的情感标签,正面部分和负面部分将文本分为两部分。然后,我们分别计算两个部分的字Text的TextRank值,在正部分表示为?? (??)为??的秩值,negative-(??)表示在负部分的rank的秩值。然后我们使用两个值比率的对数值p(??)作为单词情感值。如果p(??)大于阈值alpha;,则这个词将是一个正词,如果p(??)小于阈值-alpha;,则它是一个负词。

    B.词类相似知识其次,我们计算词之间的相似度。我们使用单词分布表示来描述单词,将单词映射到低维(例如200或300维)。以往的研究主要集中在统计信息作为相似性计算指标,忽略语义信息。与以前的方法不同,我们使用的分布式表示捕获句法和语义信息,它们可以计算出更接近实际的更准确的相似度。

    在这里,我们使用Google创建的Word2vec工具来训练单词嵌入[20],然后使用单词嵌入矢量来计算余弦相似度。表示单词i的wordembedding是??,那么单词i和j之间的相似度公式如下:

    我们计算单词i和其他单词之间的相似度。由于每对词有相似性,因此我们设置一个阈值beta;来过滤出低相似性对。 如果单词之间的相似度大于阈值beta;,那么我们选择单词i和其他单词之间的最大值。 假设单词i和j之间的相似度是最大值,那么单词i和j被认为是一对。 这里我们用矩阵?isin;??*?来存储相似度。 我们设置对角元素???= 1,???= -1,其中单词i和j是一对。 矩阵的其他元素是零。 所以,在矩阵?中,每行的非零元素??和??表示单词i和j是一个相似的对。

    C.模型在实例化之前,我们设置了表示模型的一些变量。 样本数为N,单词的大小为M.这样,定义isin;,isin;??*?为训练特征集,?isin;{-1,1}?* 1为标签集。 ??是X的第i行,??isin;{-1,1}是第i个样本的标签。 ?isin;??* 1是线性分类参数,??isin;?,??表示从模型中学习到的第i个词的情感权重。 ?isin;{-1,1}?* 1表示为单词情感向量,??isin;?表示第i个单词的情感极性。 如果第i个字是正字,则??= 1,否则??= -1。 ??*是相似度矩阵i的第i行。 基于上述背景知识,我们提出了一个联合分类模型。 这个模型的目标如下:

    我们的基本目标是最小化基本功能损失,Sigma;????(??,??,?)??= 1,预测值与实际标记值之间的差距。在本文中,我们使用log损失log(1 exp(-????????))作为损失函数,其他损失如铰链损失[1 - ??????]和平方损失(?? - ???)2也可以应用。然后我们将三个正则化添加到最小化函数。最小化项:-Sigma;??*????= 1,保证从模型学习的参数has与词的情绪具有相同的极性。最小化Sigma;(??* *?)2??= 1等于最小化Sigma;(?? - ??)???=?,这意味着类似单词的权重彼此接近。换句话说,一对单词对模型有相同的贡献。更重要的是,我们还在过度拟合的情况下添加L2范数正则化项。 alpha;,beta;和gamma;是控制对基本分类影响的正则化系数。等式(4)是呈凸状的曲线,它可以被视为一个非线性优化问题。因此,可以用准牛顿法[21] BFGS来解决。

    4、实验过程

    在本节中,我们对真实世界数据集进行了一些实验,以验证我们方法的有效性。 首先,我们用预处理工作处理数据,然后使用上面介绍的方法计算词语情感和词语相似度。 最后,进行一些实验来比较分类准确性。 更重要的是,我们将直观地解释实验结果。

    A.数据集和预处理在实验中,我们使用5个数据集来验证模型的有效性,包括三个英文数据集和两个中文数据集。英语数据集包括康奈尔大学收集的电影评论1,SemEval 2013会议2提供的Twitter情感分类数据集,其中我们获得了整个数据集的部分内容。另一部分是关于20

    剩余内容已隐藏,支付完成后下载完整资料


    资料编号:[22848],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。