中国古典诗歌中的情感分析外文翻译资料

 2022-12-29 10:50:35

中国古典诗歌中的情感分析

德国海德堡大学计算语言学研究所

摘要

虽然近年来中国社交媒体的情感分析引起了很多人的兴趣,但由于缺乏情感词汇资源,中国传统文学(如中国古典诗歌)的情感分析较少。在本文中,我们提出了一种基于加权个性化PageRank(WPPR)的弱监督方法来创建中国古典诗歌的情感词典。我们在内在和外在地评估我们的词汇。我们表明,基于图形的方法在两种评估方法上均优于先前众所周知的基于PMI的方法(Turney和Littman,2003)。在我们的情感基础上,我们分析了唐诗全集中的情感。我们使用位置感知情绪 - 主题模型提取与正(负)感知相关的主题。我们进一步比较了唐代(公元618 - 907年)不同诗人之间的情感。

1 介绍

中国古典诗歌是一种珍贵的文化遗产。在其3000多年的历史中,唐朝(公元618 - 907年)被广泛视为中国古典诗歌艺术的顶峰。清代(1644-1911)编辑的唐诗全集,包含超过2500名诗人的900多首诗,共900卷。该系列提供了对那个时期社会生活各个方面的深刻见解。唐诗的情感/情感和意象分析研究是中国语文学的一个活跃的子领域,具有广泛的文献(Watson,1971; Kao和Mei,1971; Kao和Mei,1978)。在本文中,我们试图分析情绪(即,

计算的角度看唐诗中的文本元素的正面还是负面。具体而言,我们提出了一种新的基于图形的方法来创建中国古典诗歌的情感词典。这样的词汇是中国古典诗歌其他计算研究的宝贵资源,如语义分析(Lee和Tak-sum,2012)或诗歌生成(He et al。,2012; Zhang and Lapata,2014)。

Turney和Littman(2003)提出了一种基于PMI的算法来估计单词的语义方向或极性。通过将其与正参考词(例如,优秀或美丽)的相似性与其与否定参考词(例如,差或坏)的相似性进行比较来计算给定词的语义方向。我们不是分别计算给定单词和每个正(负)参考单词之间的相似性,而是应用加权个性化PageRank(WPPR)在词汇网络中同时测量给定单词和所有正(负)参考单词之间的相似性我们从诗歌语料库中建立起来。我们基于图的方法能够找到全局最优解,因为词汇网络作为一个整体被分析(第3节)。

我们从内在和外在地评估我们的诗歌情感词汇。对于内在评估,我们编译两个测试数据集。第一个数据集包含933个单词(532个正面和401个负面),取自三个中国情绪lexi-cons1。第二个数据集包含55个词,取自唐诗的意象分析文献。这些词反映了中国古典诗歌中的共同意象,具有一定的固定情感内涵。例如,角色“猿”(猿)经常与悲伤,焦虑和痛苦有关,而角色“荷”(莲花)

1虽然这些词汇是针对当代中国人的,但有些词汇的意义和极性与中国古典诗歌的意义和极性相同。

15

9届SIGHUM文化遗产,社会科学和人文语言技术研讨会论文集,第15-24页,中国北京,2015年7月30日。2015年Qc计算语言学协会和亚洲自然语言加工联合会

是美,爱和正直的象征。我们表明,在对两个数据集进行评估时,我们的方法优于竞争激烈的基于PMI的方法(第4.1节)。我们的方法在预测中国古典诗歌情感取向的外在评价任务上也优于基线(第4.2节)。

在我们的情感词汇的基础上,我们分析了唐诗全集中的情感。我们首先使用位置感知情感 - 主题模型(第5.1节)分析唐诗中正/负情绪下的主题分布。然后我们比较唐代不同诗人的情感(第5.2节)。

我们工作的主要贡献是:

  • 我们提出了一种基于图形的方法来构建中国古典诗歌的情感词典。我们的方法是弱监督的,不依赖于现有的词汇资源(例如,WordNet)。它可以轻松移植到其他域/语言。
  • 我们系统地评价我们的情感词汇,并证明它可以用来分析中国古典诗歌的情感取向。
  • 我们在情感词汇的基础上分析唐诗中的情感。我们应用位置感知情绪主题模型来提取与正面/负面情绪紧密相关的主题。我们的模型建立在特定的假设中,这些假设是中国古典诗歌中情感表达的特征。它假定来自同一区域的词汇项是从单个情感 - 主题对生成的。我们比较不同着名诗人的情感,并表明我们的结果与中国语文学的研究一致。

本文中描述的诗歌情感词典以及所有测试数据集均可免费获取http://www.cl.uni-heidelberg. DE /tilde;厚/ resources.mhtml。

相关工作

绪词典。近年来,人们对极性(正面和负面)词汇的创造给予了相当多的关注,包括各种基于语料库的方法(Turney和Littman,2003; Kanayama和Nasukawa,

2006;Kaji和Kitsuregawa,2007年;Kiritchenko等,2014)和基于字典的方法(Kamps等,2004; Esuli和Sebastiani,2005; Mohammad等,2009; Baccianella等,2010)。与以前的基于图形的方法不同,它基于现有的词汇资源创建情感词典(例如,WordNet,叙词表)(Takamura等,2005; Rao和avichandran,2009; Hassan等,2011),没有这样的词汇资源中国古典诗歌。因此,我们选择基于语料库的方法。

虽然我们建立情感词典的方法是独立于领域的,但在本文中我们将其应用于中国古典诗歌。这不是一项微不足道的任务。英语情绪分析有各种可靠的资源。但是,只有少数中文情绪词汇可供使用。特别是,这些词汇适​​用于当代中国人。而且,鉴于这些词汇是为当代中国人开发的,他们只会对中国古典诗歌进行部分报道。由于几千年来语言的变化,也可能存在分歧。为了改善中国人的情绪分析,一项工作旨在通过机器翻译来利用丰富的英语情绪资源(Wan,2008; Wan,2009; He et al。,2010)。这些方法取决于机器翻译的质量,即使是专业翻译人员也难以将中国古典诗歌翻译成英语。我们的工作类似于Zagibalov和Carroll(2008),因为两种方法都受到弱监督。他们迭代地建立一个情感词典,从一小组种子项和几个词汇模式(否定状语结构)开始,这些模式可以表明词汇极性。然而,这种词汇模式(例如,不(不)很(完全) 满意(满足)(目标词))不适用于中国古典诗歌。

国古典诗歌的计算分析。以前的工作主要集中在中国古典诗歌的产生上(Zhou et al。,2010; He et al。,2012; Zhang and Lapata,2014)。李和孔(2012)为唐诗完整选集开发了一个依赖树库。在此语料库的基础上,Lee和Tak-sum(2012)定量分析了唐诗全集中的语义内容和词语用法。Voigt和Jurafsky(2013)发现,通过比较经典,中国诗歌的古典特征在整个世纪都有所下降

诗歌与当代散文。

只有少数作品试图分析中国古典诗歌中的情感。Hu(2001)通过使用单词关联度量提出“相似性搜索”。例如,给定典型的情感词语,如“悲伤(悲伤)哀(悲伤)”,系统可以找到与悲伤情绪相关的单词(例如南浦(南岸,一个经常用来举行中国古代告别派对的地方)) 。但是,他并没有定量地分析中国古典诗歌中的情感。基于手工注释数据,罗(2009)分析了不同诗人对中国古典宋诗的情感。据我们所知,中国古典诗歌没有公开的情感词汇。

构建中国古典诗歌情感词典

在本节中,我们将简要介绍加权个性化PageRank(WPPR)。然后,我们详细介绍了如何构建词汇网络以及如何将WPPR应用于词汇网络以构建中国古典诗歌的情感词典。

加权个性化PageRank

最初的PageRank算法最初是由Brin和Page(1998)引入的。它是一种基于链接的算法,用于对图中的顶点进行排名。后来,提出了各种扩展。加权PageRank(Xing和Ghorbani,2004)在基于顶点的流行度分布排名分数时考虑了顶点的链接和外链的重要性。个性化PageRank(Haveliwala,2002; White和Smyth,2003)计算图中顶点相对于一个或多个根顶点的重要性。它已成功应用于其他NLP任务,如词义消歧(Agirre和Soroa,2009)。

在这里,我们结合Weighted PageRank和Personalized PageRank来衡量词汇网络中词汇项目相对于senti-的相似性。

种子。设G是N的词汇网络

顶点v1 ,...,vnisin;V和wij是从vi到vj的边缘相关的权重。令M为Ntimes;N转移概率矩阵,其中如果存在从vi到vj的链路,则Mij = wij,并且为零

在G上的ank向量R可以如下计算:

R =alpha;MR (1 - alpha;)P, (1)

其中alpha;是阻尼系数,其值通常设置在[0.85..0.95]范围内。P是Ntimes;1向量,其中对于v S,P = 1,其他为零 -

i i isin;

|S|

明智的,即情绪种子中的所有顶点都有

等于先验概率。

等式1可以被视为从种子节点开始的随机游走过程的结果,其中随机游走者可以跳回到

种子节点S具有给定概率1-alpha;。顶点vi的最终秩,偏向集合S(偏差以P编码),代表概率

在足够大的时间,在顶点vi上结束的加权图上的随机游走(与边缘相关联的权重以M编码)的能力。

词汇网络建设

为了创造中国古典诗歌的情感词汇,我们首先在唐诗全集2的基础上建立一个词汇网络。由于诗歌充满了情感,我们认为:(1)词汇网络中的每个词汇项目都有正面或负面的情绪;(2)小窗口内的词汇项更有可能分享相同的情绪。因此,通过在一小组正(负)词汇项目的基础上应用WPPR,我们可以追踪积极(消极)情绪信息在整个词汇网络中的分布情况。

词汇网络G是有向加权图,其中每个顶点vi是词汇项。我们

将词汇项定义为包含一个或两个字符的单词。中国古典诗歌通常以高度压缩的方式书写,每行通常有五到七个固定的字符。结果,每个字符本身或包含两个字符的单词都是表达性的,并且可以用作主要语义单元。我们只是使用频率阈值来提取词汇项目而不是执行分词:如果词汇单元出现,则将词汇单元提取为词汇项目

语料库中至少x次(x为单次为10次)

字符单位和50个双字符单位)。

然后我们创建一个从vi到vj的边,如果是vi和vj

在五个字符的窗口内共同出现,即vi出现在vj之前或之后的五个字符的窗口内。让fij成为次数

否则,让S成为一组情绪种子在哪里

S sube; V .那么加权个性化PageR-

2语料库可以从中下载http://datatang.com

vi和vj共同出现在整个语料库中,我们将边缘的权重从vi设置为vj,如下所示:

菲伊

情感词典评估

我们从内在和外在地评估我们的诗歌情感词汇。对于内在评估

wij =

k7月1日 fik

N

(2)

我们利用当代中文的情感词汇,因为有一些部分重叠 -

或者,可以将wij视为概率 -

给出词汇项vi,附近出现词汇项vj。

因此,我们构建了一个词汇网络,其中包含8656个词汇项(4779个是单字符项,3877个是双字符项)和8,832,234个边。这个词汇网络包含唐诗完整选集中的共现信息。

3.3情绪词典创作

我们编制了一小组情绪种子,其中包含六个正面词汇项和六个负面词项(见表1)。这些词汇项目在“唐诗全集”中经常出现单字,具有强烈的情感。类似于使用14种情绪种子(7个正面词和7个否定词)的Turney和Littman(2003),我们只关注少数情绪种子来研究我们是否可以从弱监督构建合理的情感词汇。

人物

种子

香(香)爱(爱)欢(快乐)

贤(贤德)喜(喜悦)瑞(幸运)

种子

寒(冷)愁(焦虑)孤(孤独)

苦(痛苦)悲伤(悲伤)怨(怨恨)

表1:正面和负面情绪种子。

我们对第3.2节中描述的词汇网络应用WPPR(第3.1节)两次,用正面种子和负面种子初始化

spectively。我们遵循将阻尼系数设置为0.85的常规做法。因此,我们得到两个PageRank向量Rp和Rn。他们能

被视为词汇项目与所有正面种子和所有负面种子的相似性的度量。最后,我们计算情绪向量如下:

Rs = Rp-Rn (3)

如果词汇项目在向量Rs(因此Rsi)中的相应条目为正,并且如果Rsi

剩余内容已隐藏,支付完成后下载完整资料


Analyzing Sentiment in Classical Chinese Poetry

Institute for Computational Linguistics, Heidelberg University, Germany

Abstract

Although sentiment analysis in Chinese social media has attracted a lot of in- terest in recent years, it has been less explored in traditional Chinese literature (e.g., classical Chinese poetry) due to the lack of sentiment lexicon resources. In this paper, we propose a weakly super- vised approach based on Weighted Person- alized PageRank (WPPR) to create a sen- timent lexicon for classical Chinese po- etry. We evaluate our lexicon intrinsically and extrinsically. We show that our graph- based approach outperforms a previous well-known PMI-based approach (Turney and Littman, 2003) on both evaluation set- tings. On the basis of our sentiment lexi- con, we analyze sentiment in the Complete Anthology of Tang Poetry. We extract top- ics associated with positive (negative) sen- timent using a position-aware sentiment- topic model. We further compare senti- ment among different poets in Tang Dy- nasty (AD 618 – 907).

1 Introduction

Classical Chinese poetry is a precious cultural her- itage. Among its over 3,000 years of history, the Tang Dynasty (AD 618 – 907) is widely viewed as the zenith of the art of classical Chinese poetry. The Complete Anthology of Tang Poetry, edited during the Qing Dynasty (1644 – 1911), contains over 42,860 poems in 900 volumes by more than 2,500 poets. The collection provides a magnificent insight into all aspects of social life of that period. Research on sentiment/emotion and imagery analysis of Tang poetry is an active subfield in Chinese philology, with a vast literature (Watson, 1971; Kao and Mei, 1971; Kao and Mei, 1978). In this paper, we seek to analyze the sentiment (i.e.,

positive or negative) of textual elements in Tang poetry from a computational perspective. Specif- ically, we propose a novel graph-based method to create a sentiment lexicon for classical Chinese poetry. Such a lexicon is a valuable resource for other computational research on classical Chinese poetry, such as semantic analysis (Lee and Tak- sum, 2012) or poetry generation (He et al., 2012; Zhang and Lapata, 2014).

Turney and Littman (2003) propose a PMI- based algorithm to estimate the semantic orien- tation or polarity of a word. The semantic ori- entation of a given word is calculated by com- paring its similarity to positive reference words (e.g., excellent or beautiful) with its similarity to negative reference words (e.g., poor or bad). In- stead of calculating the similarity between a given word and each of the positive (negative) reference words separately, we apply Weighted Personalized PageRank (WPPR) to measure the similarity be- tween the given word and all positive (negative) reference words simultaneously in a lexical net- work that we build from a poetry corpus. Our graph-based method is able to find globally opti- mal solution because the lexical network is ana- lyzed as a whole (Section 3).

We evaluate our poetry sentiment lexicon intrin- sically and extrinsically. For the intrinsic eval- uation, we compile two test datasets. The first dataset contains 933 words (532 positive and 401 negative) taken from three Chinese sentiment lexi- cons1. The second dataset contains 55 words taken from literature of imagery analysis for Tang po- etry. These words reflect the common imageries in classical Chinese poetry and have certain fixed emotional connotations. For instance, the char- acter “猿” (ape) often relates to sadness, anxi- ety and distress, while the character “荷” (lotus)

1Although these lexicons are for contemporary Chinese, some words keep the same meaning and polarity as in classi- cal Chinese poetry.

15

Proceedings of the 9th SIGHUM Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, pages 15–24, Beijing, China, July 30, 2015. Qc 2015 Association for Computational Linguistics and The Asian Federation of Natural Language Processing

is the symbol of beauty, love and rectitude. We show that our method outperforms the very com- petitive PMI-based approach when evaluating on both datasets (Section 4.1). Our method also out- performs the baseline on an extrinsic evaluation task of predicting sentiment orientation of classi- cal Chinese poetry (Section 4.2).

On the basis of our sentiment lexicon, we ana- lyze sentiment in the Complete Anthology of Tang Poetry. We first analyze topic distributions under positive/negative sentiment in Tang poetry using a position-aware sentiment-topic model (Section 5.1). We then compare sentiment among different poets in Tang Dynasty (Section 5.2).

The main contributions of our work are:

  • We propose a graph-based method to build a sentiment lexicon for classical Chinese po- etry. Our method is weakly supervised and does not rely on existing lexical resources (e.g., WordNet). It can be easily ported to other domains/languages.
  • We evaluate our sentiment lexicon systemat- ically and demonstrate that it can be utilized to analyze sentiment orientation of classical Chinese poetry.
  • We analyze sentiment in Tang poetry on the basis of our sentiment lexicon. We apply a position-aware sentiment-topic model to extract themes which are tightly associated with positive/negative sentiment. Our model builds in specific assumptions that character- ize sentiment expression in classical Chinese poetry. It assumes that lexical items from the same region are generated from a single sentiment-topic pair. We compare sentiment among different famous poets and show that our results are in accordance with studies in Chinese philology.

The poetry sentime

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[276836],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。