英语原文共 22 页,剩余内容已隐藏,支付完成后下载完整资料
基于扩展情感词典的中文微博文本情感分析
张顺祥、魏忠良、王银和廖涛
摘要:微博文本往往含有复杂而丰富的情感,这些情感反映了用户对某一话题的立场或观点。然而,现有的情感分类方法无法有效帮助对微博话题的监控。为了解决这一问题,本文提出了一种基于情感词典的中文微博文本分析方法,以便更好支持网络监管机构的工作。首先,本文通过提取和构建程度副词词典、网络词词典、否定词词典等相关词典来扩展情感词典。其次,本文通过计算权重得出微博文本的情感价值。最后,本文将某一话题的微博文本情感分为积极的,消极的和中性的。实验结果表明了上述方法的有效性。
关键词:微博文本;情感词典;情感分析;情感取值
1 引言
随着社交网络的飞速发展,越来越多的人通过网络表达对一些热门话题的看法。因此,微博已成为用户最常使用的数据平台之一。在微博平台上,用户发布的文本的数量呈指数型增长。这些文本涉及社会、生活、科技和娱乐等领域。在大数据时代,这些包含用户主观情感信息的文本已成为非常有价值的信息资源,越来越多的组织正利用网络上的情感信息进行决策。
然而,如何快速从海量的微博文本中提取到关键而有价值的情感信息已成为近期研究的热点。信息网络的扩展导致手动收集和处理海量信息的方法变得非常困难。因此,我们需要一种新的技术来快速生成有价值的信息。计算机处理数据的速度和精度比人工处理效率高得多。因此,基于计算机技术的情感分析技术应运而生。对微博文本的情感分析技术受到许多学者的高度关注,这主要是因为它与普通文本相比,有许多不同的特点:普通文本内容更完整,篇幅更长,而微博文本则具有实时性、篇幅短、信息内容多样性等特点。这些特点也给情感分析带来了新的挑战。本章通过对微博特点的分析,提出了关于微博情感分析的几个关键问题:
(1)微博文本是一种灵活的语言,如何处理好其包含的新型网络元素和表达方式?
(2)微博可能包含复杂的情感,如何分析其中的情感而不是简单地统计和比较词语的情感色彩?
基于以上问题,本文提出了一种基于情感词典的中文微博话题情感分析的方法。由于目前微博情感分析领域还未有一个较为全面完整的情感词典,因此本文提出的方法是基于基础情感词词典和微博特点,建立相应的情感词典。所建立的情感词典包括基础情感词典、程度副词词典、否定词词典、网络词词典、表情词典、关系连词词典等。网络用语词典包含了大量的网络新词,表情词典包含了微博平台提供的常用表情。为了不仅仅依赖带有感情色彩的词来分析情感,我们结合了多本词典来计算微博文本的情感权重,最后将其分为三类:积极的、消极的和中性的。该方法旨在于帮助网络管理者及时做出有效的决策,从而防止舆论的变相发展。基于情感词词典的中文微博话题情感分析过程如图1所示。
图1 基于情感词典的中文微博话题的情感分析过程
我们提出的方法主要包括两个方面:
(1)情感词典的构建。首先,可以从新浪网抓取关于某一话题的微博文本数据并处理。例如,去除无用的符号,把繁体字转换成简体字等。然后,可以根据微博的特点,如信息元素的多样性,语言的灵活性等构建情感词典。情感词典包括基础情感词典、程度副词词典、否定词词典、网络用语词典、表情词典、关系连词词典。本文给予这些词典相应的权重。
(2)情感值计算和分类。本文将介绍ICTCLAS词语分词系统中使用的词典结构。ICTCLAS是中科院计算机技术研究所的研究成果,主要功能包括中文分词、词性标注、命名实体识别、新词识别、支持用户词典等。它的分词速度为996KB/S,分词精确度为98.45%。微博文本的情感价值可以通过计算这些情感词的权重得到。最后,根据计算出的情感值,将微博文本分成积极、消极和中性的情感文本。
本文的其余部分组织如下:第二章简要回顾情感分析的相关研究;第三章介绍情感词典的构建;第四章对情感数值进行计算和分类;第五章给出了实验结果并对此进行了分析;最后在第六章给出结论。
2 相关研究
本章回顾了现有的和情感分析有关的研究工作。本文根据现有的研究情况,将情感分析技术分为三类,分别是:基于情感词典的情感计算,基于机器学习的情感分类和其他方法。
2.1基于情感词典的情感计算
基于情感词典的情感计算方法主要是依赖开源情感词典或扩展的情感词典[1],并结合一些语义规则计算情感值。中文开源情感词词典主要有HowNet[2]、大连理工大学中文情感词汇本体数据库[3]和国立台湾大学NTUSD(中文情感词典)[4]。英文开源情感词典有单词网[5]。Yi等人提出了一种情感分析仪(SA),它可以从在线文本文档中提取关于某一主题的情感(或观点)。为了弥补纯统计学方法的不足,他们提出了基于NLP技术[6]分析语法句子结构和短语的方法。Rao等人提出了一种高效的算法和三种剪枝策略来自动构建一个用户社会情感检测的词汇情感词典。他们编制了一个主题级词典,每个主题都与社会情感相联系。Turneyet等人提出了一种基于点互信息(PMI)和潜在语义分析(LSA)[8]的词的语义定位方法。在参考文献[9]中,作者提出对于某一特定的句子,通过挖掘顾客对产品特征的评论,判断这句话对产品的评价是积极的还是消极的。Keshavarz等人将语料库与词汇库相结合,构建自适应情感词汇库,以提高微博[11]中的情感极性分类。Neviarouskaya描述了一种名为SentiFul的自动生成和评分的新情感词典的方法。他们通过直接的同义词和反义词关系、上下位关系、派生关系以及与已知词汇单元[12]扩展情感词典。Feng等人提出了一种基于微博数据中图形化表情符号学习情感词汇的词汇-表情互强化排序模型[13]。
2.2基于机器学习的情感分类
基于机器学习的情感分类方法通常是通过训练标注的语料库生成一个趋势分类器,并对测试文本[14][15]进行分类。目前比较成熟的分类方法有支持向量机(SVM)[16]、朴素贝叶斯(NB)[17]和最大熵(ME)[18]。Huang提出了微博弱监督情感分析的多模态联合情绪话题模型(MJST),该模型通过引入表情符号和微博用户特性[19],利用潜在的Dirichlet分配(LDA)同时分析消息中隐藏的情绪和话题。Haiet等人提出了一种新的概率监督联合和情绪模型(SJASM),在统一的[20]框架下一次性处理问题。Arif等扩展了已有的学习分类器系统(LCS)技术,引入一种新的编码方案来表示分类器规则,以处理特征向量[21]的稀疏性。Pan等人针对跨语言情感分类问题设计了一种双视图非负矩阵三因子分解(BNMTF)模型,从两种语言的非负矩阵三因子分解模型中推导出BNMTF模型,以便更准确地预测[22]。在深入研究[23]的基础上,也有一些关于情感分析的研究。当然,有些科学家利用神经网络的知识来进行[24]分析。
2.3其他方法
随着网络上可用数据的数量、速度和种类的爆炸性增长,根据处理文本[25][26]的类型,数据可以分为基于新闻评论的群组分析和基于产品评论的情感分析。根据处理后的文本[27][28]的粒度,情绪分析可以分为单词级、短语级、句子级、文本级和多文本级。通过研究发现,文本的情感不仅局限于二元或三元(正、负、中性),而且可以更立体地表现为[29][30][31]。在参考文献[32]中,作者提出了一种新的框架,利用观点词典和从未标注数据中自动提取的关键句来估计评论的情绪极性。这个框架不仅能够克服过度依赖外部资源的问题,而且能够捕捉到评论的整体情绪两极。此外,情感字典和机器学习可以结合起来,并应用于情感分析[33]。Nguyen等人提出了一个基于字典和机器学习方法[34]分析和可视化公众情绪的模型。通过对以上相关著作的研究,我们可以知道,对情感分析的研究有多种方式。本文主要通过对微博文本的情感分析,建立和扩充基本的情感词典,然后根据微博文本中出现的情感词的权重进行情感价值计算。最后,将微博文本分为积极的、消极的和中性的。
3 情感词典的构建
在本节中,我们将探讨微博情感词典的构建。主要包括微博文本的预处理和情感词典的构建。
3.1微博文本预处理
微博文本不同于普通文本,它具有普通文本所不具备的许多特征。最明显的是,微博文本经常出现一些表情符号、图片、网络链接、提到某人的符号@和其他信息元素。这些信息元素不仅给微博文本带来了丰富多彩的内容,也给一些研究带来了困难。因此,为了便于研究工作,有必要进行预处理。然而,不同的研究工作可能对微博有不同的预处理。本文从情感的角度分析了微博文本,主要包括以下几个方面:
(1)过滤网页链接、动画、视频和图片。因为微博具有分享功能,所以sharedcontentscan嵌入到微博文本中,以“http”链接、动画、视频、图片等形式。内容可能会对微博文本本身产生一定的影响。
(2)过滤“@ 用户名”。在微博中,符号“@ 用户名”是用来告诉某人或引起某人的注意。这部分没有实质性的情感分析效果,所以这部分会被过滤掉。
(3)过滤“# 话题 #”。 这部分的内容主要是在微博上谈论话题对象。由于本文收集的微博文本都是有主题的,所以这部分可以忽略,直接过滤。
(4)繁体中文转换成简体中文,英文转换成中文。随着繁体字出现在微博上,为了使后续工作变得简单,可以将繁体字转换为简体中文。由于微博平台也可以中英文结合,为了避免信息的丢失,可以将英文翻译成中文,然后进行后续处理。
(5)保留表情符号。表情符号在微博中常用来表达情感。这些表情符号是由微博平台提供的,用户可以根据需要选择。表情符号对情绪分析非常有用,而且有规则可循,所以表情符号应该保留。
由于微博文本的特殊性,在情感分析方面需要对微博文本进行特殊的预处理。有些信息元素可以过滤,有些可以保留。根据不同的效果对信息元素进行适当的处理,不仅可以提高文本的处理速度,还可以提高微博文本的处理质量,便于后续的分割和停词的删除工作。
3.2建立关联情感词典
目前,比较成熟的开源情感词典有《英汉情感词典》、国立台湾大学NTUSD和大连理工大学中文情感词汇本体数据库。本文的情感词典由图2中所示的下列词典组成。基本情感词典来自中国情感词汇本体数据库大连理工大学[35],程度副词字典是来着《英汉情感词典》[36],否定词词典部分以及从前面的整合[37],网络用语情感词典主要依赖于互联网浏览器,表情词典主要由新浪微博提供, 关系连接词词典是从微博带有情感极性的信息中提取的。
定义1:基础情感词典(BSD)
基础情感词典(BSD)来自大连理工大学中文情感词汇本体数据库,包含27476个单词。这些情感词汇可以分为阳性词、阴性词、中性词、阳性词和阴性词。1表示肯定词,2表示否定词,0表示中性词,3表示肯定词和否定词。情感词汇的极性强度分为1、3、5、7、9五个层次。9为最大强度,1为最小强度。为了便于后续计算,将强度改为权值,将极性为0的单词的权值设为0。负的值(如-7)表示负情绪词的极性强度仅次于最高级。具体的基础情感词词典示例如表1所示。
定义2:程度副词词典(DAD)
《英汉情感词典》提供的程度副词用于构建程度副词词典。有219个程度副词,分为6个等级。它们分别是超过、极其最、非常、更加、稍微和不足。但这些词并没有说明重要性。因此,本文将上述6个等级修正的情感词的扩展倍数分别设置为3倍、2.5倍、2倍、1.5倍、1倍和0.5倍。具体程度副词词典实例如表2所示。
图2微博情感词典的编写
表1 基础情感词典示例
定义3:否定词词典(NWD)
《否定词词典》由否定副词和修辞格两部分组成。否定副词是由整理出来的否定词派生而来的,共有31个否定副词。修辞格主要是10个人造词。由于否定副词反义词的意思与原句相反,但反义词的语气更为强烈。所以否定副词的权重设为-1,修辞词的权重设为-2。具体否定词词典的例子如表3所示。
表2 程度副词词典示例
表3 否定词词典示例
定义4:网络词汇词典(NWD)
网络词汇词典包含了网络中大量的非正式词汇。非正式词语很难被分词系统识别,但它们在情感分析方面有一定的辅助功能。在此基础上,我们构建了一个网络词汇词典来帮助情感分析。网络词汇具有网络词汇数量随时间逐渐增加的特点。本文网络词汇主要依靠网络搜索,如“2016年最新网络词汇”和“常用网络词汇”,共有146个网络词汇。将从网络中获得的网络词分为4个等级,并给出相应的权重。具体网络单词词典的示例如表4所示。
表4网络用户词汇词典示例
定义5:表情词典
表情词典主要由微博平台提供。这些表情符号在微博平台上分为默认表情、浪花、哆啦A梦等其他选项。本文选择了常用的高频表情符号来构建表情词典。主要包括默认表情、浪花和哆啦A梦这三类的性质。剔除重复使用的表情符号,共有216个。这些表情符号被分为五个等级,并给出相应的权重。具体表情词典的示例如表5所示。
表5 表情词典示例
定义6:关系连词词典(RCD)
关系连词词典在关系连词连接的句子的情感分析中起辅助作用。有时前后两句话的感情色彩是相同的,有时又不尽相同。如果把微博句子与关系连词连接起来,就可以利用关系连词的辅助功能来分析句子的情感。我们可以通过对大量被标记为情感极性的微博文本进行分词处理来获得大量的词性。根据句子之间的极性关系,可以拉长关系连接词。关系连接分为递进关系、因果关系、让步关系、转折关系四个部分,并给出相应的权重。表6给出了这些特殊关系连词词典的例子。
表6 关系连词词典示例
微博文本的情感两极分化主要体现在情感词和
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20318],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。