股票评论的社会情感倾向和股票价格之间的相关性分析外文翻译资料

 2022-11-19 16:44:57

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


毕业论文(设计)

英文翻译

原文标题Analysis on the Correlation Between Social Emotion Tendency on Stock Comment and Stock Price

 译文标题 股票评论的社会情感倾向和股票价格之间的相关性分析

股票评论的社会情感倾向和股票价格之间的相关性分析

刘功佳*,王彪,王鼎

国际关系大学信息技术学院,北京,中国

*相关作者

摘要:随着行为金融学理论的发展,心理学因素在投资决策中起着重要的作用。它不是像传统金融理论所描述的完全理性的方式。因此,这是一项关于股票评论的情感倾向与股票价格之间的相关性的研究。首先,我们分析基于新浪论坛数据的股票评论的情感(guba.sina.com.cn)。然后,我们计算在24小时内,股票评论中不同情感的比率包括快乐、悲伤、愤怒、惊讶、恐惧和厌恶。最后,我们通过计和机器学习的方法构建回归模型统并得出股票评论的情感倾向与股票价格之间的相关性的结论。

关键词:股票价格趋势,股票评论,皮尔森相关系数,机器学习,情感分析

1.绪论

如今,信息以惊人的速度传播,投资者只需通过点击他们的电脑就能知道所有交易价格、关于新产品和本公司盈利的新闻等交易指标。与此同时,这些快速发展的社交网络平台也为投资者提供评论股票的机会[1]。因此,越来越多的人倾向于在网上表达他们的意见。根据于1月15日在中国互联网络信息中心发布的统计报告,互联网用户的数量达到了6.49亿,其中43.8%网民喜欢在网上发表评论[2]。现在网上有很多评论是由一些投资者和某时不知不觉间参考这些评论并做出决定的人发布。正如行为金融学理论提到的,投资者会无法预见地和带着偏见地做出他们决定,而非传统金融理论所描述的那样。他们将会受到一些心理因素的影响[3]

金融市场的快速发展,越来越多的人成为股票市场的投资者。与此同时,许多学者和业务分析师正在研究如何预测股市,并带来了许多理论假设[4]。早期,研究股票市场是基于随机漫步理论和有效市场假说上的。根据有效市场假说,股票的价格很大程度上是基于新的信息,而不是当前的或旧价格。因为消息是不可预知的,所以股票价格遵循随机漫步理论,并且预计不会达到50%的精度。然而,许多研究对来自行为金融学理论的有效市场假说提出质疑。价格将不遵循随机漫步理论,在某种程度上是可预测的。此外,一些最近的研究表明,即使消息是不可预测的,投资者的投资趋势也可以通过网络社区分析。到目前为止,许多学者社交网络的帮助下分析了情绪,并在情绪和其他相关因素之间作出相关研究。例如,Mishne和Rijke[5]分析了博客的情感和在电影院销售条件之间的关系,舒梅克和陈[6]研究了金融危机期间新闻和股票价格之间的关系。因此,虽然新闻是一个会影响股票价格的因素,公众的情绪可能发挥更大的作用。

关于股票评论和价格之间的相关研究,徐飞飞提到一种通过分析投资者的情绪来预测价格的方法。他们发现成交量与投资者前一晚在社交网络是否积极高度相关,并用格兰杰因果检验验证试验结果[7]。约翰勃伦测试公众在Twitter上的情感是否可以用来预测股票市场[8]。在GPOMS统计和OpinionFinder的帮助下,他可以找出推特的情感趋势,并设计一个函数,然后把它与用道琼斯指数进行比较。

分析情绪的变化会导致更好的理解投资者的想法。在此基础上,我们可以分析股票价格和投资者的情绪之间的相关性。它对于投资者做出决定和赚取利润有着很好的帮助,它还将帮助投资者寻找适当的机会获得更高的收入。

一般来说,到目前为止,研究人员已经可以从他们发布的推特中得到公众的情绪,它将帮助我们预测股票的价格。然而,现在我们只能预测股票市场指数,并不能分析每个股票。本文将找出短期投资者的情绪和股价之间的关系,并得到评论倾向和股票价格之间的关系。

2.相关研究

2.1情感分析

情绪的分类是自然语言的一个重要研究方法,吸引了国内外许多学者的关注。分类方法主要包括基于词典的情感分类,基于机器学习和混合方法的分类[9]。Gao[10]提出了一种基于句法和语法结构来发现一个句子的情感的特征提取方法。在我们的相关研究中,我们将调用算法来分析股票评论的情感。

2.2统计回归分析

在实验中,我们使用皮尔逊相关系数分析情感倾向与股票价格之间的相关性。皮尔森相关系数也被称为积差相关,这是20世纪英国统计学家皮尔森提出的。这是一个线性相关的计算方法。假设你有两个变量X和Y,和两个变量之间的皮尔逊相关系数可以由如下公式(2.2.1)计算。E是数学期望,cov是协方差。

(2.2.1)

2.3机器学习回归分析方法

基于统计方法的完成,我们使用五个机器学习方法建立回归模型。从数据挖掘的十大算法中[11],我们选择支持向量机(SVM),决策树,k最近邻算法和演算法来构建四个回归模型。我们使用相关系数,根均方误差和根相对平方误差评估四个回归模型。

线性回归(LR)是一种常见的回归分析方法,使用最小二乘函数模型来分析自变量和因变量之间的关系。

M5P算法是基于M5多元线性回归树模型。它结合了决策树和线性回归算法。首先,它构建一个决策树模型,然后为每个叶节点建立了线性回归模型。

SMO算法是序列最小优化的缩写。它可以解决支持向量机训练中产生的优化问题。这是由微软的约翰·普拉特在1998年提出的,并成为最快的二次优化算法。它可以在线性支持向量机和稀疏数据的情况下表现得更好。

添加回归也被称为渐变提高回归树(GBRT),这是一个学习演算法。它将使用多个分类器执行级联训练。后者分类器将专注于之前残差预测结果和实际结果之间的剩余误差。基于剩余误差,我们建立一个新的分类器。最后残留的级联将被添加在一起。

IBK是K最近邻(资讯)分类算法,可以判断K周围邻近测试项目的类别。如果大多数样本的邻居属于一个类别,那么样本也属于这一类。通过找出一个k最近的邻居的一个样本,邻居的属性的平均值被分配给样品,然后你可以得到样本的属性。

3.方法和实验设计

3.1数据采集和预处理

这个实验收集了六种股票的股票价格信息和评论信息。因为有一些股票交易委员会和股票评论很少,经过综合考虑,我们收集了苏宁电器(股票代码:002024)在4月14 - 16日的情况分析相关性。我们每三分钟就抓一次股价。在每天上午9:30-11:30和下午13:00-15:00期间,我们获取一共80个股票价格。与此同时,根据所选的股票代码,我们收集了新浪股票评论社区的股票评论。然后,我们调用情感分析算法来计算股票评论的情绪。

根据股价的时间,从过去24小时的股价中我们计算不同数量级的情感评价,包括幸福评论,悲伤的评论,愤怒的评论,惊讶的评论,厌恶的评论和恐惧的评论。对不同情绪评论的比例进行了计算。通过每三分钟重复这个过程,我们就可以获得一系列的股票价格和六种情感评论的比例。

3.2股票价格与股票评论的相关性

为了定性分析股票价格和股票评论的情感倾向之间的相关性,本文运用2.2中引入的皮尔逊相关系数来代表在24小时内是否有股票评论的情感倾向与股票价格之间的相关性以及是否呈正相关。

为了探索在哪段时间股票评论的情感倾向和股票价格之间的相关性是最高的,本实验还收集了过去的20小时,16小时,12小时,8小时,4小时前股票的评论和股价。已经分析了五期股票评论的情绪,并对不同情绪评论的比例进行了分析。在计算不同时期股票价格之间和情绪趋势之间的皮尔逊相关系数后,可以比较不同时期的相关系数。

3.3使用不同的回归模型比较相关性

我们利用weka建立不同的回归模型,并对回归模型进行比较得出哪种模型能更好地适应情感倾向与股价之间的关系。在实验中,我们构建5个基于线性回归(LR)的回归模型,渐变提高回归树(GBRT),k最近邻算法(KNN),多元线性回归树(M5P)和序列最小优化(SMO)和相关系数,并计算均方根误差和相对的平方根误差来评估测试的回归模型。

4.结果分析

图1显示了情绪倾向与股价之间的关系。结果表明,幸福倾向和厌恶倾向与股票价格呈正相关,但与恐惧、悲伤、惊讶和愤怒等情感都是负相关的。这意味着,快乐和厌恶的比例越高,股价就越高。然而,恐惧、惊讶、悲伤和愤怒都会产生相反的效果。从数值的角度看,股票评论的恐惧倾向与股票价格之间的关联系数是最高的,这就意味着股票持有者的恐惧心理与股票价格之间有着最强烈的相关性。它是六种情绪中最具影响力的一种。而悲伤趋势与股价之间的相关系数是最低的,这就意味着悲伤与股价的相关性是最弱的。

图1所示 24小时内情绪倾向与股价之间的相关性

在分析过去24小时股票价格和股票评论之间的相关性之后,在本文还进行实验来分析在过去的20小时,16小时,12小时,8小时,4小时前股价和股票评论之间的相关性。表1显示了不同时间段内6种情绪倾向与股价之间的皮尔森相关系数。

表1 六种情感倾向与股价之间的相关系数

在取绝对值之后,我们添加了不同时间段的相关系数,得到了图2。它代表了不同情绪倾向与股价之间的相关性。总的来说,惊喜对股价产生了最大的影响,第二和第三大影响因素是悲伤和快乐。

图2 不同情绪趋势和股价之间的相关性

在取绝对值之后,我们添加了不同情绪的相关系数,得到图3。它代表了在不同时期股票评论和股价之间的相关性。在图中,我们可以得出结论,股票评论在过去的16个小时之前,股票评论与股票价格相关性最强的,这与昨天交易板块关闭几乎是同一时间了。

图3 在不同时期的股票评论和股票价格之间的相关性

表2显示了24小时前股票价格与三种情绪趋势之间的相关性回归模型的准确性。在这5个模型中,与LR和SMO算法相比,GBRT资讯和M5P显示出更好的回归结果。相关系数比LR和SMO算法高,根均方误差和平方根的相对误差较低。

表2 相关回归模型的准确性

5.结论和未来研究

实验结果表明,股票评论与股票价格的情感倾向有很强的相关性。但本实验也有很多缺点。首先,这个实验是针对一种情绪来探究相关性的。我们不探索各种情绪综合起来与股票价格之间的相关性;其次,实验不能显示股票价格和情感倾向之间的因果关系,因此有必要进一步探索因果关系。下一步的工作是建立多元回归分析模型来预测股票价格。

参考文献

[1] Rao T,Srivastava S.Analyzing stock market movements using twitter sentiment analysis[C].Proceedings of the 2012 International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012).IEEE Computer Society, 2012: 119-123.

[2] San C.Statistical report on the development of China Internet Network [J].Distance Education in China,2015 (2):31-31.

[3] Fan J.M.Theory and practice of behavioral finance [J].China Business Update,2014 (13).

[4] Fama E.F.The behavior of stock-market prices [J].Journal of business,1965: 34-105.

[5] Mishne G,De Rijke M.Capturing Global Mood Levels using Blog Posts [C].AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs.2006:145-152.

[6] Schumaker R.P.,Chen H. Textua

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[26981],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。