英语原文共 25 页,剩余内容已隐藏,支付完成后下载完整资料
印度电影经济成功的预测能力集成模型评估
摘要
在过去的几十年中,印度电影产业出现了惊人的增长,并且在印度新兴经济中扮演着重要的作用。本文综合了三种分析模型,以解决印度电影产业中电影收入预测这一有趣的问题。本文试图调查导致本土电影在印度环境中成功的决定因素。集成模型已经通过整合三个分析模型(神经网络,分类和回归树和稳健回归)建立并采用线性优化方法。这三个模型的四方面比较分析集成模型已经开展。模型的预测能力有 使用四个性能指针进行评估,即均方根误差(RMSE),平均绝对误差(MAE),平均绝对百分比误差 (MAPE)和大预测误差(LPE)。本文分析了在06年8月至10月15日期间发行的120部印度电影的小说和原始资料,而且检验印度电影产业的本质并力求解释其中的细微差别。研究表明电影的网络炒作、电影发行的银幕、电影获得的评分和电影类型等要素是决定一部电影票房表现的重大影响因素。通过我们的进一步观察,神经网络模型在预测准确性方面与集成模型密切相关。集成模型大大降低了预测误差并对两个性能指针的结果产生了更好的效果。
关键词:集成,预测,神经网络,CART,决定因素, 电影
1.引言
印度电影产业在全球经济中越来越重要,FY15增长估计为7.4%,而FY16 增长8〜8.5%(KPMG,2015)。因此,外国对印度情绪有一个明显转变。即投资者带有修复性的乐观和兴趣,并将印度视为对投资的首选目的地。度媒体和娱乐市场以Bollywood为重点,准备以13.9%的年均复合增长率增长,达到10260亿印度卢比 ,2014年到2019年(KPMG,2015年)达到1964亿印度卢比。由宝莱坞及其区域性姐妹电影集团组成的印度电影产业在电影发行量和销售票数方面是全世界最大的电影产业。据“福布斯”报道,2012年共有1602部电影播出 26.41亿电影票被销售 。但是由于电影票价格低廉,印度电影的收入仅为全球电影票房的6%。这个低价,高量的方式使得印度的电影业务的利润较低,且确实不稳定。只有10-20%的发行的电影能收支平衡或赚取利润(Ganti 2013)。所以对于研究人员和从业人员来说,学习,分析和理解像印度这样的新兴经济体的电影业至关重要。
与专业知识领域相结合的商业智能可以在推进电影制作进程和减少相关财务风险中发挥很大的帮助作用。基于结构化和非结构化数据的分析模型已被用于过去的研究。应用于结构化数据的建模技术包括贝叶斯统计,神经网络,CART,线性回归(Sharda 和 Delen 2006,Neelamegham 和 Chintagunta 1999,Sawhney和Eliashberg 1996)。如文本回归和新闻数据分析等也被用于非结构化数据( Joshi 等人 2010,Zhang 和 Skiena 2009)。
虽然在过去的二十年中许多的研究人员将其在这一领域中的研究主要限于发达经济体尤其是美国(好莱坞)。尽管印度的电影产业惊人增长,这个领域相对来说还是有未开发和研究不足的地方( Pathak 等人 2015),这很可能源于数据资源无组织。此外,印度的电影经济也因为各种社会文化差异分裂成几个区域产业和影响电影收入的变量。这促使我们在印度环境下进行这项研究。本文有两个目的:
bull;确定影响印度电影收入的最重要变量。
bull;通过神经网络(NN),分类和回归树(CART)和稳健回归评估和比较集成模型的预测能力。
为了实现这些目标,我们分析了120部印度电影的结构化和非结构化数据。数据从IMDb, Google Trends, YouTube和一些额外的网站中提取。最初,我们采用了三种不同的分析模型 (神经网络,CART和稳健回归)进行数据分析。随后,通过组合这三个组合模型并采用线性优化方法。最后,我们评估了四个模型的预测性能。
除了这个引言,本文还分为五个部分。第2节包含我们的研究背景,第三节数据的收集和准备。第四节深入探讨了框架分析。第五部分讨论了比较分析和可变重要性。第六节讨论结果并总结本研究.
2.背景
在过去几年中,对影响电影票房表现的潜在决定因素进行的研究得到了广泛的应用。多元回归模型预测电影的财务成功是第一批开发的模型之一(Litman 1983)。这项工作由其他研究者和其他已经出版的研究进一步延伸。一些研究侧重于模型而另一些则探讨了决定因素的模型(Sreenivasan 2013, Ishii等人2012)。在这项研究中,我们研究了两个方面—识别和量化印度相关变量以及模型的比较分析.
电影业价值链如图一所示,图一主要有三个部分组成:生产,分销和先于观众所消耗的展览(Eliashberg等人2006)。影响消费期间电影收入的变量可归因于任意一个如下价值链的三个阶段中的一个。
2.1与生产阶段相关的变量
电影制作过程的第一阶段是脚本开发,这决定电影的预算、演员以及其类似的其他关键元素。电影的预算被认为对财务绩效有显著影响。预算包括对资金的分配,特别是效果,广告,发行,演员和工作人员(Terry 等人 2005)。因此,我们从IMDb页面中选取电影片段,并将其作为本研究的自变量之一。
图1.包含12种不同类型变量的电影的价值链
一部电影的演员或明星效应对消费提供了一个显著推动(Wallace 等人 1993)。一项哈佛大学的研究表明明星影响着电影的预期收入(Elberse 2007)。从营销角度来看,一线明星有助于创造电影的品牌资产,从而为电影创造更多的钱(Chang 和 Ki 2005)。但是,明星经常得到补偿而不管他们对收入有没有贡献(Skilton 2009)。一些研究发现明星效应对票房销售没有影响(Litman 1983,De Vany和Walls 1999)。由于明星在驱动电影收入方面的作用仍然是有争议的,我们通过电影中一线明星排名的IMDb来量化明星影响力。
在以往的研究中,导演效应对电影同样有重要影响(Delmestri等人 2005)。根据对好莱坞电影的研究表明导演对成功电影的财务有着重要影响(Terry等人 2005)。同样,我们希望印度电影导演对电影票房作出贡献。为了量化导演影响力,我们采用了导演的IMDb排名。
一部影片的类型对成功起着重要的作用,然而根据收集的数据类型分为11类:浪漫,行动,喜剧,惊悚,犯罪,戏剧,科幻,音乐, 冒险,秘史,发现好莱坞类型不是(Litman和 Kohl 1989, Sochay 1994)。印度电影通常有混合类型,即一种或多种流派元素的系统组合。这些混合的电影类型11个二进制表示独立变量,并将电影分配给它所属的类别。比如2009年的电影“三傻大闹宝莱坞”则被分配为“戏剧” 和“喜剧”。
印度电影生产续集是众所周知的。直观地说,我们期待续集和成功电影的财务呈正相关,因为他们在过去获得了成就。生产续集最主要的好处感知观众对续集的受欢迎程度。在好莱坞的一系列研究中,我们使用了一个二进制变量判断电影是否是续集(Ravid 1999)。
一些对好莱坞电影的研究表明电影是否是翻拍或改编于畅销小说、传记、真实事件对电影的财务成功有着影响(Wyatt 2010)。因此,我们用二进制变量来界定电影是否来自于翻拍。2.2与分配阶段相关的变量
对任何产品来说,能在市场上广泛使用至关重要,对电影也是。电影的发行使其走向观众。电影观众一般来说对电影的发行非常好奇,特别是他们很难有渠道了解电影。在这种情况下,电影预告片在扩大电影影响中起着重要作用(Xu 和 Goonawardene 2014)。Oghina等人研究了像YouTube预告片等电影评级对量化指标的影响(Oghina等人2012)。定量指标旨在捕捉如意见数、喜不喜欢预告片和对预告的评论等表面特征。在这项研究中,这些表面特征可以从YouTube电影预告片中获得(Oghina等人 2012)。
人们普遍预计,印度电影排片量对电影表现有显著影响。一项研究表明,排片量和总票房有着正相关的联系,但是结果表明,大量的拍片不一定能保证票房的成功(Chang和Ki 2005)。全球总排片(国内和海外)在这项研究中被视为其中一个独立变量。
人们习惯于庆祝和看电影来享受假期(Zhang 等人 2009)。因此,发行时间在电影财务表现中起着至关重要的作用。美国研究表明,票房收入在夏季和圣诞期间有着较高的增长(Litman 1983, Sochay 1994, Wyatt 2010)。比如,电影明星“萨尔曼·汗”在“尔德节”上映的电影一般都出自宝莱坞顶级制作公司。我们选取两个表现上映时间对电影收入有影响的变量,一个正好是电影发行一季度而另一个是在四分之一季度。已经使用了五个二进制变量:四个对应四分之一和一季度。
2.3与展出相关的变量
电影的展出阶段涉及到观众对电影的删选。一部电影的成败可能取决于电影在展出期间的评分。印度观众依赖于由在线评论、报纸评论和电视评论构成互联网电影数据库 (IMDb)中的评价。这里我们选取IMDb中的评价为一个独立变量。
在线搜索电影对于收集观众表现来进行预期是非常有帮助的(Goel 等人 2010)。Kulkarni 等人也研究了在开放周末的电影收入中在线搜索数据的效果,并发现在线搜索是非常重要的(Kulkarni 等人 2012)。因此,我们引入了可异名为网络意识的指数来衡量在线搜索的影响。网络意识指数可能横穿整个价值链。谷歌趋势已经被用来捕捉相关网页的电影意识数据。
2.4分析模型
传统的预测模型如人造神经网络、决策树(Lemmens 和 Croux 2006),基于回归的模型、支持向量的机器(Coussement 和 Van den Poel 2008) 都在各个领域的预测中有广泛的应用。神经网络已被用于预测如金融资产波动、银行破产、医疗保健费用等各种市场环境中。在电影领域,人造神经网络首先被Sharda 和 Delen用于预测电影票房成功(Delen 和 Sharda 2010, Sharda 和 Delen 2006)。这项研究把电影分为九个等级,从“失利”到“风行一时的大片”。此外,Zhang 等人已经使用多层次翻转传播神经网络来预测电影票房收入(Zhang 等人2009)。最近,已经运用动态人造神经网络(DAN2)对电影收入的预生产进行预测(Ghiassi 等人 2015)。
CART是在预测连续因变量中使用的方法之一(Breiman 等人 1984, Loh 2011)。CART使用基于二叉树方法的递归分区来预测空间分为子集,使因变量分布更多同质(Chipman 等人 1998)。当裂变不再发生和因变量最小化时,回归树增长(Razi 和 Athappilly 2005)。独特的根节点和终端节点生成一组用于分类或预测的规则。
古典线性回归是一种统计回归方法,它是在两个或两个以上独立变量和一个因变量之间关系的发展。为了用线性回归模型分析数据,普通最小二乘法(OLS)被认为是最佳的估计方法,它使以下假设为真:方差的均衡性、函数的线性形式、误差项的正态分布、无自相关性和无异常值。违反这些假设可能导致OLS估计的误差大大提高和效率降低(Wilcox 2010)。强大的回归分析提供了一种当基础假设被数据性质所侵害时的代替OLS回归的建模。因此,已经进行的基于MM的稳健回归则克服了古典线性回归的局限性(Yohai 1987)。
近年来的应用统计研究侧重于融合的单一模型预测(van Wezel 和 Potharst 2007)。这种组合模型的预测被用于组合个体模型的权重(Kuncheva 和 Rodriguez 2007)。集成模式很可能在个体模型发生差异时产生更强大的稳健预测(Coussement 和 De Bock 2013)。集成模型因为它在的各种应用和领域高精度而受到欢迎(Bauer 和 Kohavi 1999)。
3.数据收集和组织
在这项研究中,我们收集了八月六日至十月十五日这期间的印度电影数据。数据主要来源于IMDb, YouTube、谷歌趋势和一些像维基百科、Indicine4、Bollywoodhungama5和Boxofficeindia这些其他门户网站。这些数据已经使用于Python和R脚本。
数据集合包含了34个变量和120条记录。我们选择了12个在此领域基于以前研究的不同类型变量(Sharda和Delen 2006, Terry等人2005, Goel等人2010, Elberse 和 Eliashberg 2002)。本研究中的目标变量是全球电影总收入。通胀的目标和预测因素之一则是通过使用Laspeyres公式进行调整。通胀数据则采用2006至2015年世界银行数据。我们相信对通货膨胀引起的额外收入和预算进行调整是掌握十年来电影财务业绩最真实的方式。明星和导演影响力都通过他们的IMDb排行进行分别量化。这种方法帮助我们将明星的影响力纳入影响电影票房表现的因素中。变量的总结在表1中给出。
我们也对四种数据变量进行了转换:归一化、标准化、1-N二进制表示和离散化。因变量(全球总收入)已经转换到[0hellip;1]范围内,使得其能适应用于神经网络的逻辑激活功能的要求。这是完成的最小-最大归一化技术的使用(1) (Han等人2011)。
这里的???? 和 ????是A的最大值和最小值。这种回归技术在???=0 到?′max = 1的范围内把?? 的值转化为 ?′? 的值。
网络意识指数已经被视为当关于电影的网页搜索达到峰值时的一个重点。它的计算是相对的。比如,“金奈快车”的网络指数是50,而“我滴个神啊”是
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[26484],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。