作者:胡启月 刘彬 高剑波;转自:公众号 DH数字人文
文本分析
胡启月 / 北京师范大学地理科学学部
刘彬 / 广西大学商学院
高剑波 / 北京师范大学地理科学学部(通讯作者)
————————————
摘要:自问世以来,哈利·波特系列的原著和电影就广受好评,不仅吸引了儿童,也吸引了成人,在烂番茄(Rotten Tomatoes)和互联网电影资料库(IMDb)两大影评网站上收获了较好的口碑,取得了巨大的商业成功。然而,这些机构给出的电影评分具有很强的主观性。那么,能否以电影台词的情感为切入点找到客观评价电影的指标?利用自相似分形理论中的关键参数Hurst指数来表征哈利·波特系列电影台词的情感动态演变。研究发现,哈利·波特系列电影台词的情感时间序列的Hurst指数(H)介于0.5和0.7之间,意味着这些电影既展示了许多有趣的信息,也让故事情节有较完整的展开。通过对比哈利·波特电影台词情感时间序列的Hurst指数与烂番茄和IMDb的电影评分,发现它们之间存在较好的负相关关系,表明Hurst指数能够帮助客观评价电影的受欢迎程度,并为投资者判断新电影是否值得投资提供参考。
关键词:哈利·波特 情感分析 自适应分形分析(AFA)
————————————
前 言
《哈利·波特》系列小说自问世以来就风靡全球,这个由J. K.罗琳一手缔造的魔法世界拥有庞大的粉丝群体,涵盖各个年龄段,成为无数人的情怀所在。到目前为止,这些小说已经被翻译成80多种语言,在全球的销量超过5亿册,[1]由其改编而来的电影在全球创造了超过77亿美元的票房记录。[2]哈利·波特系列故事主要讲述了哈利和伏地魔之间的斗争,字里行间蕴含着丰富的情感,包括亲情、友情、师生情以及逐渐长大的主要角色之间懵懂而青涩的爱情。该系列电影在烂番茄(Rotten Tomatoes)和互联网电影资料库(IMDb)两大影评网站上也收获了很好的口碑。然而这两大机构给出的电影评分是基于专家或普通观众打分,并通过不同算法得出的。很显然,这些专家或者观众对一部电影的评分带有很强的主观性,可能会导致准确性偏颇。那么,能否仅从电影台词(文本)的情感出发找到一个或一些指标,客观地评价哈利·波特系列影视作品的成功程度,以推断为何它们如此受欢迎,进而推广至整个影视评价领域?解决上述问题对于影视剧本的创作或者改编具有重要的指导意义。
对文本的情感分析得益于观点挖掘或人工智能技术的发展,这些技术是在工程学中发展起来的,用于分析各种文本,包括评论、社交媒体和意见,目的是改善营销和客户服务,监测政治事件等,[3]早期情感分析的主要方法是基于词典,即赋予每个“情感字”“情感词”一个“情感分”,整篇文章的“情感分”即是所有“情感字”“情感词”的“情感得分”的总和,Reagan等人在深入研究了6个情感词典后,发现基于词典的情感分析方法对较长文本的分类精度一般都很好。[4]基于词典的情感分析在大规模的评论分析[5]、社交媒体和微博分析[6]、观点挖掘[7]和短文本分析[8]等方面得到了极大的应用。深度学习的巨大成功,催生了不依赖于词典而基于深度学习的情感分析。目前,大多数的情感分析忽略了文本中的情感动态,他们仅仅估计短文本(如推特文本或商品评论、影视作品评价等)的正/负/中性极性,并提取一组关键字用于关键词评估和观点挖掘。近年来,长篇文学作品的情感分析有了一些新的进展。在这些研究中,情感词典被用来提取一个反映长文本叙事结构的情感时间序列——“故事弧”(Story Arc)。Julian Brooke(2015)介绍了一种名为GutenTag的工具,旨在让文学学者可以直接使用它和其他自然语言处理(NLP)技术来分析Gutenberg语料库中的文本。[9]Jockers和Reagan通过研究大量的外国文学作品的情感动态,认为情感曲线(Sentiment Arc)能够很好地反映故事情节,并归纳总结出文学作品的情感曲线大致有6种。[10]
关于《哈利·波特》系列小说的情感分析也已取得部分成果,Reagan(2016)从《哈利·波特与死亡圣器》原著中提取了情感时间序列,并将情感趋势的高潮和低谷与故事的主要情节相匹配。[11]也有学者比较了系列小说与其改编电影之间的异同,Philip Nel(2009)比较了《哈利·波特与阿兹卡班的囚徒》原著和电影之间主要情节的变化,并对这些变化的原因和影响进行了讨论。[12]但是这些研究并没有揭示哈利·波特系列电影能够取得巨大成功的深层次原因,对一部电影与观众评价的比较分析也处于空白状态。
近期关于情感分析的进展来自于研究英语小说的人文学者Matthew L. Jockers教授,他开发了一个名为Syuzhet的R语言包。[13]该R语言包含有四个情感词典,分别为syuzhet(Jockers领导的Nebraska Literary Lab开发)、affin (Finn Arup Nielsen开发)、bing(Minqing Hu and Bing Liu开发)、nrc(Saif M. Mohammad and Peter D. Turney开发),并提供了一种能够访问斯坦福大学NLP (Natural Language Processing)小组开发的具有强大功能和运算力的情感抽取工具的方法。利用该R语言包可获取一部小说里每句话的情感分值,将情感分按顺序排列,就得到该小说文本的情感时间序列,这个序列被认为很好地刻画了小说情节的发展。相比于以前静态的情感分析,这个情感分析蕴含了动力学,可以说是一个巨大的突破。然而,该分析所面临的挑战是如何充分刻画情感时间序列,尤其是发现其规律。所幸,这个挑战可由随机分形理论里的一个重要概念——长程相关性很好地解决。衡量时间序列长程相关性的常用指标是自相似分形理论中的关键参数——Hurst指数,该方法已经被应用于文学作品的情感分析。[14]本文将这个指数应用到哈利·波特系列电影台词的情感分析中,并将其与电影评分相比较,以发现它们的内在价值。
一、方法
(一)非线性自适应滤波[15]
利用Syuzhet抽取出的电影台词文本的情感时间序列较为复杂(见图2中的子图(a1)和(b1)),仅通过观察原始情感时间序列无法帮助我们了解电影情感的动态演变特征,所以需要提取原始情感时间序列的全局趋势。现有处理时间序列滤波的方法很多,诸如移动平均、小波滤波、卡尔曼滤波等。然而在处理非线性时间序列时,这些方法均不够准确,基于此,高剑波(2010)发展了非线性自适应滤波(Nonlinear adaptive filtering),[16]该方法比小波滤波等方法更有效地探测到非线性时间序列的趋势。具体计算过程如下:[17]对于时间序列X={X(t),t=0,1,2,3,…,n},把X分成若干段或者窗口,分段的每个窗口的大小为w=2k+1个点,且相邻两段之间有k+1个点重叠。对于每一小段时间序列,用M阶多项式去拟合它(常用二阶多项式),得到每段时间序列的趋势(以图1(a)为示例,将原始数据分为3段,红色、蓝色和绿色曲线分别对应这3段序列的趋势),相邻两段时间序列的趋势在重叠点上是不一样的(见图1(a))。接下来对相邻两段趋势线在重叠部分的多项式进行加权拟合,不妨将第i段和第i+1段拟合的多项式记为:y(i)(l1 ),y(i+1) (l2),I1,l2=1,2,3,…,2k+1。对这两段的重叠部分 (l=1,2,3,…,k+1),按照公式(1)进行加权拟合:
这里
可以写成
这里的dj分别表示重叠部分上的点到y(i)和y(i+1)中心的距离,这意味着权重随着点到窗口中心的距离增加而减小。经过对所有分段时间序列的重叠部分进行加权拟合后得到一个全局平滑的趋势信号(见图1(b)中的红色(窗口大小为61)和绿色(窗口大小为121)曲线,其中蓝色曲线为整个时间序列的全局线性趋势;可见,红色和绿色曲线能够很好地捕捉原始数据在不同窗口下的全局趋势)。事实上,这样的重叠处理,可以使拟合在任何地方不仅都是连续的,且在非边界的点都是光滑的,即使在边界点上也存在左导或右导。本文将利用该方法捕捉哈利·波特系列电影台词的情感时间序列的全局趋势,总结其波形的规律,以揭示如何利用非线性自适应滤波方法识别电影结局的类型。
(二)Hurst指数
Hurst指数(H)是以英国水文专家H. E. Hurst命名的,能够用来衡量时间序列的长程相关性(即长期记忆性或持续性)。目前,该指数已被应用于医学、金融、工程、气候、文学等诸多领域。[18]指数原理如下:X={X(t),t=1,2,3,…,n}以为协方差稳定的随机过程为例,其中自相关函数r(k),k≥0,满足:
当H=0.5,称该随机过程为布朗运动(过程是完全随机的,无法预测);当0.5<H<1时,称该随机过程具有长程相关性,H越大则长程相关性就越强(意味着趋势或者惯性越强);当0<H<0.5时,称该随机过程是逆长程相关性的。
目前计算Hurst的方法有很多种,最常用的是去趋势波动分析(Detrended Fluctuation Analysis, DFA)。但DFA方法将时间序列X(t)分割为不重叠的等长度的子序列,相邻两个窗口下拟合的多项式在其窗口交界处是不连续的(见图1(a)中的红色和绿色曲线在其交界处是断开的),从而导致H的估算有可能出现偏差。为避免上述问题,高剑波教授提出自适应分形分析(Adaptive Fractal Analysis, AFA)方法,[19]实现了相邻两段趋势之间重叠部分的点是相同的(见图1(b)中的红色与绿色曲线),进而提升H估算的准确性。自适应分形分析(AFA)是目前计算Hurst指数的最佳方法。具体计算过程如下:通过选取不同的窗口,利用非线性自适应滤波得到的全局趋势v(i)和原始序列u(i)相减之后的方差可以刻画围绕在全局趋势附近的波动程度。具体计算如下:假设从一个平稳的增量过程x(1),x(2),x(3),…出发,通过方程(3)构建一个随机游走过程:
利用非线性自适应滤波捕捉随机游走过程u(i)的一个全局趋势v(i),i=1,2,…,N。将u(i)与v(i)相减之后的标准差与窗口大小w之间存在以下关系:
利用F(2)(w)与w的关系能够很好地估计H。在实际操作中,通过线性拟合得到的log2F(w)与log2(w)的斜率即为H。
关于Hurst指数在文本情感分析中的解释如下:[20]当0.5<H<1,文本具有强烈的情绪、感受和态度,且叙事具有连贯性,能够激励读者继续阅读;但是H不能太接近1,越接近1,表明故事的情节越单一,读者可能只需要阅读一部分文本就能掌握整个故事;当H=0.5时,表示叙事缺乏连贯性,文本情感的波动是随机的,读者无法预测情节的走向,整个故事可能会因缺乏逻辑性而陷入混乱;当0<H<0.5时,表示故事中的一个情节尚未充分展开就结束了,读者阅读时会产生断层的感觉,每个情节似乎都处在未完成的状态。在本文中,我们利用该指数揭示哈利·波特系列电影能够引人入胜的原因,及其与电影评分的关系。
二、哈利·波特系列电影台词的情感动态演变
哈利·波特系列电影一共有八部,我们首先使用Syuzhet情感词典抽取每一部英文版电影台词文本的情感时间序列,接着使用非线性自适应滤波找出其电影情节变化的全局趋势,并观察其动态演化。以《阿兹卡班的囚徒和死亡圣器II》(第7部小说的第二部电影)为例,结果如图2所示,其中图(a1)、(b1)中的蓝色曲线是经标准化处理后的情感时间序列,由于原始情感时间序列非常不规则,因此需要通过非线性自适应滤波找出其全局趋势。绿色和红色曲线是选取不同的窗口后得到的情感趋势(前者窗口大小为15,后者479),其中红色曲线几乎接近0。这里的窗口即为非线性自适应滤波方法中的w,窗口大小为15,指的是以每15句话作为一段,利用非线性自适应滤波计算其趋势。窗口选取的越大,全局趋势越简单;反之,全局趋势越复杂。对应于子图(a1)和(b1)中绿色的曲线(窗口为15)波动明显比红色曲线(窗口为479)更剧烈。为更清楚地观察每部作品的情感时间序列的全局趋势,我们进一步绘制了子图(a1)和(b1)中的红色曲线在[-1, 1]上的局部放大图,见子图(a2)和(b2)。
然而,子图(a2)和(b2)中红色曲线依然比较复杂,保留了一些局部细节。因此,需要选取更大的窗口对原始的情感时间序列进行滤波,并按照红色曲线的放大比例进行重置,从而得到新的全局趋势,见子图(a2,b2)中的黑色曲线(窗口大小为889,为便于理解和比较,本文中同一颜色趋势线的窗口大小一致)。
我们通过人工观看哈利·波特系列电影,来检验黑色曲线与电影剧情的发展是否一致,发现每条黑色曲线都能够很好地与各自的剧情相对应。以电影《哈利·波特与阿兹卡班的囚徒》为例,该部电影讲述的故事充分运用了反转技巧,并加入了时空穿越的元素,使得整部电影的剧情跌宕起伏。电影在开端部分即营造了一种紧张的氛围:哈利与弗农姨夫一家又起了冲突,一气之下提前返校,随后他从罗恩爸爸那里得知:被视为一号危险分子的小天狼星布莱克(哈利的教父)从阿兹卡班监狱逃脱了。传言他是个叛徒,也是害死哈利父母的帮凶,他出逃的目的是杀死哈利,为其主人伏地魔报仇。我们可以观察到:图1中(a2)子图开端部分的情感趋势是偏向负面的。新学期开始了,哈利在神奇动物课上骑着巴克比克(一种鹰头马身有翼兽)出尽风头,与此同时他与曾是自己父母老相识的卢平教授相谈甚欢。此时电影处在较为轻松的氛围中,对应于(a2)子图中,黑色曲线逐渐上升并维持在一个平稳且偏正面情感的状态。在哈利及其朋友们的眼中,布莱克是危险的敌人,因此电影不吝笔墨地描述了哈利对布莱克的误解甚至不乏直接冲突的场面,这段剧情表现为(a2)子图中黑色曲线的持续下行。随着情节的推进,真正的背叛者——小矮星彼得浮出水面,他因伪装成了罗恩的宠物而躲过了怀疑,布莱克使其现出原形从而证实了自己的清白,与哈利相认后,协同众人预备将彼得押回霍格沃兹。正当人们以为事情已经告一段落的时候,意外再次发生:卢平因恰逢满月而变身成狼人并袭击了布莱克,彼得趁机逃跑了!哈利也因遭遇摄魂怪的围攻而几乎丧命。电影台词的情感趋势快速下降以至于直接陷入了谷底(对应于子图(a2)中黑色曲线的最低处)。幸运的是一头闪闪发光的公鹿及时出现,击退了摄魂怪。原来,此前哈利和赫敏为阻止行刑者处死巴克比克,在校长邓布利多的授意下使用时空沙漏穿越时空,那头公鹿实际上是哈利的守护神,未来的他穿越了时间之门救了过去的自己。看到此处,一直身处哈利视角的观众不禁会发出一声“原来如此!”的惊叹,电影情节由此快速反转并到达高潮。电影《哈利·波特与阿兹卡班的囚徒》后半部分的故事节奏加快、悬念丛生、跌宕起伏,与之对应的(a2)子图中的黑色曲线也经历了如坐过山车般的波动,快速坠入谷底又在临近结尾前的地方迅速攀升至高峰。电影的结尾处,卢平教授因自己的狼人身份已然暴露,而不得不离开获霍格沃兹学院,哈利再次陷入孤单,同时对凶手彼得仍然在逃而感到灰心,这与子图(a2)中黑色曲线的尾部相对应。因而,黑色曲线的走向与电影剧情的发展几乎是一致的,电影台词情感序列的趋势确实能够反映电影情节的发展。
通过对比两个子图中的红色与黑色曲线,能够发现两部电影的情感趋势差异非常大:一是,在电影结局之前,前者情感趋势波动的频率明显比后者的高(红色曲线中有4次明显的波峰和4次低谷,反映出其情节的发展可谓跌宕起伏),而后者在结局之前情感趋势的波动的幅度比较平缓,且基调基本以负面为主;二是,二者的结局截然相反,前者最终走向悲剧(黑色曲线在结尾部分下行),而后者则以较为轻松的团圆结局收尾(黑色曲线在结尾部分呈上升趋势)。
其他六部电影台词情感时间序列的全局趋势如图3所示,图中除了《哈利·波特与混血王子》这部电影是以悲剧结尾,另5部都以喜剧或正剧结尾;且这些曲线的走向与电影的情节几乎完全契合,有助于掌握每部电影的情节走向。在哈利·波特系列的8部电影中,有6部是以喜剧或者正剧结尾的,两部是悲剧结尾的,观察图2和图3中黑色曲线尾部是上行还是下降即可判断。当然,通过观察这些电影台词的情感时间序列的全局趋势并不能判断为何哈利·波特的电影能够如此的成功。因此,需要借助随机分形理论中的Hurst指数进一步研究。
本文利用AFA计算哈利·波特每一部电影的台词情感时间序列的Hurst指数,结果见图4,每个子图中log2F(w)与log2w都具有很好的线性关系,根据前文中Hurst指数的计算公式可知,log2F(w)与log2w拟合的斜率即为Hurst指数。可以发现哈利·波特系列8部电影台词的情感时间序列的H值在0.5到0.7之间,根据前文方法部分中关于Hurst指数的解释,这些电影是非常具有吸引力的,既展示了许多有趣的信息,也让故事情节有较完整的展开。因而,Hurst指数可以帮助我们理解为何哈利·波特系列电影会如此受欢迎。
三、Hurst指数与电影评分之间的相关性
既然H指数能够较好地解释为何哈利·波特系列电影如此的受欢迎,那么,电影台词的H指数与电影评分之间是否存在某种关联性呢?
众所周知,评估一部电影是否成功是一项复杂的任务,除了最直观的票房统计数据外,还需要收集专业影评人和电影观众的意见,但这些要么难以准确计算(在全球范围内计算电影的票房总收入并不难实现,但不能保证没有遗漏),要么主观性太强。现实中,常见的指标是电影评分,目前全球最权威的两家影视评分机构分别是互联网电影资料库(以下简称IMDb)和烂番茄(Rotten Tomatoes)。[21]其中,IMDb是一个与电影、电视节目、家庭视频、视频游戏以及在线媒流体内容有关的在线数据库,包括演员、制作人员和个人传记、情节概述、琐事、粉丝和评论、评分。IMDb评分是目前使用最广泛的电影评分,其计算方法是保密的,但是IMDbTop250采用的是贝叶斯统计的算法得到的加权分,数据来源于投票者的投票和打分。烂番茄是一个以提供电影相关评论、资讯和新闻为主的美国网站,该网站记录了每部电影的所有评论,已经成为电影消费者和影迷的首选目的地。该网站对一部电影的评价是以所有网站认证影评人的评价为基础,根据影评人的评价认定该部电影是好(新鲜番茄)还是不好(烂番茄),并使用整体数据(aggregate data)来决定评论是正面(“新鲜”,fresh)或者负面(“腐烂”,rotten)。本文选取烂番茄和IMDb上关于哈利·波特系列电影的评分与计算得到的Hurst指数进行比较,结果见图5和图6。[22]
图5反映的是电影台词的Hurst指数与烂番茄的评分指标番茄值(Tomatometer)之间的相关性,图中左边纵坐标轴是Hurst指数,右边是番茄值。可以发现,当Hurst指数较高时,电影得到评分就会偏低,反之也成立。基于此,我们计算了前6部电影的Hurst指数与番茄值评分的皮尔逊相关系数[23]为-0.8,具有很好的负相关性。需要注意的是,《哈利·波特与死亡圣器II》作为哈利·波特系列的最后一部影视作品,也是所有电影中评分最高的,其评分和Hurst指数有一定程度的偏差,这主要是因为最后一部作品的评分更多地体现了专家或者观众对该系列所保有的一种情怀,口碑和评分自然很高。图6反映的是电影台词的Hurst指数与IMDb的评分之间的相关性,其中前六部电影的Hurst指数与IMDb评分(IMDb sore)的皮尔逊相关系数为-0.66。因此,二者存在着很好的负相关。
图5和图6的结果表明,哈利·波特系列电影台词情感时间序列的Hurst指数与其电影评分存在着较好的负相关,即电影的受欢迎程度越高,电影台词情感时间序列的Hurst指数就越低,反之亦然。根据前文阐述,对于哈利·波特系列电影而言,Hurst越接近0.5,在故事情节有较完整展开的基础上,情节波动越剧烈,越能吸引观众,电影越能得到观众的认可,评分就越高。
事实上,无论是IMDb,还是烂番茄,对哈利·波特系列电影的评分都带有很强的主观性,有可能造成其打分与事实有出入的问题。而基于电影台词的情感时间序列的Hurst指数,则是根据电影中所蕴含的情感得到的客观指标,且与IMDb和烂番茄上的评分有着较好的负相关,这表明:将电影台词的情感时间序列的Hurst指数用于电影评价,会更加客观公正。
结 论
运用自相似分形理论中的Hurst指数对哈利·波特系列电影台词情感时间序列进行研究,并将该指数与两大权威影评机构的评分进行相关性分析,结论如下:(1)电影台词的情感时间序列能够在一定程度上反映故事情节的发展走向;(2)通过自适应分形分析(AFA)计算得到的电影台词情感的Hurst指数,在一定程度上能够用来解释为何哈利·波特系列电影备受欢迎;[24](3)电影台词情感序列的Hurst指数与电影评分呈负相关,即情节越紧凑,故事中的冲突越集中,电影就越受欢迎。
本研究因为仅采用了电影台词,而非剧本,使得人物动作、心理活动和面部表情及角色所处的环境描写均缺失,显然,分析剧本将会比台词更加准确。不过上述结论对于剧本的创作和改编也具有重要的参考价值。当编剧正在编写或改编剧本时,利用Hurst指数能够帮助其设定和调整故事情节。另一方面,当制片人和导演收到新的影视剧本时,通过计算剧本情感时间序列的Hurst指数,可以帮助他们判断这些剧本是否值得投资。
本文为国家自然科学基金面上项目(No. 41671532)和国家自然科学基金地区项目(No. 71661002)阶段性成果,同时受中央高校基本科研业务费专项资金(The Fundamental Research Funds for the Central Universities)资助。
—————————————————————————————————————————————————————————————
Objective Evaluation of the Harry Potter Movie Series: Insights from Self-Similar Fractal Sentiment Dynamics
Hu Qiyue, Liu Bin, Gao Jianbo
Abstract: Since the first appearance, the Harry Potter novels and movies series have been widely acclaimed, captivating not only children but also adults. They have gained a good reputation on the two major film review websites: Rotten Tomatoes and Internet Movie Database (IMDb), and have achieved great commercial success. However, the film ratings given by these institutions are highly subjective. Is it possible to find an objective evaluation index based on the sentiment of movie lines? In the view of this, we use the Hurst parameter from random fractal theory to characterize the sentiment dynamics of the movie lines of Harry Potter series. The results show that Hurst parameter is [0.5, 0.7], which means that while each film reveals a lot of interesting information, the plots of the stories have also rather well developed. Interestingly, we have found that there is a good negative correlation between Hurst parameter and the movie scores of Rotten Tomatoes and IMDb, indicating that the Hurst parameter can help evaluate the popularity of the films. This offers a possibility for objectively evaluating movies and provides a reference for investors to decide whether a new movie is worth investing.
Keywords: Harry Potter; Sentiment Analysis; Adaptive Fractal Analysis (AFA)
—————————————————————————————————————————————————————————————
编 辑 | 赵薇
注释:
[1]https://en.wikipedia.org/wiki/Harry_Potter, accessed August 2, 2020.
[2]https://en.wikipedia.org/wiki/Harry_Potter_(film_series); https://www.boxofficemojo.com/ search/?q=Harrypotter. accessed August 2, 2020.
[3]Erik Cambria,“Affective Computing and Sentiment Analysis,”IEEE Intelligent Systems, vol. 31,.no. 2, 2016, pp. 102-107.
[4]Andrew J. Reagan et al.“, Sentiment Analysis Methods for Understanding Large-Scale Texts: A Case for Using Continuum-Scored Words and Word Shift Graphs,”EPJ Data Science, vol. 6, no. 1, 2017, pp. 28.
[5]Tony Mullen, Nigel Collier“, Sentiment Analysis Using Support Vector Machines with Diverse Information Sources,”Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, 2004.
[6]Finn Årup Nielsen“, A New ANEW: Evaluation of A Word list for Sentiment Analysis in Microblogs,”arXiv preprint arXiv:1103.2903, 2011.
[7]L. Zhang, B. Liu“, Sentiment Analysis and Opinion Mining, Encyclopedia of Machine Learning and Data Mining,”Boston: Springer, MA, 2017:1152C1161; Erik Cambria et al.“, New avenues in Opinion Mining and Sentiment Analysis,”IEEE Intelligent Systems, vol. 28, no. 2, 2013, pp. 15-21.
[8]X. Weng et al.,“The Comment of BBS: How Investor Sentiment Affects a Share Market of China,” International Conference on Machine Learning for Networking, Springer, Cham, 2018, pp. 270-278; C. Dos Santos, M. Gatti,“Deep Convolutional Neural Networks for Sentiment Analysis of Short texts,” Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, 2014, pp. 69-78; M.Wevers, J. Gao, K. L.Nielbo,“Tracking the Consumption Junction: Temporal Dependencies between Articles and Advertisements in Dutch Newspapers,”arXiv preprint arXiv:1903.11461, 2019.
[9]Julian Brooke, Adam Hammond and Graeme Hirst,“GutenTag: An NLP-DrivenTool for Digital Humanities Research in the Project Gutenberg Corpus,”https://www.cs.toronto.edu/pub/gh/Brooke-etal- 2015-CLfL.pdf, accessed August 2, 2020.
[10]Matthew L. Jockers“, Syuzhet: Extracts Sentiment and Sentiment-Derived Plot Arcs from Text,”https:// cran.r-project.org/web/packages/syuzhet/index.html, accessed May 10, 2019;Andrew J. Reagan et al., “Theemotionalarcsofstoriesaredominatedbysixbasicshapes,”EPJDataScience,vol.5,no.1,2016,pp.31.
[11]Reagan et al.“, The emotional,”pp. 31.
[12]Philip Nel“, Lost in Translation? Harry Potter, from Page to Screen,”Critical Perspectives on Harry Potter 2, 2009, pp. 275-290.
[13]Matthew L. Jockers,“Syuzhet: Extracts,”https://cran.r-project.org/web/packages/syuzhet/index.html, Accessed May 10, 2019; Matthew L. Jockers,“More Syuzhet Validation,”http://www.matthewjock ers. net/2016/08/11/more-syuzhet-validation/, accessed May 10, 2019.
[14]Gao Jianbo et al.,“A multiscale theory for the dynamical evolution of sentiment in novels,”2016 International Conference on Behavioral, Economic and Socio-cultural Computing (BESC), IEEE, 2016; Dai Kaiyun, Ma Menglan and Gao Jianbo,“Sentiment Dynamics of The Chronicles of Narnia and Their Ranking,”International Conference on Social Computing, Behavioral-Cultural Modeling and Prediction and Behavior Representation in Modeling and Simulation, Springer, Cham, 2018; Q. Hu et al.,“Dynamic Evolution of Sentiments in Never Let Me Go: Lnsights from Quantitative Analysis and Implications,”2019 6th International Conference on Behavioral, Economic and Socio-Cultural Computing (BESC), IEEE, 2019, PP. 1-6.
[15]Gao Jianbo et al.,“Denoising Nonlinear Time Series by Adaptive Filtering and Wavelet Shrinkage: A Comparison,”IEEE Signal Processing Letters, vol. 17, 2010, pp. 237-240; Hu Jing, Gao Jianbo and Wang Xingsong,“Multifractal Analysis of Sunspot Time Series: The Effects of The 11-year Cycle and Fourier Truncation,”Journal of Statistical Mechanics: Theory and Experiment, vol. 02, 2009; Gao Jianbo et al., Multiscale Analysis of Complex Time Series, Integration of Chaos and Random Fractal Theory and Beyond, USA: John Wily & Sons. Inc., 2007.
[16]Gao Jianbo et al.“, Denoising Nonlinear,”pp. 237-240.
[17]高剑波:《“一带一路”大数据定量分析:任务、挑战及解决方案》,北京:科学出版社,2018年,第41—43页。
[18]A. Carbone, G. Castelli and H. E. Stanley,“Time-Dependent Hurst Exponent in Financial Time Series,” Physica A: Statistical Mechanics and its Applications, vol. 344, nos.1/2, 2004, pp. 267-271; M. A. Riley et al.“, A Tutorial Introduction to Adaptive Fractal Analysis,”Frontiers in Physiology, vol. 3, 2012, pp. 371; Gao Jianbo, J. Hu, W. Tung,“Complexity Measures of Brain Wave Dynamics,”Cognitive neurodynamics, vol. 5, no. 2, 2011, pp. 171-182; Gao Jianbo et al.,“Culturomics Meets Random Fractal Theory: Insights into Long-Range Correlations of Social and Natural Phenomena over the Past Two Centuries,”Journal of The Royal Society Interface, vol. 9, no. 73, 2012, pp. 1956-1964; Gao Jianbo et al.“, A Aultiscale Theory for the Dynamical Evolution of Sentiment in Novels,”2016 International Conference on Behavioral, Economic and Socio-cultural Computing (BESC), IEEE, 2016, PP. 1-4.
[19]Gao Jianbo et al., Multiscale Analysis of Complex Time Series, Integration of Chaos and Random Fractal Theory and Beyond, USA: John Wily & Sons. Inc., 2007.
[20]Q. Hu et al.“, Dynamic Evolution of Sentiments in Never Let Me Go: 2 Insights from Multifractal Theory and Its Implications for literary Analysis,”Digital Scholarship in the Humanities, 2020.
[21]https://www.imdb.com/, accessed September 19, 2019; https://www.rottentomatoes.com/, accessed September 19, 2019.
[22]因研究的样本点过少,文中并未绘制哈利·波特系列电影台词的Hurst指数与评分的散点图,而是采用了更为直观的图形与相关系数结合的方式。
[23]因哈利·波特系列电影最后一篇分为上下两部分,且受其他因素影响(如观众对该系列的“情怀”)较大,故文中仅对该系列前6部的台词情感序列的H指数和评分计算相关系数。
[24]富有吸引力的剧情能够在一定程度上为一部电影赢得观众的青睐,但审美具有主观性,电影能否备受欢迎,会受观众知识水平、年龄等多种因素的影响。电影作品传达的内容能够被观影者领会多少,既要看创作者的功力,也要看接受者的能力和选择。此外,一部电影能否大范围受到欢迎,还会受各种客观因素的影响,例如技术水准、观影条件等等,不过,这些都不在本文所要讨论的范围之内。
原刊《数字人文》2021年第1期,转载请联系授权。