作者:曹军军 沈浩,转自:公众号 DH数字人文
曹军军/中国音乐学院中国音乐研究基地
沈 浩/媒体融合与传播国家重点实验室(中国传媒大学)
————————————————————-
摘 要:文章从文本分析出发,首先简述了符号学“双轴关系”在人文学科中的地位,以及横组合/纵聚合、转喻/隐喻等成对的概念要义;再从结构主义,到网络科学中关于结构等价等问题的讨论,提出双轴关系与语言、语义网络的关联。随后对日本学者内海彰的《基于复杂网络方法的分布式语义模型研究》借用双轴关系在语义网络中的操作做出引介。提出双轴关系和文本的网络分析中若干理念的对应关系,具体为:有向的邻接矩阵体现横组合和邻近性原则,用测地距离可以测度邻近性,对应表层结构;通过邻接矩阵,以结构等价的思路生成相似矩阵,体现纵聚合和相似性原则,相似性又可通过欧氏距离等方式测度,对应深层结构;此外,相应的修辞方式在网络中也能得到表征。进一步以语义网络反观已有的文本符号学分析,探讨理论反哺的可能性。最后对文本分析的文理跨界中存在的一些问题提出建议。
关键词:横组合/纵聚合 邻近性/相似性 测地距离/欧氏距离 转喻/隐喻 网络科学
————————————————————-
在当下学科对话与交叉研究的趋向中,人文学科和自然科学都存在“文本分析”一说,然而,就貌似同样的研究对象,究其理论话语、研究范式等,常大相径庭。[1]如果说研究针对的都是文本的语义,那么在文、理科不同领域中,是否有内在的联系?笔者曾一方面关注人文学科结构主义与符号学关于文本分析的理念,尤其是符号学“双轴关系”在该分析中的重要地位和解析文本的适用性;另一方面,结合对科学界的复杂网络理论、语义网络等关于文本分析的一连串观念,从而发觉:符号学“双轴关系”的基本思想,尤其是其中一系列成对的概念或可在网络科学,以及语义网络研究中得到进一步“操作化”的演绎。
而目前,放眼文本分析的文、理两个领域,各自存在一些局限性:就人文领域的符号学而言,虽然许多学者都认同其在揭示人类思维方式的本质特征中的基础作用,并宣扬双轴关系的思想具有很强的科学性,那么到底如何展现,如何对文本中的语义做出量化的操作?这就一筹莫展了;就自然科学所涉的文本分析、语义网络等技术领域,似乎对“结构”“符号”等用词又信手拈来,该领域对人文学者特别在意的用词内涵尚缺足够的关照,如符号系统中由邻近性、相似性而生的修辞及意义是如何产生的,能否“嵌入”网络分析?
本文以符号学“双轴关系”的视角,重新看待网络分析,尤其是语言网络(语义网络可视为语言网络的一种特殊情况),就其重要概念、相关命题间的关系做出述评与综合思考,促使符号学双轴关系和语义网络的研究在理论层面上形成更密切的对话。针对各领域存在的局限性提出“破局”建议,或能就符号学和网络科学、“人文”与“数字”之间的学科互鉴与联姻提供些许启示。
一、文本分析中的符号学“双轴关系”
信息传播的内容经由符号化的过程,变为有意义的讯息。由此,从传播学的基本理论共识出发,所谓文本分析,首先是“符号分析”,譬如:
文本分析方法对符号的见解,更多源于索绪尔及后来的结构主义者,而非皮尔士(皮尔斯)。索绪尔对符号的剖析……也强调了其外部结构,即纵聚合与横组合。例如,“僧敲月下门”的“敲”字……与“推”“开”等具有类别上的相似性,成为一种“纵聚合”,而它和“僧”“门”等构成了一种“横组合”,使得这句话成为一个有意义的文本。对文本进行符号(学)分析,就是要看其中的符号是如何从一系列纵向聚合中被挑选出来,并与其他符号构成了一个横向的组合,从而构成了一个意义的有机体。[2]
这里的纵聚合和横组合,即符号学“双轴关系”中“双轴”的两种组构方式。在结构主义和符号学的发展历史上,对双轴关系的解释,源于瑞士结构主义语言学家——费迪南·德·索绪尔。这方面的后继者之一是罗曼·雅各布森,他是俄国早期形式主义的代表人物,大力倡导“结构主义符号学”。对其观点述介如下:
横组合和纵聚合分别依据“邻近性原则”和“相似性原则”,将“文本”中的语义单元或要素关联起来,即形成“结构”暨语言的系统,其中有一系列二元成对的概念,参考表1。
表1 符号学“双轴关系”中基本的二元成对概念
表中,纵列上的概念也彼此对应相关。再结合雅各布森将组合与聚合以横轴、纵轴垂直交叉的方式,即展现出所谓“双轴关系”(图1):
图1 横组合轴与纵聚合轴构成的“双轴关系”[3]
何谓横组合?从原初的语言学层面来看,通常的遣词造句中,一句话是严格按照语法要求的各个成分前后安置的逻辑组织起来的,譬如所谓的主→谓→宾的先后逻辑。而如果从语言学扩大到其他领域,即从基于语法的遣词造句,到写作、阅读、分析文本的思维逻辑,这些逻辑是“线性的”,比如,对若干语段、叙事,是一句一句、一行一行地铺陈/阅读,即按照叙事的时间、前因后果的逻辑,有序列的、“线性地”展开,所以,这又被称为历时性的逻辑,反映在上图中则如同一条横向的组合轴。雅各布森又称其为“句段的”向度。它处在文本的(字面上的)表层,“探讨语言的‘平面的’关系”。[4]各个成分间密切合应,即遵循一种“邻近性”原则。
何谓纵聚合?以“僧敲推月下门”为例:这句话显现出来的是“僧”不是“尼(姑)”,是“敲”而不是“推、开”;未显现出来的成分(“尼”“推、开”)就如同在表层相应的结构位置之下潜藏的纵深处的语义单元那样。而语句(或叙事)的每个纵深位置的显现或未显现的基本单元或要素,因为某层面或程度上的“相似性”,又可能彼此替换(互相代替)、指涉,或联想而譬喻,所以纵聚合的构成如同遵循了一种相似性原则。同样地,回溯到符号语言学层面:这种相似性原初体现为语法(尤其是句法功能)、词性(词类属性)的相似,如同为主语/名词,同为谓语/动词,同为宾语/名词的一系列词汇。因为句法功能相同,又可以将如上“相似”看成是句段层面的“结构等价”[5],譬如:
张三唱小曲。
李四演京剧。
王五开汽车。
赵六喝啤酒。
其中的所谓相似性,在更宽泛的范畴内,即语法层面,即认为:“在(如上)这四个横组合中,‘张三’‘李四’‘王五’‘赵六’是一束纵聚合关系,‘唱’‘演’‘开’‘喝’是另一系列纵聚合关系,而‘小曲’‘京剧’‘汽车’‘啤酒’又是另一束纵聚合关系。”[6]
凡处在一束的语义单元,诸如小曲和京剧,诸如前文中提及的动作“敲”“推”“开”(月下门),哪怕是像“汽车”“啤酒”两种看似无关的事物,在结构主义语言学家的眼中,都是“相似的”。
如上从语言学层面对双轴关系的阐释,似乎让人感到稀松平常,那是因为普通人都具备双轴关系的思维,是“无意识”的;但是,雅各布森曾从医学的角度观察双轴思维出错的病人,通过“反证”得出了双轴关系的科学性。[7]
说到双轴关系对文本分析的关联,不妨再从文艺性的修辞层面着眼。如后人对雅各布森关于双轴关系的理论,还有这样的陈述:
“平面的”运动把词语组合在一块,“垂直”(即图中垂直于横组合轴的纵轴)运动则从语言现有的库存或“内部贮藏室”中选择具体的词。组合的(或句段的)过程表现在邻近性(把一个词置于另一词的旁边)中,它的方式因而是转喻的。选择的(或联想的)过程表现在相似性(一个词或概念和另外的词或概念的“相似”)中,它的方式因而是隐喻的。因此可以说,隐喻和转喻的对立其实代表了语言的共时性模式(它的直接的、并存的、“垂直的”关系)和历时性模式(它的序列的、相继的、线性发展的关系)[8]的根本对立的本质。[9]
他提到修辞中关于转喻和隐喻的问题,简言之:邻近性原则对应转喻,相似性原则对应隐喻。那么,涉及隐喻、转喻的修辞的问题则是双轴关系所带来的主要启发点之一。
如果文本中语义单元关系的建立须“有理有据”的话,那么,结合符号学家皮尔士关于“理据性符号”的分类,符号可以分为两种,一是指示符号(index),二是像似符号(icon)。[10]前者是“符号与对象因为某种关系——尤其是因果、邻接等关系——而能相互提示”,即对应邻近性原则;后者之所以能够指向对象,“靠的是‘像似性’(iconcity,这个概念约等于‘相似性’):‘一个符号代替另一个东西,因为与之相似(resemblance)’”。而“像似符号与对象之间的关系,类似隐喻关系;正如指示符号与对象之间,类似转喻(或提喻)关系”。[11]总之,语义相互指涉的思维方式,就其“有理有据”的一面来看,确切地体现在“转喻”和“隐喻”两种情况中。[12]
转喻和隐喻,如果从广义回归狭义,则对应符号具体的文学性的修辞示例。把该问题说清楚,将有利于返回抽象的层面,理解双轴关系的普适性。
1.隐喻
在双轴关系和符号修辞学领域,隐喻是广义的,它既包括狭义的隐喻,又包括比喻、明喻等更常见的情况,譬如,根据符号和对象之间在“造型”上的相似而将二者进行本体和喻体的配对,如“汽车甲壳虫般地行驶”把汽车比作甲壳虫,就是一个隐喻。关于隐喻的缘由,不妨再以图2-1示意如下。
“隐喻是以人们在实实在在的主体(汽车的运动)和它的比喻式的代用词(甲壳虫的运动)之间提出的相似性或‘类比’为基础的。”[13]而类比,则意味着符号和对象之间如果共同拥有更多的性质,那么聚类更紧密。“(美国符号学家查尔斯·W.)莫里斯改进皮尔士的像似性定义,认为像似符号与对象之间,是‘分享某些性质’,也就是说,像似性符号与对象只是部分像似。这个定义比较准确:一旦符号与对象‘分享全部性质’,像似性就变成相同性,符号变成所谓‘全像似’。”[14]
2.转喻
诸如“白宫在考虑一项新政策”就是一个转喻。“而转喻则以人们在实实在在的主体(总统)和它‘邻近的’代用词(总统生活的地方)之间进行的接近的(或‘相继的’)联想为基础。”[15]示意如图2-2。
白宫和总统之所以能够形成本体、喻体的配对,是因为它们存在空间上的邻近性;[16]经由“总统”(作为一个语义单元或节点)而可达“新政策”。“白宫”和“新政策”之间的关系(主→谓→宾)是间接的,即具有暧昧的修辞意味。再者,通常所谓的“借代”也是转喻,如“十几把雪亮的刺刀向犯人们走来”。
修辞,不仅仅可以是“喻”的层面,还可以不谈喻的层面,而从更抽象的双轴关系来看“遣词造句的逐字推敲”(姑且也视作修辞),即回到本文开头借用传播学论述中关于文本的符号分析:符号是“如何从一系列纵聚合中被挑选出来,并与其他符号构成一个横组合”。譬如,到底是“僧推月下门”还是“僧敲月下门”,下文对此会有进一步的阐释。此外,隐喻和转喻在有些情况下,没有绝对的界限,或可以相互转换,这便涉及了更多的不确定性的甚或艺术性的问题,本文对此暂不讨论。
其实,早在索绪尔提出双轴关系时,就将其纳入结构主义语言学的四个核心二元对立(能指/所指,言语/语言,共时/历时,横组合/纵聚合)中。然而,“只有这一对(横组合/纵聚合)在今日符号学运动中仍然具有强大的发展潜力”。双轴关系的根本性意义在于,它在元理论的层面揭示了符号表意活动的本质,即“任何符号表意活动,小至一个梦,大至整个文化,必然在这个双轴关系中展开”。[17]索绪尔还提出,“语言符号的价值在与系统内其他符号的对立关系中产生。对立关系可以分成两类,即(横)组合关系和(纵)聚合关系”。雅各布森则“把索绪尔符号学理论中的二元对立思想进一步发展,使其成为符号学中的一项根本原则,并提出了关于隐喻和转喻的理论”。[18]
“只有(横)组合段是显现的,属于表层结构;(纵)聚合是隐藏的,属于深层结构。”[19]这便可将双轴关系的讨论进一步置于结构主义认识论的视野中。结构主义强调“关系”研究,[20]而双轴则是在宏观的语言(系统)中,将文本中的语义单元或要素以横组合和纵聚合的方式“组/构”起来,即“关系”产生了结构,并从中反映出特定的语义或讯息——这里的关系尤其可以演绎为广义的转喻和隐喻的思维方式。而且,既然结构又有表层、深层之分,那么对深层结构的关注,进而对隐喻的关注似乎是最终的目标——事实确实如此,如在文学批评的结构主义一派,批评者则更为关注潜藏在叙事表层结构之下的隐喻和深层结构。双轴关系在符号学中具有重要地位。“结构主义”与“符号学”也曾被视为一体。[21]
总之,在符号学视野中,小到一句言语,大到一种叙事,都可以称作文本。它不同于计量语言学、计算机技术领域作为文字的文本,后者基本等同于符号学中狭义的文本概念,或语言学中的相对保守的文本概念。但正是因为索绪尔及其语言学的问题可以上升到符号学的更抽象而广阔的层面加以讨论,由此,广义的文本的定义是“任何符号的表意(横)组合”。[22]厘清文本的定义和异同,则有利于进一步的文、理对话。
二、网络科学的两个领域:社会网络和语言网络(包括语义网络)
1.从结构主义到社会网络
结构主义在社会学领域体现为结构功能主义,它们从认识论到方法论,也派生出诸如社会网络分析的实证定量研究方法。这种方法是指用代表行动者(比如社会中的人,同译actor)的节点和代表关系类型(比如社交关系)的边连接形成的“社群图”,来表征各种社会关系并对其加以量化研究。结合社会学的基本理论模型,社会网络分析可用于分析“社会结构”,即“一个群体或者一个社会中的各要素相互关联的方式”。[23]
因为认识论上同源于结构主义,所以社会网络分析及其揭示社会结构的方法论思想,与结构主义符号学对语段乃至叙事的分析有异曲同工之处——可从不同学科领域的文献及其观念的陈述中寻找因由并互参:
第一,在符号学的文本分析中,“一个‘因素’(即语义单元)进入(纵)聚合段的基本条件,不是‘意义上可以取代’,而是‘结构上可以取代’(structurally replaceable)(横)组合中的这个成分,即可以在文本系统中占据相同位置”[24];这种“相同的(纵聚合的)位置”中,语义单元之间理论上存在相似性。
第二,在社会网络分析中,关于行动者(actor)的角色和位置(role & positions)的研究,主要是结构等价(structural equivalence)、块模型分析等——网络中,如果两个行动者“与他者具有同样的或非常相似的关系”,那么就称二者是结构等价或近似等价的;“结构等价的行为人完全可以互相替代”。[25]这些行为人之间具有相同(或相似)的角色、位置和社会“功能”。在笔者看来,这里的“可以互相替代”和上一段的“结构上可以取代”,表达的是基本相同的意思。就此,属于一束纵聚合中的语义单元之间的关系就应该能通过结构等价来形容。
结构等价这一理论问题主要被社会网络而非复杂网络领域的学者热烈讨论。社会网络分析的学者斯坦利·沃瑟曼还有这样的陈述:“由于地位是建立在行动者子集之间联系的相似性上的,而不是建立在邻接性、接近度或可达性基础上的,因而这个理论概念(指的是‘结构等价’)及其网络术语上的形式化,与凝聚子群概念非常不同。占有相同地位的行动者,彼此之间不需要有直接的或者间接的关系。”[26]他有意地提醒了要注意“相似”和“邻接”(邻近)的区别。
第三,基于如上沃瑟曼的话,从社交网络的角度看待邻近性和相似性会更形象:人与人之间的距离,譬如可能是“物理距离”或“心理距离”。在社交网络中,物理距离即人之间的社交关系是否邻近,可通过测地距离表示,就好比甲认识丙是一种直接的社交关系,而甲认识乙、乙又认识丙,那么甲丙之间是间接的社交关系,即甲→乙→丙,这是人际距离的一种表征;而如果甲和丙同时认识乙、丁、戊,又同时不认识己、庚,那么甲和丙实际上“镶嵌”在同样的社会关系网中,则有可能揭示出一种情形:不管甲、丙是否认识,但从关系网上,他们是可能志趣相投的,即须物以类聚、人以群分,他们的角色、位置相同,潜在的心理距离可能是很近的。下文会基于“僧敲月下门”给出一个例子:僧、尼之间的关系恰就像甲、丙之间的关系一样,他们没有直接的邻近关系(如不可同居一个寺院修行),但都是佛门出家人、都吃素、无婚姻等等。这种相似性在下文中则可通过表征结构等价的欧氏距离等体现出来。
第四,再回到语义单元的相似性问题,相似性真可以被量化吗?在符号学界,前文述及的莫里斯其实早就提示了这个问题,即“像似程度”之说,改进了皮尔士的像似性定义。
第五,既然社会网络提到“角色”一说,本文还须略提结构主义符号学中的叙事分析的问题。结构主义人类学家列维·斯特劳斯将双轴关系用于分析神话故事的深层结构,他的分析完全可以呼应从索绪尔到雅各布森关于双轴关系、隐喻和转喻的理念。斯特劳斯的后继者格雷马斯又提出行动者(actor,与社会网络分析中的“行动者”同译)和行动位(actant)的区分。“行动者指的是出现在叙事中的实际人物,他们可以是各种各样的人物,位于叙事的表层结构。行动位指的是根据人物在叙事中体现出的‘功能’,是抽象的,位于叙事的深层结构。”[27]同处一个行动位的,则功能相同,属于一束纵聚合,并可推论其结构等价。那么,叙事分析中的角色关系和角色的叙事功能就好比分析社会网络中的人际关系和人的社会角色的功能那样。[28]另一位后继者托多洛夫还提出,像分析主→谓→宾等语法那样分析叙事结构。[29]持有这种观念上的准备,则有利于读者接受笔者在下文举出的动物分类的例子。总之,从叙事和角色的层面再来理解社会网络分析和结构等价的问题,会显得更为直观。
第六,既然结构主义与符号学双轴关系关心的是深层结构而不止于表层结构,那么社会网络分析也当是如此。该领域的学者B·韦尔曼(Barry Wellman)则指出:“网络分析探究的是深层结构——隐藏在复杂的社会系统表面之下的一定的网络模式。”[30]笔者则认为,结合韦尔曼及相关学者的观念,社会网络分析中的结构等价分析是最有代表性的、旨在揭示社会关系中深层结构的方法之一。
既然结构主义又延伸到社会网络分析领域,而社会网络分析和语言网络、语义网络(Semantic Network)研究都基本属于网络科学范畴,它们也有诸多共性,那么,如果将社会网络中关于结构主义的意识转向语言网络、语义网络,结构主义的语言学及符号学中的双轴关系就可能与实证量化研究的模型结合,进一步在网络分析中显现出来。但是,当下符号学界似乎并没有充分地注意到这一点。赵毅衡在其《符号学:原理与推演》中,虽强调了双轴关系潜力很大,但也并没有详述双轴关系的潜力究竟何在?这恰是本文试图探讨的。另一方面,既然双轴关系的价值体现在对人类思维方式的一种高度抽象与概括之上;而当代计算语言学领域,各种算法与建模研究都力图对人类语言和思维方式进行模仿;那么双轴关系以及关于邻近性—相似性、转喻—隐喻等理念是否被网络科学和语言网络的研究者注意到?能对语言网络形成怎样的启示?
在此之前,先把此处“语义网络”的所指说清楚。
2.语言网络、语义网络的基本界说
语言网络和语义网络两个概念,在计量语言学领域显得关系更为密切,对其联系与差异归纳如下:后者可以作为前者对语言所构成的复杂网络模型处理的一种特殊情况。[31]也由此,语言网络的称谓显得较为笼统,而语义网络(Semantic Network)则多为诸领域所知。但是本文所指的“语义网络”概念又区别于“语义网”(Semantic Web)。
不同于人文学科的文本分析,语义网络可谓自然科学领域中“文本分析”的一种方式。究其原有的概念,它常用作知识表示的一种形式:“知识的语义网络表现为某一领域知识概念之间关系的网式图。它由节点和弧(就是边)构成:节点表示知识的基本概念,弧表示节点间的联系……这种表示方法符合人类联想记忆的思维模式。”[32]再就笔者浅识,语义网络的内涵在理工的自然语言处理、知识图谱及图情学等领域,它是一种有向标记图;而在与人文社科关系更密切的计量语言学领域,它的界定则宽泛而模糊了,如就本文图3所示,可能有向,又不一定有标记。这样的网络被该领域的学者又称为“语言网络”中的字同现网络/字共现网络。而鉴于本文试采用了一种较抽象的哲学视角(结构主义和符号学),这二者之间就没有本质的区别了,下文述及图3时,会进一步阐释。其后讨论则首先来自计量语言学领域的这种理解,因为这样更容易和符号学形成对话。
因而可以说,语义网络属于复杂网络范畴,对其研究则是网络科学的一个延伸领域。[33]“复杂网络”除了可以表现为语义网络之外,在宏观社会科学领域可表现为反映社会关系和社会结构的社会网络。在社会网络中,节点表示人或社会组织,关系表示社会关系;在语义网络中,节点可表示语言中的基本单元,如字、词等,而从目前计量语言学的发展来看,用于构建语义网络中的关系即“边”的,主要是语义单元之间的先后组合衔接关系,譬如:
原句中凡是根据语序前后邻接的两个字,在图中都用线连接起来。句号隔开的,因是断句,则不用连接。这样的语义网络也被称为“字共现网络”(或字同现网络),其共现是指两个汉字在上述文本中的句内邻接关系,也被称为“线性相邻”。[35]这不禁让人想起双轴关系中的邻近性原则,下文会对此详述。
但是这个层面的语义网络存在一个问题,就是它分析的“颗粒度”过细,细到了把每个字视作节点,网络结构显得过于细密而繁琐,对于分析语义单元的功能而言,事倍功半。如果根据词法、句法结构再做适当的归并与调整,可以变为:
她|在|桌子|上|放(了)|(一)本|书|。|桌子|上(的)|书|掉到(了)|地(上)|。|书|(的)|封面|破(了)。
竖线用于划分单元,可以用箭头替换,生成新的“结构凝练”的网络。可见每个作为节点的单元基本上对应一个词类或句法成分,如她—代词(或视作名词);主语,放—动词、谓语;桌子—名词、宾语,等等。其实,在计量语言学领域,汉语语言网络中字之间的前后衔接关系通常就包括字—字同现关系和词—词边界关系。笔者如上处理的思路实际上在凸显以词—词边界关系做分词依据,就如同自然语言处理(NLP)的词网格(word lattices)方法以及对实体和关系的抽取那样。经过这样的处理,一个语言网络(字共现网络)就更符合语义网络的特征了。
即这种诸如“主→谓→宾”的编排方式,可以进一步推广到很多领域,实现语义网络的建构。而且它和结构主义符号学分析语段乃至叙事的方法更相像了。
再看一个例子:
鲸、海豹、熊、猫都是哺乳动物。哺乳动物通常体表都有毛、生活在陆地上,但是,鲸却体表没有毛,而且生活在海洋(水)中,而海豹既生活在陆地上,又生活在水中。其实,生活在水中的常有鱼和贝类,但是,贝类没有脊椎,而鱼和哺乳动物都有脊椎。总之,无论身体特征还是生活习性有何异同,它们都属于动物的范畴。
本段话虽然只是说明文,但可以像分析“叙事结构”那样,对其所包含的信息加以提炼,以主语→宾语的基本关系模式建立起来,箭头方向表明主语到宾语之间的(谓语)关系。提炼结果如图4。
对于如上语段,可通过人工编码提取其中的实体和关系,或者说,生成对应“主→谓→宾”的语法成分(或者说是有功能意义的成分),并以节点和边的网络搭建起来,可以说,它提炼出了如上说明文的内在结构。
此外,须要声明的是,对于一般的语义网络研究者而言,虽然该图中的谓语会涉及子类和父类的下位、上位关系以及实例和类的关系,如哺乳动物是一种动物、猫是一种哺乳动物;但笔者就其关系类型的差异在本文中不做展开讨论,本文关注的重点是语义单元前后横组合的、历时性的、有向的关系,这种关系就像前文所说的那样,是“高度抽象与概括”的,尚不必深入具体的语义类型。这样的讨论也处在元理论的层面,结构主义和符号学双轴关系的话语就是如此。只有同在这个层面,二者才易于展开对话。
三、语义网络研究中已涉及双轴关系问题的相关研究简述
国内语言网络研究中,尚未见借用双轴关系的讨论;笔者发现日本东京电子通信大学情报学学者内海彰所著的《基于复杂网络方法的分布式语义模型研究》(A complex Network Approach to Distributional Semantic Models)[37]倒是初涉并融入了双轴关系、邻近性和相似性的讨论,该例或具有典型性,既给以启发,又尚有待商榷之处。该文基本将语言网络中的词共现网络译作语义网络了。提出“语义关系的两种类型——横组合(syntagmatic)与纵聚合(paradigmatic)是解释语义网络结构和动态(dynamics)的关键因素。现有的语义网络研究中,这种特点并没有得到妥当的处理,或者说根本没有得到注意”。
作者提出,分布式语义模型(Distributional Semantic Models, DSM)和语义网络(semantic networks)存在关联,即“建构分布式语义网络(即分布式语义模型)初始矩阵的‘上下文’(context)与横组合、纵聚合密切相关”:(1)横组合关系很有可能由“词于文档中共现”的矩阵表征(be represented);(2)纵聚合关系很有可能由“词与词共现”(words as contexts)的矩阵表征,因为两个词如果与更多的其他的词“搭配”(即毗邻),那么它们的“词向量”则更相似(称Dynamics of DSM Networks\Semantic Relation)。[38]
就横组合而言,如果说两个字/词总是频繁地共现于文本中,尤其是在词与词共现的其中一种情况下——以毗邻的方式——共现,内海彰则认为其“横组合地相关”(syntagmatically related)。比如,“bath和towel在文本中能够更频繁地共现,那是因为洗澡(bath)之后会用毛巾(towel),因而bath towel成了一个有意义的词组,它们则是横组合地相关”,“横组合相关的单词,在语义上并不是相似(similar),而是相关(related)”。(其著作\Dynamics of DSM Networks\Semantic Relation)笔者看出,他为了有所区别而另采用横组合地“相关”这样的措辞便对应了双轴关系中的邻近性。根据双轴关系的理论,横组合是产生转喻的条件,bath和towel则可以组织起转喻关系,比如在一块毛巾的商标上印上一个浴盆(bath)的标志,浴盆成了浴巾的一种指示符号(譬如,洗澡→[要进]→浴盆→[出后要用]→毛巾,中括号内注明关系中的语义),也是转喻的符号。
就纵聚合而言,内海彰的意思是,须要“借用”“词与词共现”(words as contexts)表征,即词—词(word-word)矩阵,因为如果两个词虽然并不一定(毗邻)共现,但与更多的其他同样的词能够形成搭配(collocation)时,则两个词(的词向量)更相似。关于纵聚合,“如果两个词并不是共现,而是可以‘相互替代’;换句话说,如果它们可以‘和其他相似的词共现’,[39]即它们能和(除了这两个词以外的)其他更多的同样的词形成语句中的毗邻关系,那么,这两个词则是‘纵聚合相关’”。(其著作\Dynamics of DSM Networks\Semantic Relation)他的这个观点和社会网络分析中的“结构等价”是几乎一样的。“纵聚合关系常常涉及类别或语义‘相似’(类别相似,taxonomically similar),而且相应的词是同样的词性,如名词对名词,动词对动词。”[40](其著作\Dynamics of DSM Networks\Semantic Relation)通过这些引述,可见内海彰的理解和双轴关系就纵聚合乃至隐喻(参考图2-1)的界说又将近吻合,即可见同处一个纵聚合位置的词似乎有相近的结构功能。
从如上对其观点的提炼来看,横组合与纵聚合分别直接、间接地和“词与词共现”的矩阵有较大关系,而和“词于文档中共现”的矩阵似乎关系不大(笔者则暂弃之而不讨论)。且内海彰原文的观点尚有前后不一致的地方。如果从符号学双轴关系的内涵来看内海彰对语义网络的构建的话,那么他的观点可再做商榷调整。就其中存在的问题,先梳理两条如下:
第一,作者紧扣共现的思维,将“共现”分出几种情况,如(1)二者于文档中共现,(2)于一定范围内截取的语段内共现(a window of some words),(3)毗邻共现(a context window of size two, two words on either side of the target word)。诚然,在网络分析的原属领域,共现能够直白地反映相似性问题,它的思想和“结构等价”是相通的。而“共现”这个概念特别容易混淆邻近性和相似性,他想用共现来解释邻近性,但他提出的最后一种毗邻共现才是笔者最认同的横组合,符合邻近性原则(在下文中会提出笔者具体的解释)。第二,根据双轴关系的思想,邻近性的问题须强调一种前后有序关系,譬如行文的顺序(即“写作、阅读、分析文本的思维逻辑”)、叙事的逻辑、主→谓→宾的先后逻辑、因果逻辑等。那么,相应的矩阵应该是有向、非对称的,即语义网络乃至语言网络应首先更宜作为有向的网络图(如图3、4);而他的词与词共现矩阵是无向的,在毗邻共现的情况下也如此,这一点或许须要做出调整。
如果避开共现思维的影响,那么,图3所谓的字共现网络,倒不如也撇开“共现”这个词眼,直接称为“字邻接”(或毗邻)网络,它反映的也许就是横组合。若将这一点认识扭转过来,邻近性和相似性的异同则更可能得到厘清,下面将进一步解释。
四、基于双轴关系对语义网络的另一种建构与描述
一个符号表意的过程,在“文本完成后,只有组合段是显现的,属于表层结构;聚合是隐藏的,属于深层结构。这两者没有时间先后,只有逻辑前后”。[41]也就是说,只要有横组合,表象之下就会有深层的纵聚合。那么,能否仅基于一个矩阵或社群图,既能反映表层的横组合,又能量化地揭示深层结构的纵聚合?
内海彰没有说出横组合与纵聚合如何以表层、深层的方式共存,以及如何以量化的方式从表层结构进入深层结构;对于延伸到转喻和隐喻的修辞的问题,也没有展开介绍。而他关于“类”的例证没有远离前文对隐喻的界说。所以,笔者继之也以“动物分类”的例子(即图3对应的案例)从双轴关系看语义网络,并试回答如上问题:
1.横组合关系
图3、4那样的语义网络,因为符合语段或叙事的“线性地”展开的逻辑,所以,其表征的就可以是横组合关系。对图4的网络分析中,譬如,猫→哺乳动物→脊椎的顺向关系就决定了猫和脊椎之间存在可达的路径,且边数为2,测地距离为2。这个数值能够成为句段中或叙事结构中基本单元的邻近性程度的指标,距离愈小,愈邻近。[42]通过有向图的“可达性”,更易看到生成句段、生成话语和叙事的横组合的可能性,甚至是转喻的可能性。结合图4,又如:
在一个有动物保护主义宗旨的宠物店,用符号表示“不受法律保护的无脊椎动物和受法律保护的脊椎动物”。那么,对于这两种动物,可以分别用店内的宠物寄居蟹(是节肢动物,没有脊椎)和猫咪的图案来表示。这时,猫代表脊椎动物,则又是一种转喻。而我们可在图4的可达路径中找到这个邻近性原则的模式,猫→[是]→哺乳动物→[有]→脊椎。
再如,如果在原图中增加一个节点“人”、一种关系“吃”,形成如下路径:
人→[吃]→鱼→[住在]→水(中)。
那么,诸如此模式就可以演绎成“(人)靠山吃山,靠水吃水”的转喻,即吃水实际上指的是吃鱼;其转喻生成的语义是:这些人过着樵夫或渔民的生活。这类转喻以及邻近性的程度,是可以在语义网络图中像统计测地距离那样被发现的。
2.纵聚合关系
一方面,语义网络中,内海彰提到,“如果两个词虽然并不一定共现,但与更多的其他同样的词能够形成搭配(collocation,也就是像bath→towel那样)时,则两个词(的词向量)更相似”;他又提到,这种情况下,“两个词并不是共现,而是可以相互替代”,则称其纵聚合(相关)。可见,两个词之间是否形成直接的毗邻并不重要,这里所述的情况便与横组合区分开来了。
另一方面,在社会网络的理论中,关于行动者的角色和位置(role & positions)的研究,尤其体现在结构等价(structural equivalence,或称结构同型)分析中。[43]网络中,如果两个行动者“与他者具有同样的或非常相似的关系”,那么就称二者是结构等价或近似等价的;“结构等价的行为人完全可以互相替代”。则两者之间具有相同(或相似)的角色、位置和社会功能。戴维·诺克判断结构等价的条件和内海彰判断纵聚合的条件基本一样,无非一个提到的是语义网络中的词,一个提到的是社会网络中的行动者/角色。
再看符号学领域是这样认为的:“一个因素进入聚合段的基本条件,不是‘意义上可以取代’,而是‘结构上可以取代’(structurally replaceable)组合中的这个成分,即可以在文本系统中占据相同位置。”结合社会网络的理论,结构上能取代不正是因为结构上得先是等价、同型的吗?而社会网络和语义网络的原理基本相通,所以,有信心认为,纵聚合轴中的语义单元或要素是“结构等价”的,它同于社会网络分析中的结构等价,便也可以通过网络科学的方法量化操作。
基于如上论断,为了将双轴关系中的这句话可操作化,在1-模网中,可以采用测量“结构等价”的方法之一如欧氏距离,来测算哪些要素更相似而适于纳入纵聚合轴关系中。[44]
首先,将图4还原成语义网络的矩阵表达方式如表2:
表2 邻接矩阵(根据横组合原则)
就表征邻近性和横组合而言,表2的矩阵才更为恰当:行标签表示关系的发出者,列标签表示关系的接受者,发出和接受须满足历时性的逻辑。行、列交叉处的每个格值表示有方向的毗邻共现关系,表2仅以二值化(在语言学领域又可称为“偶值”)为示例。这个矩阵传达的信息结构和图4是一致的。它便是非对称的,也被称为邻接矩阵,易联想至邻近性原则,反映了节点间的横组合相关。
欧氏距离的测算方法出现得较早,其原理简单,且用欧氏距离的公式表征相似性,显得形象、易懂[45]:
上式实际上是考虑到多重关系的情况的。不论把图4看做一个多重关系网络(其中包含“是”“住在”“有”三重关系),还是简化为一个一重关系网络,即该式又可以简化为
,在不考虑关系的权重的情况下,根据这种算法所得的结果是一样的。dij是节点(行动者)i和j之间的欧氏距离,图中有g=12个点,分别协同计算i、j和除了自身之外其他(g-2)个点之间的关系。(xik-xjk)表示i、j是否向相同的其他点发出关系,(xki-xkj)表示i、j是否接收到相同的其他点发入的关系。可见,如果i、j和其他点有或没有出入关系的情况趋向一致,那么dij的值就会更小,即欧氏距离愈近。
譬如,表1的熊、猫(只需要看阴影部分,中间的空白区域反映的是熊、猫之间是否有邻接关系),并没有收到其他点发入的关系,而同时向3个点发出了关系,即二者间距离为
。网络科学的基本观点是,欧氏距离越小,相似性则越大。在这个动物分类的例子中,与其他节点相比,熊和猫的相似性最大。虽然现实中,熊和猫还是不同的物种,但从数据库中已有的(“在场的”)节点来看,这恰使得它们完全结构等价。至少可以将它们理解成“类似的近亲”。它们在结构上可以相互取代,这样,内海彰所称“纵聚合相关的词是类别相似(taxonomically similar)的”的观点就可得到印证。
基于欧氏距离的公式,可批量地对所有点对之间求得相似性,即量化的相似度值的大小,并生成一个新的矩阵,在网络科学中,这样的矩阵恰好也被命名为相似(性)矩阵(表3)。这样,基于同样的文本数据源,横组合轴和纵聚合轴中的关系就可以分别被邻接矩阵和相似矩阵表达出来了。
这个矩阵和内海彰的“词与词共现”的矩阵在结构等价的思想上基本一致,只不过表3基于表2(1-模有向网络)而生成。它是沿左上、右下对角线“对称”的,所以仅仅显示右上方的格值即可;左下方的格值与相应的右上方对称位置的一样。节点之间的关系则变为无箭头方向且多值(不是0或1的二值化)的了,距离值越大,相似性越小。
如果试从修辞的角度来看,在提及的动物中,熊和猫因为具有相同的生活习性、体表特征,且都属于哺乳动物,所以,它们是“类似”的、结构等价的。这种等价和双轴关系中的相似性原则如出一辙,犹如物种“熊猫”的称谓反映该原则的构词方式那样——熊、猫本身就相似,又可用于比作大熊猫(一种譬喻的方式);作为相似的句子成分,也可占据同样联想的“纵聚合”的位置。
再回顾莫里斯的观点,即符号学者早已期待相似度的量化问题:“莫里斯改进皮尔士的像似性定义,认为相似符号与对象之间,是‘分享某些性质’”,分享的性质越多,两个语义单元的词向量也越相似,即相似性、像似性的程度越高。
五、对符号学“反哺”的可能性
符号学界也有学者尝试借鉴网络科学的思路,如“近年的文化研究理论,把各种‘关系像似’,称为文化拓扑学(cultural topology),也就是研究各种变易中的关系形式”。[47]究其是否形成了有效的学科融合,姑且不论。而上文提出的对语义网络形式化操作的构想能否“反哺”符号学双轴关系原有理论中一些过于抽象和形而上的领域呢?譬如,前文符号语言学层面提到的“相似性原初体现为语法、词性的相似”。对这个问题,可从网络分析的角度解释并佐证如下:某一种语言,若以汉语为例,首先选定通过凸显词—词边界关系构成的语言网络,此即更具有语义网络的特征。然后,可想象有海量的语词组合所形成的一个极其庞大、复杂的语义网络,通过对其做结构等价的分析,有可能获得这样的结果:即同为主语的词归为一个等价类(相同的地位),同为谓语的词、同为宾语的词各归为一个等价类,定语、状语、补语则同理。之所以这样,是因为同处一个等价类的词会向其他等价类发出或接收趋于一致的关系,这是由人们用汉语造句的句法或习惯决定的,如主语→谓语、谓语→宾语,或有定语→主语、宾语,状语→谓语,等等。又因为结构等价反映了等价类中节点的相似性——综上,因而同为某个语法成分的汉语语词(字)是相似的。这便解释了为何在抽象的层面,“纵聚合位置的词(比如上文的‘汽车’‘啤酒’)都是相似的”的结构主义语言学的这种认识论。
语义网络作为量化的方法,它的另一优势则在于对文本拆解并重组后的可视化效果:图4在节点位置布局的图示效果方面,采用了多维尺度分析的方法,该方法对图的可视化效果是,图布局中,点之间越靠近,则越具有相似性。[48]还可通过“聚类分析”[49]的“树形图”对其相似性关系和聚类次序展示如图5。
这张图更能给我们一个生成纵聚合关系的参考,愈是靠近左边而聚为一类的,其在纵聚合轴中更有可能相互替代,譬如,毛和陆地可能形成隐喻,就如同鳞和水域容易形成隐喻那样。[50]
下文另将分别从语段、叙事乃至其他语言符号系统(如音乐)等层面,以语义网络反观符号学双轴关系的文本分析,这种演绎也有利于佐证前文就横组合、纵聚合和语义网络的相关性而提出的“另一种建构”。
1.语言语段层面
回顾本文首先提到的关于符号分析中“僧敲月下门”的例子:
更细化的颗粒度的处理,即把动词也看成节点,如图6中虚线箭头及方形圈出的节点所示。虽然在语言学或语法层面,推、开、敲是相似的,但是,如果是在修辞层面,“敲”更符合语境,因为“敲”和月下门之间除了直接毗邻之外,还有另一条隐藏的“弱途径”(经过的点标为绿色,距离为4),也反映了一种很暧昧的转喻,即月下门→[时间背景是]→夜晚→[是]→安静的(系表结构)→[须无]→声响<-[有]<-敲——这些横组合的逻辑暗含了一种因果关系。
在僧的聚合轴位置,还可以换成其他具有不同相似性的语义单元,譬如尼姑、道士等;将一些值得作为分类参考的语义要素加入其中,即让其“在场”,如是否有婚姻、是否吃素等。然后对构造的语义网络采用多维尺度的视图方式(参考图6中所有蓝色点构成的网络布局)。再结合数据分析:僧、尼姑在设想的语义网络关系中,也是较为相似的,或称处于(近似)等价的位置。所以,理论上可以用尼姑替换僧。或许在那首古诗的情境中,相应位置上还可以换成道士,如图中的界线所划出的群落那样……但是,如果再换成欧氏距离更远的基督徒、素食主义者,恐怕就显得颇有“违和”感了。通过这种方法,我们可以看到不同的事物所处语境的亲疏关系。
2.影像和叙事层面
符号学双轴关系在电影蒙太奇中也有很典型的应用。譬如,20世纪著名导演伍瑟沃罗德·普多夫金及其电影《母亲》是苏联蒙太奇学派的代表。这部电影中有一个典型的平行蒙太奇暨隐喻蒙太奇,即“将沙皇时期的一次罢工示威同春天冰河解冻的镜头并行地表现,使隐喻延伸得很远”,[51]而且这两个镜头在影片中多次交替组接,在叙事线条的表层形成横组合,而这两个镜头节点又同时分享若干性质,如作为代替旧事物的新生力量而具有破坏力,在造型上都具有向前流动的动势等(参考图7中共享的3个节点代表的性质)。所以,他们是相似的,能够形成鲜明的隐喻即纵聚合。
这个例子和图2-1的异同在于,他们都描述了两个节点的结构等价,但图7中,两个节点间同时还存在电影中镜头的组接,即横组合关系,这样,便结合了图2-1、图2-2所反映的模式。这种“相似性取邻近性而代之”的情况,则反映了雅各布森的关于诗意生成的观点。[52]
如果符号学领域的读者读完本文,可能会提出置疑:文本的解释永远是多义性的,仅凭一些数据、算法和图示,就能一劳永逸地把双轴关系说清楚么?笔者对此试回应:“目前来看,确实不可能,但可以达到一定的效果。”因为这种数据分析的结果会受到两种因素的影响,一是样本的选取,二是编码的方式。(1)用任何样本来推断总体,都有它的偏差;而根据语义网络的内涵,诚如其属于复杂网络范畴那样,我们希望节点越多越好,数据量越大越好,使这样的研究能发生在“大数据”的量级,达到以全概偏。这时候,问题则转向了数据科学,各种算法获得结果的差异就能体现出来,但那就远离了符号学目前主要的研究视域了。(2)作为质性研究,编码的方式尤为重要。目前无论是语义网络还是结构主义符号学,基本上都倾向于以主→谓→宾所象征的分析语法的方式来对文本进行编码,而不是像计量语言学领域一部分学者采用的那种省略定性的人工编码后的极简单方法,如图3,这种方法可能会抹杀文本分析中的人文性。但是,究其编码的细节处理,就像图6仅是笔者的解释而已,方案可能会莫衷一是,即信度(credibility)或许不够高。某一种关系模式是否“在场”,会影响计算的结果,比如前述,加上“→[伤害]→人”这样的关系和节点,显然,熊会伤害人(比如在森林和城市带的交界处,熊的符号成了“危险”的转喻),就和猫产生了差异……所以,本文的研究,所采用的案例,并不是为了在给出绝对答案的基础上证明某个观点——这不符合人文学科的精神,而是重在探索语义网络和符号学双轴关系观念的暗合。
3.音乐曲谱的和声分析层面
值得补充的是,更有可信度的研究领域可以体现在音乐曲谱的和声分析方面。上海音乐学院汤亚汀教授倒是就文本分析做出这样的述说:“音乐亦是一种形式语言,亦属一种符号系统,可分析各种乐思之间的横向进行关系(横组合)和纵向同时性与再现关系(纵聚类),故可用结构主义—符号学的语言学分析模式。”[53]与此结合,如果把音乐文本看做线性叙事,具体表现为一系列和声语汇的横组合的话,那么,对于一部音乐作品,可以通过这种横组合形成的表层结构描绘和声“语言”所呈现出的“言语”外观,如图8。
该例选自莫扎特的古典主义钢琴奏鸣曲K310。将全曲和声的前后衔接以节点的前后衔接表示,箭头的方向与音乐发展的时间方向一致,如该曲前四小节的主题第一乐句可记为VI→V34/VI→VI→V34/VI,以此类推,[54]这便是一种横组合的操作化方式。它展示的是一幅和声语言表层结构(言语)的网络,根据特征向量中心度反映图中节点的大小(可将该中心度指标看做一种接近中心度的变形),节点愈大则愈与更多的其他语汇邻近。基于这种编码方式形成的网络可以对作品的和声特征做出适当描述:作品的中心调性是a小调,即主和声t=VI的最大节点;副部调性C大调也较为明显,如节点标记I、I6所示;较明显的和声语汇为VI—V/VI、VI—V7/VI、VI→II56→V→I、V→I等;在作品的展开部部分有连续的转调模进,则反映在图的右上方的两个环状序进中,其远离主部调性,形成鲜明的和声张力,等等。
对和声语汇的横组合的分析是线性的,犹如曲式学层面的一种观照。但是,从双轴关系的角度来看,是否可以对反映深层结构的纵聚合进行分析?笔者认为,这个问题在理论上是可行的,而在实际操作中还有待进一步探索。就理论可行性而言,恰如上文的推理那样——“同为某个语法成分的汉语语词(字)是相似的”,同理,同为一种功能标记的和声语汇,也同处一个等价类,“同处一个等价类的”和声语汇也“会向其他等价类发出或接收趋于一致的关系”。从一般意义上的功能和声,一直到20世纪现代音乐作曲家的重要代表勋伯格等提出的所谓“和声的结构功能”中,可提炼出一种思路:相同或相似功能位置的和声材料,如同属于主功能,或下属、属、重属功能的,因为结构上等价而可以相互替代,这便符合结构主义和符号学双轴关系关于一个因素进入聚合段的基本条件的理念。那么,就可以通过网络科学中关于“结构等价”的各种算法与指标,对这类问题进行操作化,譬如通过欧氏距离,可测量和声语汇之间的相似度关系。
综上,不论是文字或文学语言,还是影视蒙太奇语言、音乐和声语言,既然都可以用双轴关系加以解析,那么,就都有可能以语义网络分析加以操作化演绎。其内在一致性则归因于结构主义和符号学双轴关系的元理论基础。
六、总结与应用领域的讨论
语言网络、语义网络研究已经开始参考了符号学双轴关系的启发。从内海彰的文章,可见这种跨学科融合的端倪。我们既可以看到他的睿智,又觉察到或有不尽之处,便试图把问题简化,既有可能使双轴关系在语义网络中更清晰地浮现出来,又促进了一种跨学科思维方式的对接,让语义网络的量化研究能够在人文学科的主流话语体系中溯源,而不至于在最基本的概念和思维取向上都是鸡同鸭讲或不相往来。
因着共同的结构主义认识论,在符号学和语义网络分析中,就如上论述,总结数对相互对应的概念如下表4。
横组合轴上的关系基于邻近性原则,对邻近性的测度指标可能是语义网络图中的测地距离,对应邻接矩阵;纵聚合轴上的关系基于相似性原则,对相似性的测度指标可凭网络结构中的欧氏距离(欧氏距离仅是关于结构等价的算法之一)为例加以描述,对应相似矩阵,即通过结构等价分析实现测度的目标,它也是网络分析中挖掘深层结构的重要范式——这样,文本中的符号学双轴关系就能够找到一种量化操作的路径,文本词源为text、编织品、网络的譬喻也通过语义网络科学地显现出来了,这从一个新的角度为双轴关系的科学性提供佐证。
表4 符号学“双轴关系”和语义网络中基本的二元成对概念
目前国内尚鲜有将双轴关系和计量语言学、语义网络融合的尝试,语义网络的价值也没有见诸符号学,而是集中在语言学领域。而双轴关系和语言学也是关系密切的,所以,不难预见符号学与语义网络、计量语言学融合研究的潜力。一个明确了的网络结构,可以通过网络科学的一系列算法和指标加以描述。这样的探索研究会涉及更深入的数理知识,限于篇幅与学识有限,不在此文展开。
总之,如果从两个学科互相借鉴的角度,结合应用领域做些补充说明:
第一,语义网络在细分节点时,“颗粒度”的大小非常重要,粒度过细会“遮蔽”(粒度过粗也会“疏漏”)纵聚合所揭示的文本的深层结构。每个节点最好是一个独立的类、实体、概念、名词性成分,或能承担一个词性或句法功能。从叙事分析的启发来看,每个节点最好是一个语义单元、一个“行动者”(社会网络分析和叙事学恰好共用这个概念),能作为要素或承担一个角色功能,上文中的和声标记就是一个比较典型的例子。同理,在细分语义关系类型时,也要有所取舍,这之中必然涉及主观因素,如同具有一定的艺术性那样,会仁者见仁、智者见智。
第二,目前的语义研究,可能不经意地规避了符号学双轴关系的一些核心思想,譬如,基于双轴关系的修辞问题。在语义网络中,为了避免语义传达的暧昧性,科学家尤其提到语义“消歧”,比如,苹果电脑和作为水果的苹果之间应该区分开来,或将“白宫在考虑一项新政策”判为错。[55]但是,在艺术家心目中,或者说,从符号学的角度来看,对于苹果和苹果电脑之间的关系,如果简单地做出消歧处理,其横组合的、修辞(转喻)的成分就容易被抹杀(下文第四点会详加解释)——这是背离人类自然语言的联想性(包括横组合、纵聚合)的思维方式的。
第三,国内理工科领域在文本分析或文本挖掘、在分析文本结构的问题上,通常只是采用相似度(相似性)的算法,而可能觉得横组合是稀松平常的,从而导致语义要素中的邻近性问题,几乎被挤兑掉了。[56]内海彰的研究中可能也存在这个问题。再如,一些学者认为,“相似度则为邻近性(proximity)”[57],可能从符号学来看,这便将两种关系混淆了。这种混淆的影响也延伸到笔者凭以举例的社会网络分析领域,如著名学者刘军教授将社会网络分析延伸到“意义网络”领域,而又称“‘相似性’(similarity)、‘接近性’(proximity)或者‘距离’测度给出了测量网络位置的比较完善的描述”。[58]其实,其所谓的接近性是指譬如欧氏距离接近而已,而不是测地距离接近。其数学原理是,反映结构等价的距离越近,则越相似,接近性越小则相似性越大,它们是一个指标的正反两种视角罢了——同样也没有结合符号学双轴关系所真正揭示的邻近性和相似性两个角度。因而试问:既然是研究“意义网络”,要不要顾及一下同有“意义学”之称的符号学双轴关系的基本观念?
第四,也是希望知识图谱研究者留意的:如果恢复对邻近性问题的重视,可能会产生怎样的效用?上文提到了苹果和苹果电脑之间的转喻关系可能被抹杀了,如果把这种关系通过一条有向路径表示出来,可能是这样的:苹果→[含氰化物,被咬一口而毒死]→艾伦·图灵→[被誉为]→计算机之父→[是……的偶像]→乔布斯→[创办]→苹果电脑公司——这同样是一个有前因后果的叙事线,其起点和终点之间又形成一个意味深长(因为测地距离比较远)的转喻。而在一般的基于分“类”的、基于相似性原则的相似度算法中,苹果这种水果和计算机行业几乎没有任何可分享的共性,从而就得被消歧了。可见,仅凭相似性是无法深刻地分析话语中的语义的。就此,笔者欲补充的一点是,正如邻近性可能反映一种历时性的、单向而不可逆的因果逻辑那样,它因而有可能更适用于语义的推理或溯因,比如,回答“为何苹果公司会以被咬一口的苹果图案作为logo”这样的问题。[59]总之,正如前述的失语症患者既有可能产生邻近性的、又有可能产生相似性的错乱那样,对二者偏废其一的自然语言处理乃至人工智能是不是也会犯失语症的毛病?由此,下文对将邻近性应用于引文网络或知识图谱中的解释则有利于对这类问题产生更直接的启发。
第五,结合社会网络的过渡作用,可从“学术网络”[60]研究的角度看待引文知识图谱,采用双轴关系对问题做新的解释。如基于引文关系的学术群落结构或知识结构研究有起码两种网络构造的方法,一种是基于互引(网络)的知识图谱分析,一种是基于共引(网络)的知识图谱分析。[61]前者可以是基于邻近性原则生成网络而对知识的表层结构进行的研究,学者之间的互引网络是有向的,而文献之间的引文网络不仅是有向的,而且是非循环的,更鲜明地反映了知识流动的有序逻辑、前有因后有果的脉络;而后者可以是基于相似性原则生成网络而对知识的深层结构进行的研究。为了印证这一点,解说如下:目前主流的“知识结构”(Intellectual Structure)研究大都采用基于相似度的研究,其实无论是共引、耦合、共词,还是合作网络等方法,本质上都是结构等价思想的体现,这无可厚非,因为相似度(相似性)有利于揭示知识的深层结构。而且,“深层结构是任何系统能发挥作用的关键”[62],似乎就更受重视。但同样地,表层结构即涉邻近性问题也容易被挤兑掉,体现为互引网络研究长期以来得不到重视。[63]倒是有一些学者以学术社群的知识交流研究看待互引网络,而并不大称其为知识结构研究,只是谓之群落结构或学术交流模式的研究。[64]然而,作为二元之一的邻近性的意义不容忽略,探索知识的表层结构也不乏优势,就如“互引分析能够最快地探测到新兴的较显著的研究前沿……共引分析最慢”[65]那样,这可能也是挖掘结构表层和深层各所需不同成本与代价的实情可见证的;同时,接近中心度等指标在互引网络研究中反倒是更彰显邻近性的意义。[66]
最后,笔者的述评并没有直接从符号学跳到语义网络,而恰是先经由社会网络分析过渡。其原因在于:从符号学到修辞、再到叙事、再到社会网络分析、再到语义网络,这样的类比和推演的过渡在逻辑上比较紧凑,易于接受理解;纵观全文,用结构主义的叙事分析中的角色关系类比社会网络中的角色关系,再用结构主义语言分析中的主→谓→宾语法关系类比语义网络中“主→谓→宾”关系(元数据模式)——宏观和微观的层面都能寻得互鉴。
作为元理论,从符号学双轴关系中延伸出的理论话语可能为很多领域提供借鉴,这或许一定程度上代回答了赵毅衡教授的预言。在人文学科领域,不论作为认识论还是质性研究的方法论,结构主义与符号学及至双轴关系,是非常重要的理论范畴。而在理工科和社科领域,语义网络也是方兴未艾的研究课题,它自产生之始,就应当是跨学科的。不同领域之间,须以彼此之长互为所用。拙文只是冲着这个方向,投石问路,抛砖引玉,不敢妄谈“论证”,实际上本文也不是实证研究,而只是先求在“述评”的基础上做出认识论和方法论的思辨——为符号学双轴关系和语义网络牵线搭桥,希望唤起协同关注,让文本分析在跨学科的道路上能形成深入的、有效的对话。
—————————————————————————————————————————————————————————-
“Biaxial Relationship” of Structural Semiotics and “Semantic Networks”: Art and Scientific Perspectives on Text Analysis
Cao Junjun, Shen Hao
Abstract: This article starts from text analysis. Part I is a summary of principles. First, it briefly describes the position of semiotics “biaxial relationship” in the humanities, and a series of binary pairs such as horizontal combination, vertical aggregation, metonymy, and metaphor; then through structuralism, to discussion of structural equivalence in network science, it proposes the relationship between the biaxial relationship and semantic network. Subsequently, it introduces the Japanese scholar Utsumi Akira’s “Research on Distributed Semantic Models Based on Complex Network Methods” which borrowed the two-axis relationship into operation in semantic network. The correspondence between biaxial relations and several ideas in network analysis of texts is proposed, specifically: the directed adjacency matrix reflects the horizontal combination and the principle of proximity, measurable by geodesic distance, corresponding to the surface structure; through the adjacency matrix, the similarity matrix is generated with the idea of structural equivalence, which reflects the principle of vertical aggregation and similarity as measured by Euclidean distance, and corresponds to the deep structure; the corresponding rhetoric may also be represented in network. Further, the semantic network is used to look back at the existing textual semiotics analysis and explore the possibility of theoretical feedbacks. Finally, we suggest some improvements in textual analysis across the border between arts and science.
Keywords: Syntagmatic-Paradigmatic; Proximity-Similarity; Geodesic Distance-Euclidean Distance; Metonymy-Metaphor; Network Science
————————————————————————————————————————————————————————————————–
(编辑:赵薇)
注释:
此文题献四川大学文学与新闻学院赵毅衡教授。本文最初的念想可以溯源于福建师范大学美术学院的教授、博士生导师徐东树先生对我在结构主义和符号学领域的引导和启发。对这个问题的思考,起步于2011年,我常把自己的学习体会反馈给徐老师,他博闻强识,又总是耐心地对晚辈予以点拨激励。本文倘若有价值,其中必有一部分归功于徐老师对在下的帮助,这是我永远铭记的。也十分感谢《数字人文》期刊的编辑、中国社会科学院文学研究所的赵薇老师。笔者不才,而有幸得到赵老师指点和各种帮助,让我很感动。
[1]匿名:《文本分析以及文本挖掘相关概念介绍》,2016年4月12日,http://www.cbdio.com/BigData/2016-04/21/content_4824363.htm,2020年3月20日。该文别出心裁地对人文社会科学、自然科学中的“文本分析”概念做了系统的综述。
[2]胡正荣、段鹏、张磊:《传播学总论》,北京:清华大学出版社,2008年,第171页。
[3](英)特伦斯·霍克斯:《结构主义和符号学》,瞿铁鹏译,上海:上海译文出版社,1997年,第18、78页。
[4](英)特伦斯·霍克斯:《结构主义和符号学》,第77页。
[5]笔者认为它和社会网络分析中的结构等价如出一辙,故用此称谓,下文会进一步解释。
[6]杨沐:《回顾结构主义》,《中央音乐学院学报》2002年第1期。
[7]这主要体现在雅各布森对“失语症”的研究。他发现:在“相似性错乱”的病人身上,思维的横组合能力仍然保留,但病人失去了处理隐喻思维的能力;在“邻近性错乱”的病人身上,思维的纵聚合能力仍然保留,但病人失去了处理转喻思维的能力。转引自(英)特伦斯·霍克斯:《结构主义和符号学》,第77—78页。赵毅衡也在其《符号学:原理与推演》中,对雅各布森的论证做更详实的介绍。参见赵毅衡:《符号学:原理与推演》,南京:南京大学出版社,2016年,第76页。
[8]笔者认为,这里还可以包括“前因后果”,下文引用的皮尔士的观点对此有佐证。
[9](英)特伦斯·霍克斯:《结构主义和符号学》,第77页。
[10]“如果说索绪尔、雅各布森代表了符号学的语言学模式,那么美国哲学家、逻辑学家皮尔士则代表了符号学的另一种模式——逻辑—修辞学模式。”参考赵毅衡:《符号学:原理与推演》,第13页。
[11]分别引自赵毅衡:《符号学:原理与推演》,第80、76、187页。
[12]笔者对此命题加了“有理有据”的这一个条件,实际上,还有一种情况是“任意武断”,暂不在本文的讨论范围内,详参赵毅衡的《符号学:原理与推演》中第三章“任意性与理据性”。
[13](英)特伦斯·霍克斯:《结构主义和符号学》,第77页。
[14]赵毅衡:《符号学:原理与推演》,第79页。
[15](英)特伦斯·霍克斯:《结构主义和符号学》,第76—77页。关于转喻,还可以将其简单看做语文学习中的“借代”,以局部代整体,即局部和整体之间的关系也是邻近性关系。
[16]双轴关系的原理还认为,两个对象在空间上的邻近,也易于形成横组合关系,正如记叙文对人物和环境的交代中,写作者会根据对象在空间上的邻近关系依次、线性地写作。“只有语言这种线性展开的符号文本才有纵横(即索绪尔说的‘序列关系’)……在楼房建筑、飞机驾驶、衣装搭配等符号(横)组合中,符号文本的组合是立体的、多维的。”赵毅衡:《符号学:原理与推演》,第158页。
[17]赵毅衡:《符号学:原理与推演》,第156页。
[18]张凤:《文本分析的符号学视角》,哈尔滨:黑龙江人民出版社,2008年,第2、37页。这里的二元对立不宜理解成辩证法中常所谓的矛盾双方的二元“对立”,更宜理解成,在差异和对比中各自彰显意义。
[19]赵毅衡:《符号学:原理与推演》,第158页。
[20]结构主义的基本内涵是:“事物的真正本质不在于事物本身,而在于我们在各种事物之间构造,然后又在它们之间感觉到的那种关系。”(英)特伦斯·霍克斯:《结构主义和符号学》,第8页。
[21](英)特伦斯·霍克斯:《结构主义和符号学》,第13、15页。
[22](英)特伦斯·霍克斯:《结构主义和符号学》,第40—44页。定义中没有提及纵聚合,原因在于,聚合轴隐藏在纵深处。这里的符号则不一定是文字,又有可能是对对象(如叙事中的角色或相对独立的意义单元)分析后的“编码”。
[23](美)戴维·波普诺:《社会学》,李强等译,北京:中国人民大学出版社,1999年,第8页。
[24]赵毅衡:《符号学:原理与推演》,第157页。
[25](美)戴维·诺克、杨松:《社会网络分析》,李兰译,上海:格致出版社、上海人民出版社,2017年,第122页。
[26](美)斯坦利·沃瑟曼、凯瑟琳·福斯特:《社会网络分析:方法与应用》,陈禹、孙彩虹译,齐心校,北京:中国人民大学出版社,2012年,第267页。
[27]张凤:《文本分析的符号学视角》,第52页。
[28]关于通过网络分析叙事功能的研究成果,可参考赵薇:《网络分析与人物理论》,《文艺理论与批评》2020年第2期。而关于双轴关系同时就转喻、隐喻的修辞层面和叙事层面的融合分析(如前文所述,怎样“关注潜藏在叙事表层结构之下的隐喻和深层结构”),可参考曹军军:《隐喻及其电影叙事分析》,硕士学位论文,福建师范大学戏剧与影视学系,2014年。
[29]吴中杰:《文艺学导论》,上海:复旦大学出版社,2014年,第252页。
[30]Barry Wellman, “Network Analysis: Some Basic Principles,” Sociological Theory, vol. 1, 1983, pp. 155-200.在韦尔曼的文章中,“深层结构”对应的原文是underlying deep structures;而他在讨论涉及结构等价的块模型的问题时,另采用了basic social structures这个词,该概念与underlying deep structures含义相近。另有学者认为,“在结构等价方法中,网络或标示图可以代表一个群体的内在结构(underlying structure)”,Stephen P. Borgatti, Martin G. Everett,“Notions of Position in Social Network Analysis,”Sociological Methodology, vol. 22, 1992,pp.1-35.转引自(美)戴维·诺克、杨松:《社会网络分析》,第147页。那么,依此推论,结构等价可用于分析深层结构。
[31]根据刘海涛的观点,采用不同方法或从不同层面构建的语言的复杂网络模型,都可以称作语言网络,其又有静态、动态之分,所谓动态语言网络,“是基于语言单位及其在语言的实际使用中的种种关系来建立的”。它就既包括下文将提及的字共现网络,又可包括“动态语义网络”。刘海涛:《计量语言学导论》,北京:商务印书馆,2017年,第123—125页。
[32]马费成、宋恩梅、赵一鸣编著:《信息管理学基础》,武汉:武汉大学出版社,2021年,第203页。
[33]复杂网络简言之即呈现高度复杂性的网络,其重要的特点之一即节点数目巨大,可至“大数据”的量级。“而网络科学所要研究的是各种看上去互不相同的复杂网络之间的共性和处理它们的普世方法”。汪小帆、李翔、陈关荣编:《网络科学导论》,北京:高等教育出版社,2012年,第22页。
[34]陈芯莹:《语言网络中的汉语单字词演化》,刘海涛编:《计量语言学研究进展》,杭州:浙江大学出版社,2018年,第187页。
[35]丛进:《基于网络方法的现代汉语二字词形成机制研究》,刘海涛编:《计量语言学研究进展》,杭州:浙江大学出版社,2018年,第160—185页。
[36]该例同样出自维基百科“语义网络”词条,详见:zh.wikipedia.org/wiki/语义网络_(计算机科学)。之所以引用动物分类的例子来说明语义网络和双轴关系的关联,其原因之一是,易于用动物的种类相似阐释纵聚合与相似性原则及相关问题。下文的内海彰(Akira Utsumi)文中的案例也用了动物分类的例子,系同样因由。
[37]就本部分及下文引号所划出的内容,若未注明,均出自此文。尤其见诸此文中两个位置:一是Analysis of DSM Networks\Materials and Methods,二是Dynamics of DSM Networks\Semantic Relation。Akira Utsumi,“A Complex Network Approach to Distributional Semantic Models,”PLOS ONE, August 21, 2015.
[38]词与词共现的矩阵是一个1-模网络对应的、对称的矩阵。行与列皆对应同一系列词,矩阵的格值为两词在一定范围(a window of some words)内共现的频次,这里的一定范围尤其指最狭窄即语句最短的情况(a window of size two),即毗邻共现。详参其文Analysis of DSM Networks\Materials and Methods处的交代。
[39]这里的“相似”系直译,但容易造成误导。实际意义详参下文。此处的“共现”宜理解为:两词在语段中左右毗邻即在语义网络中有边关系。
[40]其实这里的纵聚合相关的意思是纵聚合相似。从符号学双轴关系的角度来看,内海彰的用词可能是有一些含混的。
[41]赵毅衡:《符号学:原理与推演》,第158页。
[42]该图中仅容纳了“是、有、住在”三种语义关系,如果再包括“吃”的关系模式,那么就可以在“动物”和“水”之间加上箭头关系,随之,其他节点之间的关系可能也会有所调整。这只不过涉及哪些关系“在场”、哪些关系“不在场”。比如,如果纳入熊→[伤害]→人,而事实上不存在猫→[伤害]→人的关系,下文关于熊和猫完全结构等价的统计结果就不成立了,须加以注意。
[43]罗家德:《社会网分析讲义》,北京:社会科学文献出版社,2005年,第185页。
[44]测量结构等价的方法有很多,欧氏距离(欧几里得距离)可能是最常用的方法。笔者认为,凡是可以测度节点相似度以用于聚类的距离算法,都可以用于描述结构等价,如相关系数、向量的夹角余弦、曼哈顿距离、切比雪夫距离、欧氏距离的平方等。具体的计算结果会有所不同,但从本文所处的抽象的理论层面来看,这些距离表示的都是相似性问题,而本质上区别于上文的邻近性问题。这亦如斯坦利·沃特曼在前文所述的那样。
[45](美)斯坦利·沃瑟曼、凯瑟琳·福斯特:《社会网络分析:方法与应用》,第267页。其实在二维空间或三维空间中,欧氏距离就是直观可见的点之间的直线距离,即它的公式就是解析几何中的点之间距离公式的计算;只不过在数学上可以将这种距离拓展到多维变量的情况,即向量空间中距离的计算罢了。而公式1是针对二项变量的情况对欧氏距离公式的一种变形(假设某个维度上的坐标值要么是0,要么是1)。
[46]该方阵的数据不再是0或1的情况,且根据主对角线呈对称分布——则体现为多值、无向。为清晰表示,以右上方呈现,保留小数点后两位。左下方则省略。
[47]赵毅衡:《符号学:原理与推演》,第79页。
[48]关于欧式距离的计算和多维尺度分析的原理,可参考(美)戴维·诺克、杨松:《社会网络分析》,第127—134页,即第4章第7节“视觉演示”。须注意,社群图的节点之间距离的可视效果和真实的欧氏距离之间相关但不完全相同,其相关性大小由“应力值”指标反映。
[49]聚类分析是一种多变量统计分析方法。它和图5的树形图的基本原理是,先将相似度最大节点聚为一类,然后依次根据相似度递减聚类。
[50]可能这种说法会受到置疑,毛和陆地、鳞和水也有可能有转喻关系。在人文学科的修辞活动中,隐喻和转喻常常相互关涉,难以绝对厘清,详参下一注释。
[51](法)马赛尔·马尔丹:《电影语言》,何振淦译,北京:中国电影出版社,2006年,第82页。
[52]在人文学科的修辞活动中,隐喻和转喻常常相互关涉,难以绝对厘清,由此,在符号修辞领域,雅各布森认为,诗意的生成,则通过“相似性取邻近性而代之”,暗含着“任何转喻都略具隐喻的特征,任何隐喻又都带有转喻的色彩”。(英)特伦斯·霍克斯:《结构主义和符号学》,第79页。
[53]汤亚汀:《音乐人类学》,转引自王耀华、乔建中编:《音乐学概论》,北京:高等教育出版社,2005年,第268页。
[54]这种方式的和声分析最好选用古典主义时期的作品,因为其和声语汇、和声节奏较为清晰,分析的信度高。而之所以选择莫扎特的这首a小调奏鸣曲,是因为此时期的小调奏鸣曲主部、副部关系普遍是关系大小调的,如主部为a小调,副部为c大调,这样,可以统一用c调的调号记谱并以此为基础做编码更清晰的和声标记。为此,采用罗马数字的音级和声标记法,而将所有的调性和和声统一纳入c调的音级关系中,则不易招致转调而换用音级标记的麻烦。譬如,对于主调和声T,在图中标记为VI;对于D,标记为V/VI。
[55]如果在语料库中,白宫和总统之间、总统和(新)政策之间皆有高频的(高权重的)毗邻关系,那么计算机本应该有可能将如上话语看做转喻而不是判作有歧义。
[56]这一点其实也“情有可原”,因为即使在人文学科领域,如果缺乏对双轴关系中邻近性原则的理解,也很容易将转喻挤兑掉,即认为所有的“喻”都是本体和喻体之间的联想罢了。然而,转喻和隐喻在思维方式上,是双轴的“二元对立”。
[57]姜维:《文本分析与文本挖掘》,北京:科学出版社,2018年,第86页。
[58]刘军:《社会网络分析导论》,北京:社会科学文献出版社,2004年,第213页。笔者曾几次向西安交通大学的刘军教授请教,颇受其启发,也知晓其近年研究转向“富含‘意义’的‘关系’存在”,但刘老师若能进一步留意双轴关系的参考性,由此提请不吝赐教。
[59]就知识图谱的本体(ontology)设计,又引发一种思考:在OWL(web ontology language)本体语言的属性(property)特性中,存在对称属性(symmetric property),即两种实体间存在双向关系,比如甲→[是……的偶像]→乙,它的对称关系是乙→[是……的“粉丝”]→甲。笔者则认为,在基于邻近性原则、涉及知识推理时,有时可仅留下对称属性中一个方向的语义关系,即保留与时间逻辑、因果逻辑一致的方向(如保留“甲→[是……的偶像]→乙”),这样,就可以像路径查找、图遍历算法那样,基于本体的“元模式”展开转喻式的知识发现。
[60](美)约翰·斯科特、彼得·J.卡林顿编:《社会网络分析手册(上卷)》,刘军、刘辉译,重庆:重庆大学出版社,2018年,第379—399页。
[61]杨斯洛:《中外图书情报学科知识图谱比较研究》,北京:科学出版社,2015年,第13—19页。
[62]赵毅衡:《符号学:原理与推演》,第67页。
[63]杨斯洛:《中外图书情报学科知识图谱比较研究》,第13—19页。
[64]如学者马瑞敏《基于作者学术关系的科学交流研究》一文对互引网络、共引网络(含同被引、耦合)的机理进行了比较分析,仅对后者的情况,称其为知识结构研究。本段所谓的互引网络,尤其强调的是学者之间的相互引证关系网络。参考马瑞敏:《基于作者学术关系的科学交流研究》,北京:科学出版社,2015。
[65](美)约翰·斯科特、彼得·J.卡林顿编:《社会网络分析手册(上卷)》,第13—19页。
[66]关于第五点,笔者在博士学位论文《基于期刊文献关系的我国音乐学“学术网络”研究:一种知识图谱的视角》(中国传媒大学,2021年)的第六章有较具体的讨论。读者可详参与批评指正。
转载请联系授权。