作者:颜佳 姚啸华;转自:公众号 DH数字人文
基础设施
颜佳 / 上海图书馆
姚啸华 / 上海图书馆
————————————
摘要:深度聚焦中国问题,以“积淀与超越:数字人文与中华文化”(Benevolence and Excellence: Digital Humanities and Chinese Culture)为主题的2020中国数字人文年会于2020年10月19日至21日在上海图书馆举行。在“数字人文基础设施建设”专家论辩环节中,各位专家就图博档(图书馆、博物馆、档案馆)机构是否应该在数字人文基础设施建设中起主导作用、数字人文研究的未来应该是怎样等问题展开了深入的讨论,提出了数字人文基础设施建设的五项原则,将数字人文基础设施定位于“使能者”,为数字人文基础建设和未来发展提供了参考依据。
关键词:数字人文 数字人文基础设施建设 2020数字人文年会 专家论辩
————————————
近年来,随着大数据、云计算、语义网、人工智能等技术的兴起,人们获得与利用文献资料的方式也在发生变化。在人文社科研究方面,传统基于个别资料、个人灵感与洞察力的研究正逐渐被基于数据统计分析、数据挖掘、知识发现方法的新型研究所取代,并催生了数字人文研究的兴起。在数字人文研究发展中,基础设施建设起着举足轻重的作用,它不仅促进了人文研究范式的变革,更为新兴的研究提供强有力的支撑。通常,数字人文的基础设施是一种支持人文科研活动的基础设施(Research Infrastructure),是指在数字环境下为开展人文研究而必须具备的基本条件,包括全球范围内与研究主题相关的所有文献、数据、关软件工具、学术交流和出版的公用设施及相关服务等。[1]图书馆、博物馆、档案馆作为伴随人类文明进步的公共文化记忆机构,有着保护文化遗产、保存与提供信息资源等天然使命,[2]尤其是图书馆通过近二十年数字图书馆的建设,积累了大量的基础数据。同时,由于数字人文基础设施建设的开放性、公共性及可持续性等特点,使得图博档参与数字人文基础设施建设有着天然的可能性。图博档在数字人文研究“生态”中到底承担着怎样的角色?数字人文研究的未来是什么样的?数字人文基础设施建设应该如何建设?这些都是本次论辩需要解答的问题。以下为论辩实录:
刘炜:(上海图书馆)
今天上午我们论坛的主题是数字人文基础设施建设,基础设施建设通常被认为与图博档关系比较密切,现在大量的数字人文成果都是图博档在做,特别是我们国家,图书馆学、情报学、档案学刊物上发表的有关数字人文论文数量占比达到了70%左右,然而,数字人文本应该是人文学者的天下,所以这样的趋势值得思考。刚刚,上海图书馆(以下简称“上图”)的团队分享了经近一年的努力,在数字人文基础设施建设方面取得的一些成果,比如构建的历史人文大数据平台Demo系统。这也让大家看到了基础设施建设的前景,数字人文基础设施建设应该是开放的,我们非常愿意分享我们的经验,同时也希望更多的人可以参与其中。下面借这个论辩的机会希望同图博档代表和人文学者一起进一步探讨如下的问题:图博档机构是否应该在数字人文基础设施建设中起主导作用?数字人文研究的未来应该是怎样的?
刘越男:(中国人民大学信息资源管理学系)
图博档机构是数字人文基础设施建设的主导,因为基础设施是给全社会提供数据支持,而数据是图情档的专长所在。从某种程度来说,数字人文数据基础设施的概念超越了数字人文,因为它有无限的潜能,社会上可能还有很多的创新应用都将基于未来的数据基础设施。另外,图博档更应关注与人文、科学部门合作,因为数据驱动的研究范式不仅仅冲击了人文领域,它首先发端于自然科学领域。数字人文数据基础设施建设和科学数据管护有共同之处,包括顶层规划、关注关联和全网域联通、互用。科学数据管护还特别重视数据仓储的建设和数据的长期保存,这可以给我们提供一些补充的视角。最后,我想从我的学科的视角来说一些感想,档案学科在科学数据管理方面有很多积累,希望我们能更多地参与数字人文的相关基础设施工作。曾蕾教授在给《数字人文研究》创刊号的一篇文章中指出数字人文数据资源建设的三个阶段:数字化、数据化、语境化,其中语境在档案中就是背景、来源,我们特别关心档案材料之间的关联和背景。希望未来档案学在数据基础设施建设方面能够出更多的研究成果和实践。
陈静:(南京大学艺术学院)
首先,图博档在数字人文基础设施领域应该且已经起了主导作用,这也是图博档的职责所在。其次,数字人文领域确实需要基础设施的建设,个人学者不具备建设基础设施的条件,技术平台提供的服务越多,平台越大,对于个人学者来说,是有一种压迫力的,数据平台和人文学者需要存在良性共存的关系,平台大不见得是好事,但平台大又是必然的需求,对于学术社群的发展来说是非常重要的,所以我个人也很矛盾。第三,我非常赞成刘越男老师刚刚说到的数据的问题,像“上图”发布的平台,这是可见的数据,但是人文学科中还有大量不可见的数据,这些数据可能在研究者手中,往往不可见,被“隐藏”起来了,同样需要被挖掘、被重新发现。另外,希望有个人定制化的基础设施平台,帮助个人学者做学术档案。学术研究本身需要所谓的基础设施化,基础设施不一定是硬件的东西,它更多是让个人学者有一个数据存储、维护、共享的概念,不仅仅是为了出书,也是为了以后的开放共享。
王晓光:(武汉大学信息管理学院)
要动态地看“主导”问题,目前阶段确实是图博档机构在主导。人文研究从传统的研究方式向数字方式的变革,依赖的基础就是数字基础设施。图博档机构能够大力投入,做更多数据化的工作,其实是在为人文研究提供更好的数据基础。数字人文研究在一定程度上可以理解成基于数字的人文研究,这个数字包括两个方面:一方面是技术、方法和工具;另一方面是数字资源。数字人文研究范式的成功建立离不开基础设施的建设。从统计数据来看,目前国内数字人文研究的重要内容就是数字基础设施建设,主要是新型的人文专题数据库的建设,而方法工具和平台建设却相对滞后。再过几年,在智慧型的数字基础设施逐渐成型以后,数字人文研究就会更顺畅、更便利,研究成果也会更多样、更丰富,届时人文学者可能更有主导权,这可能是人文领域研究范式革新升级的基本模式。
王军:(北京大学信息管理系)
在中国大陆地区的数字人文基础设施建设中,图博档已经处于主导地位了。因此我认为需要讨论的不是要不要引导,而是如何在此基础上更好地满足人文学者的需求。这其实是很困难的,因为传统的人文研究是非常个性化的,人文学者是否接受图博档为人文学者所提供的基础设施和研究工具,这是个很大的问题。所以我们可以调整一下目标,从公共图书馆的目标来讲,它重要的服务对象是大众,如果把目标定位于如何使图博档所积累的丰厚文化资源更好地为普罗大众所利用,那么图博档在数字人文中的投入就不会浪费。目前在数字人文领域得到广泛应用的那些可视化的、多元集成的、深度关联的展现方式都可以服务于这一目标。如果要以服务于人文学者为目标,我们要明白人文学者很有自己的特点,在基础设施建设的过程中,如何与人文学者更好地沟通,了解他们的深层需求,在此基础上,我们才能谈对人文研究的帮助,这也是高校图书馆需要解决的一个重点问题。
聂华:(北京大学图书馆)
“上图”在数字人文基础设施中所贡献的成果是业界的一个典范,值得我们探讨与学习。我赞同王军老师的看法,目前在数字人文领域中不同机构的合作网络搭建得还不够紧密,本次会议成立的数字人文机构联盟,将不同的机构进行互通联系,这是一个很好的开始。高校图书馆需要与所在高校的使命高度同步,有更强的紧迫感来支持数字人文建设。高校图书馆应该在转变理念的前提下,转变业务和服务模式,注重传统的工作内容,如文献资源建设、采编、文献素养培养的按需而变,开展数字人文基础设施建设相关的数据工具、数据集的建设以及数据能力的培养。我呼吁大学图书馆的馆长担当起责任,对数字人文的支持、对新文科建设的支持是图书馆真正融入教学科研中必须做的事情,也是图书馆面向未来转型,提升自身支持教学科研能力的良机。相对于成熟的学科,新学科才是图书馆可以大有作为的地方,从需求角度来说也是更为重要的一项工作。
张计龙:(复旦大学图书馆)
我有个疑问,图博档是否真的准备好了或者具备了能力去建设数据基础设施?因为这不是一件容易的事情。在这个过程中,首先是如何定义基础设施,数据库平台是不是基础设施,各机构、各学科在基础设施建设中的角色是什么,人文学者真正的需求是什么,这些都是需要思考的问题。其次,数字人文需要跨学科合作,如何让专业的人做专业的事,是否有能力与不同专业领域的研究者合作。最后,不同网域间的平台如何开放互联,共同构成基础设施的网络也值得思考。
王涛:(南京大学历史系)
数字人文的研究本身有差异性,各机构、各学科首先需要找准自己的定位,才能知道各自在数字人文中所承担的角色。数字人文本身是倡导合作的,我们加入到数字人文领域中,就天然地接受了我们需要合作和共享。在这个层面来说,我们没有必要去追求一定要谁主导,我们能开放地进入到这样一个事业中就是一种理想状态了。当然,这是一个理想状态,因为我们还在研究一个概念,那就是基础设施,但这个概念不是一个单位或者一家机构能去定义的,因此,数字人文的基础设施建设应该由权威部门来统筹安排,避免重复建设、无法开放共享等问题。总而言之,虽然图博档天然有服务的责任,但是参与数字人文基础设施建设的各机构间没有层次的差别,大家应该抱有开放合作共享的精神,这是数字人文未来发展的更好的状态。
任树怀:(上海外国语大学图书馆)
若要探讨图博档在数字人文领域是否起到主导作用,可以从文献计量这个侧面观察一下,目前以数字人文为命题的已发表论文中,图博档学科的作者比较多,估计占70%,人文学者以此命题的发文量占比较少,这并不说明人文学者的研究没有使用或不需要数字人文技术或方法,而是人文学者对“数字人文”这个称谓没有强调或还不够熟悉,表明人文研究者对数字人文概念的熟悉程度与实际需求程度之间是不对等的。图博档学者与人文学者跨界合作非常重要,人文学者认同了“数字人文”概念,能够对数字人文基础设施充分利用,才能凸显图博档学科在构建数字人文基础设施中的巨大作用,这些对图书馆今后的发展及图博档学科的发展十分重要。数字人文基础设施建设需要有图书馆、图博档学者、人文学者的共同参与,密切合作和跨界融合,这样才能形成良性发展的“学术生态”或科学研究共同体。综上,数字人文的基础设施建设是十分有意义的,应该坚持下去,同时也迫切需要人文学者的共同参与和密切合作。
王丽华:(上海大学图书情报档案系)
图书馆学芝加哥学派的代表人物巴特勒曾经在《图书馆学导论》里面写到了这样一句话:“对于一个将毕生精力都投入到一项事业的人来说,跟他提‘实用价值’这个问题,是一种亵渎。”后来另一位图情领域非常著名的人物罗宾在1998年的《图书情报学基础》里面提到了一句话:“想认识事物的本质,那就去尝试理解它的价值。”所以我想从价值的角度来回答刘炜馆长刚才提出的两个问题。刚才夏翠娟老师为我们介绍了“上图”的基础设施支撑了五届“上海图书馆开放数据竞赛”。上海的开放数据竞赛已有三架马车,这些竞赛背后有多少基础设施来支撑,这是一个问题。另外我觉得数据竞赛在一定程度上也推动了基础设施的建设。回到关于基础设施建设的价值问题,首先它的文化价值是不言而喻的,今天我们的主角——历史人文大数据平台,一个小小的检索框背后凝聚了多少中华文化,当然还有文化的传承,通过数字人文,我们去认识历史;除此之外还有学术价值、社会价值、经济价值、使用价值等。
刘炜:(上海图书馆)
数字人文基础设施建设是一个长期的过程,目前中文世界的基础设施尤其不足,我比较过西方文本的语料库、技术,意识到中文信息技术还存在不足,但它总归会迎头赶上。本次会议的主题是“积淀与超越”,但我们现在在“积淀”上还没有做得很好,很多学者刚才也说过了,目前很多数字人文学者在研究时,花费了大量时间在学习技术、处理数据上,这些工作实际上是不必要的,图博档完全可以帮助他们处理。数字人文基础设施建设不能取代人文科学本身的研究,所以我是把数字人文基础设施和数字人文研究这两件事区分开的。人文学者应该更擅长从本学科领域提出问题,现在他们提出的这些问题都在数据工作中损耗了,像数据的收集加工处理和计算,如果存在数据基础设施,这里的基础设施由所有的图博档行业和学术界共同建设,他们就能降低门槛,驾轻就熟地来研究他们的问题。本次数字人文年会的征文水平很高,有很多很好的研究。但事实上还存在很多的问题,人文学者虽然用了数字方法,但是很多并不规范,科学性是存在不足的。这些都与基础设施、科研规范教育不足有关。我非常赞同刘越男院长说的,我们要借鉴科学4.0范式转型的数据科学的成果。数字人文生态中,我们是要区分角色的,数据科学家与图书馆员、计算机科学家与算法工程师、商业人员,我们一直认为是三分天下的。现在有一个共通之处可以让图博档起到桥梁作用,那就是“计算思维”(详见王晓光老师组织翻译的著作)。[3]数字人文基础设施建设是不能取代数字人文研究的,基础设施是为数字人文研究服务的。我为数字人文基础设施建设总结了五项原则:
(1)基础设施建设是数字人文研究领域的基础工作,图博档和人文学者研究应该有明确的边界,不要越界。图博档不是不能研究文史哲,但需要尊重规律和范式。图博档有自己的学问以及大量的工作,不必觉得自己的服务工作就低人一等。
(2)基础设施建设必须是“使能者”,我不赞同基础设施都是为大众服务的,目前我们做的主要还是为研究人员服务,我们目前为大众服务是为了增加它的显示度、社会认知,以获得更多支持。但我们最终还是为了推动人文社会科学研究,特别是推进人文科学的定量化和科学化。基础设施建设必须是“使能者”,必须生长出巍峨的大厦,否则它就是烂尾楼,它就是废墟。
(3)基础设施材料要与时俱进,将基础设施比作建筑,我们做的不再是传统的“土木结构”,目前已经是“钢筋混凝土结构”了,甚至有的已经是“高分子结构”了。我们只有将材料脱胎换骨,才能建设更宏伟更高大的建筑。
(4)基础设施建设无所不在,依靠各机构、学科共同参与,不仅仅只是图博档,“上图”仅是示范。“上图”希望把自己总结的经验教训分享给大家。
(5)基础设施建设要“搭帐篷”,要搭出新天地,依靠各学科的创新。很多数字人文并不是传统人文的转型,是新的人文,有了基础设施才能有更多的创新。
通过本次论辩可以发现,专家们对于数字人文基础设施建设的理解已经基本达到了一致,大家普遍认为数字化的文献资源、服务机构、资源库、机构仓储、系统平台、工具软件等都可以是基础设施建设中的一部分,基础设施的建设将改变并逐步固化新的人文研究范式,实现人文研究范式的全面改革,为新文科建设提供有力的支撑。张计龙认为弄清楚基础设施的定义,以及参与数字人文研究的责任主体各自的权利与义务是非常重要的。陈静认为基础设施不一定是硬件的东西,它更多是让个人学者有一个数据存储、维护、共享和使用的概念。如何在强势的技术平台、学者个体、社群的需求之间达成良性的互动与平衡,是今后基础设施建设需要思考的问题。王晓光认为数字人文的基础设施建设有两部分,首先是技术、方法、工具,其次是数字资源。人文研究从传统的研究方式向数字方式的变革,其基础就是基础设施建设,基础设施由所有的图博档行业和学术界共同建设,人文学者就能降低门槛,驾轻就熟来研究他们的问题。王丽华提到了数字人文基础设施建设的价值,认为文化价值、学术价值、社会价值、经济价值、使用价值是其重要的部分。刘炜认为基础设施建设是不能取代数字人文研究的,要将数字人文基础设施建设和数字人文研究区别开,基础设施是为数字人文研究服务的。
总体来看,大家普遍认为中文的数字人文基础设施建设落后于西文世界,做好基础设施建设有诸多困难。张计龙、任树怀都提到了数字技术与专业鸿沟问题,认为由于缺乏领域知识,基础设施的开发人员能够满足人文学者的深层需求是非常困难的,同时,由于缺乏信息技术,人文学者对基础设施的接受度还有待提高。刘越男认为应该借鉴科学数据管理的经验,因为数据基础设施建设和科学数据管护有共同之处,包括顶层规划、关注关联和全网域联通、互用;重视数据仓储建设和数据保存。陈静提出了面对人文科学研究中,产生了大量的人文社会领域的科学数据,该如何持续推动这些数据的开放获取和数据的长期保存是值得关注的问题。王涛呼吁基础设施建设除了机构参与以外,也应该有国家层面的支持,这样可以改善现有基础语料库规模不大、质量不高、描述信息不够、循证信息缺乏、重复建设等问题。聂华提出数字人文机构之间应该加强合作与交流,肯定了中国索引学会数字人文专委会(机构联盟)的成立对于未来数字人文发展的推动作用。
本次论辩中多位专家肯定了现阶段图博档在基础设施中的主导作用,甚至认为图博档机构的公益性质以及多年来积累的数据基础决定了其必然是主导。刘越男认为基础设施建设超出了人文社科研究的范畴,对于自然科学研究领域同样适用。王晓光认为要动态地看当今图博档在数字人文学科中的主导问题,目前国内数字人文研究尚处于起步阶段,由图博档主导数字人文研究很正常,他预测今后随着基础设施建设的完善,人文学者的研究成果会陆续增长,到一定时期以后,数字人文的主导可能就是人文学者。王涛认为图博档天然有为人文社科研究服务的责任,今后的数字人文基础设施建设应该是图博档和其他相关机构共同参与,合作共享,各机构间没有层次的差别。聂华呼吁图书馆应该担起责任,支持数字人文研究和新文科建设,这关系到未来图书馆在数字时代的生存与发展,未来图书馆不仅要在内容上通过文本化、数据化的数据集与语料库进行数据基础设施建设,同时也应该在培养信息素养与数据管理分析人才方面担当相应的角色;刘炜认为数字人文生态中,数据科学家与图书馆员、计算机科学家与算法工程师、商业人员这三者应该协同合作,图博档机构应该利用计算思维的优势,发挥桥梁作用,在尊重各领域规律和范式的基础上,加强粘合度,既面向大众,又面向小众。
本次辩论提出了人文基础设施建设的五项原则,这五项原则分别从基础设施建设的边界、定位、建设内容、责任主体和前景等角度来概括。第一,“原则”将基础设施建设与人文学者研究的边界进行区分,明确了图博档今后在数字人文领域的研究方向。图博档应根据自身定位,找准侧重点与着力点,为人文研究提供深入的资源和完善的存取手段,关注资源的对象化、数据化、开放互联、共建共享,应将利用基础设施成果进行人文研究的工作交给专业的人文学者。第二,“原则”认为基础设施建设是数字人文的“使能者”。“使能者”(enabler)意为社会变革的催化剂或助推器,恰如其分地表达了基础设施在人文研究转型过程中的新的定位。基础设施的完善将改变人文学者思考问题的方法与看待问题的角度与维度,将推动人文科学的研究,尤其是人文科学的定量化与科学化,最终实现人文研究范式的变革。基础设施存在的意义就是推动人文研究的发展,离开这一目标,基础设施建设将毫无意义。第三,“原则”对数字人文基础设施建设的内容进行了归纳,基础设施建设注重的不仅是传统馆藏资源的数字化、服务的有序化,更强调资源描述信息和内容的数据化,以及数据按逻辑关系的形式化,同时注重跨机构的共建共享,资源对象和数据单元层面实现跨网域的开放互联、跨领域的知识融通和跨时空的版本迭代。[4]第四,“原则”认为保存人类历史记忆的图书馆、博物馆、档案馆等机构天然是基础设施建设的责任主体,同时需要专门领域的研究专家、数据科学家、及各类商业公司甚至个人共同参与。最后,“原则”畅想了基础设施建设的前景,数字人文的基础设施建设依靠各学科的交叉融合,依靠技术创新与理念转型,将对人文学科研究的资源类型和研究方法产生巨大的影响。
本次论辩内容全面、思想深刻。各位专家以多元化的视角对数字人文基础设施建设的责任主体、未来发展等问题进行了全面而深入的讨论,使得参会者对数字人文基础设施的建设背景、基本概念、建设目标有了更深刻的认识和理解。论辩最后提出的数字人文基础设施建设五项原则,为今后数字人文基础设施建设提供了参考与依据。数字人文作为一个新兴的交叉研究领域,正处于蓬勃发展中,相信在不久的将来,依靠现代信息技术、依靠全新的研究方法、工具和平台,将不同学科学者汇聚到一起,数字人文研究将更具活力,将在理论和实践方面为人文研究做出更大的贡献。
—————————————————————————————————————————————————————————————
The “Leader” and “Enabler” of Future Developments of Digital Humanities : A Summary of Scholarly Debates on the Construction of Digital Humanities Infrastructure in DH 2020 Annual Conference
Yan Jia, Yao Xiaohua
Abstract: In DH 2020, an experts’ debate was held on the topic of “The Construction of Digital Humanities Infrastructure.” In-depth discussions were conducted on the concept, main role, current status and future development of Digital Humanities infrastructure. This debate affirmed the leading role of Libraries, Museums and Archives in Digital Humanities infrastructure, proposed five principles for the construction of Digital Humanities infrastructure, positioned Digital Humanities infrastructure as an “enabler”, and provided reference and basis for Digital Humanities infrastructure and the future development of Digital Humanities.
Keywords: Digital Humanities; The Construction of Digital Humanities Infrastructure; DH 2020; Experts Debate
—————————————————————————————————————————————————————————————
编 辑 | 赵薇
注释:
[1]刘炜等:《面向人文研究的国家数据基础设施建设》,《中国图书馆学报》2016 年第 5 期。
[2]A. Yarrow, B. Clubb and J. Draper“, Public libraries, archives and museums: Trends in collaboration and cooperation,”The Hague: IFLA Headquarters, 2008.
[3](英)大卫·M. 贝里、( 挪)安德斯·费格约德著,王晓光等译,《数字人文:数字时代的知识与批判》, 长春:东北财经大学出版社,2019 年。
[4]夏翠娟:《面向人文研究的“数据基础设施”建设——试论图书馆学对数字人文的方法论贡献》,《中国 图书馆学报》2020 年第 3 期。
原刊《数字人文》2021年第1期,转载请联系授权。