编者按:
古籍传承保护是人文社科研究的重要领域,以大数据和人工智能等为代表的信息技术,为古籍传承保护与相关研究提供了新方法,注入了新活力。为集中探讨智能信息环境下古典文献领域的新技术、新工具和新平台,古典文献研究新方向,古典文献教学新变化,古籍整理出版新趋势,北京大学数字人文研究中心、北京大学人工智能研究院共同主办了“古籍智能信息处理”(以下简称“古籍智能”)系列研讨会,并在腾讯会议等平台同步直播,平均在线参加人数超过千人。
2022年3月12日举办的第一讲以“智能时代古典文献学的机遇与挑战”为主题,拉开了“古籍智能”系列研讨会的序幕。在致辞中,中国古籍保护协会刘惠平会长期待各方“在知识体系的多元碰撞中进一步凝聚共识,推动中华古籍在数字化、智能化环境下的深度开发与利用”;全国高等院校古籍整理研究工作委员会卢伟秘书长也强调要“推动古籍数字化、智能化平台的建设以及相关标准规范的形成”。会议由北京大学王军教授和杨海峥教授主持,杨海峥教授和清华大学刘石教授作主旨发言,浙江大学徐永明教授、复旦大学张晓虹教授、四川大学王兆鹏教授、华南理工大学金连文教授、韩国庆星大学许喆教授、上海图书馆刘炜研究员等分别发言。第二讲“古籍数字化平台的建设”于3月26日举行,多家古籍数字平台的创始人从古籍数字化平台的构建与演进、建设与研究模式、可持续化发展和商业探索,以及人才培养等方面进行了研讨。研讨会由北京大学杨海峥教授主持,浙江大学徐永明教授担任主讲人,四川大学王兆鹏教授、上海外国语大学欧阳剑研究馆员、中华书局古联公司总经理洪涛、元引科技有限公司创始人朱厚权发言。4月23日举行的第三讲主题为“历史地理信息系统的建设与发展”,探讨了历史地理信息系统平台建设、古旧地图数字化应用、重点区域历史地理信息沿革介绍、历史地理信息平台关键技术等问题。由复旦大学张晓虹教授主讲,首都师范大学张萍教授、北京大学王长松研究员、西安云图公司总经理张学宝发言。
古籍智能信息处理也是数字人文的重要面向,对数字基础设施建设及相关研究开展意义重大,相信“古籍智能”系列研讨会将成为中国数字人文发展的一个里程碑。因此本刊在会议发言基础上整理成系列笔谈,以飨读者。本期刊发前三组,今后将根据研讨会进度继续推出,敬请关注。
系列笔谈之一:智能时代古典文献学的机遇与挑战
北京大学数字人文研究中心
王军(北京大学信息管理系):智能信息环境对古典文献学的挑战
以大数据和人工智能为代表的信息技术迅猛发展,给各个领域带来了诸多挑战,也提供了前所未有的机遇,古典文献学这门古老的学问也不例外。对于文献整理工作来说,人工智能技术主要体现在对信息环境的改变。人类的信息环境,从金石简帛到抄本、刻本,再到现代铅印和激光照排,一直发展到今天数字化与网络化的互联网融媒体环境。今天,我们正面临一个更大的变革,就是智能信息环境。所谓智能信息环境,就是人机协同的信息环境,即我们从使用机器辅助查找、通过网络环境快速获取信息,演进到对深层知识和知识结构的抽取。在这样的大环境下,古典文献面临着一系列的挑战。首先,它会影响到古籍整理出版行业。根据姜小青老师在《中国出版史研究》上发表的文章统计,从1949年到2019年的七十年间共整理出版了37,973种古籍。[1]根据《中国古籍总目》,存世的中国古籍总计约二十万种。按照以往的速度,还需要300年左右才能完成所有存世典籍的整理工作。在人工智能技术的辅助之下,包括OCR文字识别、自动标点、命名实体识别等步骤,我们很有可能在数十年间就完成所有典籍的数字化整理。此外,更大的影响在于智能技术将使得古籍整理工作的重点发生改变。过去古籍整理的目标是把传统纸本古籍经过对勘、点校、释义等整理环节后再出版,方便现代读者阅读。在智能技术的支持下,现在我们可以将古籍中所蕴藏的古代历史文化知识抽取出来,构造成各种各样的知识库,转化为知识图谱的形态来支持各类互联网前端应用,例如,我们可以将从古籍里抽取出来的知识整合到“抖音”或“今日头条”中,使它在更大范围内让广大网民触及,这是在智能技术支持下可开辟的新领域。也就是说,古典文献可以为深度学习等智能技术提供丰富的古代历史文化语料。
我认为古典文献学与相关领域的跨界融合会越来越明显。智能技术与古典文献学研究的结合,会使得建立在古典文献基础之上的古代历史、古代文学、古代思想史、语言学等学科的研究出现渗透融合的趋势。因此,如何形成多学科交叉的课程体系、培养复合型的古典文献学人才是高校古典文献专业亟待解决的问题。与此同时,也要更加重视传统的古籍研读训练,深耕阅读文化,通过古籍阅读提升全民人文素养。
今天,我们所处的互联互通的全球互联网环境使得跨文化、跨地域的交流与合作无比便捷。中国古籍不仅是中国的文化遗产,也是世界文明不可或缺的一部分。我认为,充分利用中华典籍这一宝贵的文化遗产来促进国际文化交流和世界和平,也是古典文献学义不容辞的责任。
现在是古籍数字化和古籍智能化开发的好时机。今天,既有政府主管部门的支持,也有出版社和众多数据库厂商的努力。我们高兴地看到像字节跳动、阿里这样一些互联网大厂也进入到这一领域。此外,还有广大的古籍爱好者在积极地参与和推动。如何凝聚多方力量,广泛动员社会参与,促进多方协作、促进开放共享,也是“古籍智能”系列研讨会要讨论的主题。
杨海峥(北京大学中国语言文学系):变革中的古典文献学
谈到智能时代古典文献学的机遇和挑战,我们首先要对传统的文献学进行回顾,即传统意义上的文献和文献学到底是什么。
“文献”这个词,最早出现在《论语》中:
子曰:“夏礼,吾能言之,杞不足征也;殷礼吾能言之,宋不足征也。文献不足故也,足则吾能征之矣。”
东汉郑玄分别以“文章”和“贤才”来解释这里出现的“文”和“献”。我们结合具体时代背景可知,孔子所说的“文献”是针对涵盖范围非常广泛的儒家的“礼”而言的。要把这些包括国家典章制度乃至个人道德规范、行为准则的庞大概念和广泛的内容传达下去,既需要成文的记录,也需要博学多识的贤才,这就是“文献”最初的含义,它是由典籍和贤才两方面构成的。“文献”的概念在使用的过程中也慢慢发生改变,元明以后,我们在提到“文献”的时候,就更加偏重于“文”,也就是文献典籍了。《现代汉语词典》和《汉语大词典》都提到“所谓的文献就是有历史价值或参考价值的图书资料”,这是我们今天对“文献”的定义。我们所说的古代文献,或者说古典文献,从今天学科分类的角度来看,包含了文学、历史、哲学、语言、医学、法律、经济、科技、宗教等多学科的图书资料,涵盖了中国古代文化以及学术史的方方面面。
那么什么是“古典文献学”呢?中国古代没有文献学之名,但有文献学之实,就是把目录、版本、校勘融为一体的传统校雠之学。今天所说的古典文献学,从狭义来讲,是中国古代传统校雠之学的延伸。从广义来讲,可以概括为关于古代文献的阅读、整理、研究和利用的相关学问,是既研究古代文献的生成、使用、流传与衍变,又包含了古代文献的语言文字、文本形态以及思想内容等各个方面在内的综合学科。古典文献学关注的核心是文献的本体,而对于文献本体的研究又关联到古代文化和学术史的方方面面。
由于古典文献学作为一门学科具有这样的特点,所以要做古典文献学研究,既要有版本学、目录学、校勘学、辑佚学、辨伪学等与文献本体密切相关的基础知识,又要有文字学、音韵学、训诂学等传统小学知识作为必备的学术背景。1958年,国务院古籍整理出版规划领导小组在北京大学建立第一个专门培养古籍整理人才的古典文献学专业,并于次年开始招生,是全国高校中最早设立的培养古文献学研究与古籍整理专门人才的学术机构,成为新中国古籍学科专业建设的开端。1981年9月,中共中央下发了《关于整理我国古籍的指示》,全国古籍整理研究事业走向繁荣,古典文献学科也进入快速发展时期,经过六十多年的发展,在古籍整理与研究、古典文献学人才培养等方面取得了显著成绩。
当代社会已进入信息时代。信息技术的发展和运用,对人类社会生活的各个方面产生巨大影响,古籍保护、整理和出版事业也不例外。古籍数字化技术的运用,既对传统的古籍保护、整理和出版工作模式提出挑战,也为古籍保护、整理和出版提供了重大机遇,必将带来古籍保护、整理和出版工作的革命性变化。古籍数字化无疑是当代古籍保护、整理和出版工作的主要发展方向。
中国古籍数字化是随着改革开放以来科技的进步而开始的,经过了起步、探索、基本完善再到商业应用和网络化的过程,至今有40年的历史。最初的古籍数字化是将古籍通过图片扫描和文本处理手段,将古籍的内容变成电脑的可读数据。之后又发展了强大的检索功能。像《四库全书》、二十四史等规模很大的古籍,因为有电子版的文本及检索方式,大大扩大了使用者的范围,也提高了古籍图书的使用效率。与传统纸本相比,使用方便、检索快捷是数字化古籍的优势所在。
随着科技的发展,古籍数字化也在不断发展和进步,近年来“中国基本古籍库”“中华经典古籍库”等古籍数据库的开发,又将古籍数字化推进到了一个新的阶段。数字化古籍在古籍的传播和利用上已经显现出极大的优势,在学术研究中的利用率也在不断提高。2018年4月,中华书局下属古联(北京)数字传媒科技有限公司负责建设和运营的“籍合网”正式上线,“籍合网”集中整合多种古籍数字化产品,提供标点、注释、校勘、翻译等在线编辑模块,在强大的资源支撑下,古籍整理者可以方便地参考和利用已有成果。古书的自动翻译和标点,繁简字体的转换,通假字的识别等成为目前古籍数字化的热点。
比如北京大学数字人文研究中心开发的“吾与点”古籍智能处理系统,通过用机器大规模采集古汉语语料,实现了自动句读、命名实体识别等基本的古籍整理功能。自动标点、自动分词、自动关系识别等高级功能,也在陆续地开放、测试。系统能够处理各类古籍文本,无论是先秦典籍还是明清小说,目前模型在混合类文本测试集上的句读平均准确率超过94%,达到了实用标准。在《尚书》《春秋》等先秦上古语料上对人名、地名的泛化识别准确率分别达到87%和82%。这表明当前基于预训练模型的深度学习方法在中华古籍文本上的句读和专有名词识别已经取得与专业人员相媲美的表现。这一较高的准确率也让我们思考,在智能时代可以对古籍的传统句读方式做一些怎样的调整。
再比如北京大学数字人文研究中心所开发的“宋元学案知识图谱系统”,对240万字的《宋元学案》进行了文本处理和分析,将学案中的人物、时间、地点、著作以及它们之间的复杂语义关系提取出来构造成知识图谱,提供可视化展现、交互式浏览、语义化查询等功能。系统以知识图谱为底层数据结构,根据文本设计了系统功能和界面,提供了“概览”和“精读”两大类功能。读者可以纵览整个学术史衍化脉络和完整的师承关系网络,从中选取感兴趣的人物、地点、事件、学说来汇聚相关的资料,观察学者的游历行迹,阅读其学说精华片段,考察其学术关系网络。系统还为读者提供了年号对照、宋代地图和职官图等背景知识辅助工具。也就是说它将所涉及的学者之间完整的师承关系,以及我们所感兴趣的人物、地点、事件、学说等相关资料都汇集在一起。通过使用“宋元学案知识图谱”,可以便捷地获得相关学术史的演化脉络。
由上可知,新技术和新流程给古籍整理与研究带来了极大的便利,也提供了新的思路。同时,智能时代也使传统的古典文献学面临机遇和挑战。人文学者如何参与到古籍数字化的具体工作中,如何与技术人员合作,需要具备哪些方面的新知识,如何保证结果的准确性,不被机器“误导”而是能更好地“利用”,这也是我们面对的挑战。此前已经有学者指出,古籍数字化的理论问题比技术问题更为重要,因为一旦理论发生了偏差,技术越高明,则解决方案越是难以成功。
我们需要培养出对古文献学、古籍保护、信息技术及数字化流程都比较熟悉,又能将各方面有机融合的古籍数字化人才,这类人才不仅要对古籍及传统文化有清晰的认识,更要以信息技术作为手段来传播、推广古籍善本资源以及包含在古籍中的传统文化内涵,同时还能承担古籍数字化的建设及运营管理等工作。
古典文献学可以说是我国历史最为悠久的传统学科之一,研究方法成熟。所以我们在进一步夯实学生传统的古典文献学基础的前提下,要适应智能时代古籍工作的需要,推进学科交叉,将信息智能技术和传统的中国古典文献学相结合,探讨古籍人才培养的新思路、新方法。通过举办系列讲座、设立选修课、暑期学校等形式,使学生了解智能信息环境下古典文献领域应用的技术、工具和平台,了解古典文献研究的新拓展和新方向,在多元碰撞中思考人文与科技之间的关系,根据新时代的要求在研究方法和课程体系上进行有效的调整。不是简单地拼合信息技术和古典文献学两个学科,而是将两个学科有机融合,达到在传统文献学基础上推陈出新的效果。探索出适应新时代要求的古籍人才培养模式成为了我们需要思考和解决的当务之急。
总之,作为一位学习古典文献学出身,一直在高校从事古典文献学教学的老师,我对于古籍整理及古典文献学研究在智能时代所面临的机遇和挑战深有感受。现在北京大学数字人文研究中心筹办“古籍智能信息处理”系列研讨会,把古典文献学、数字人文、人工智能等各个领域的专家学者汇集到一起,对古籍智能信息处理所涉及的各个子领域做深入的讨论和交流,大范围地普及和传播古籍智能领域的相关知识和技术,这对于促进在智能信息环境下古籍整理和研究所需要的跨学科人才培养,拓展古典文献学的研究方法,以及推进古典文献学和相关的文史领域的研究,都将发挥非常重大的作用。
刘石(清华大学中国语言文学系):大数据时代的新型文献学
这几年来,我们在数字人文方面做了一些工作,比如,申请了国家社科基金重大项目“基于大数据技术的古代文学经典文本分析与研究”;创办了《数字人文》刊物;建立了国内首家数字人文门户网站;开设了“DH数字人文”微信公众号。我们一直致力于培养年轻的数字人文学者,这学期第一次开设了数字人文相关课程,承担课程的老师也是我们团队的成员,不仅有古代文学专业的老师,还有计算机、统计专业学的老师。
以上工作都是以数字人文为核心的。按我自己的理解,“数字”是一个内涵丰富、多层面的概念,由不同的角度、不同的学科、不同的方法共同支撑起来。对于我们清华大学数字人文团队来说,确实是以古典文献作为研究基础,或者说古典文献是近些年我们的着力点。去年我和李飞跃老师合写的一篇文章《大数据技术与传统文献学的现代转型》,[2]同本次研讨会主题比较吻合,才敢和大家汇报一些我们的想法。
文献学的发展有一个漫长的历程。文献的载体从甲骨金石、简牍缣帛,到纸张,再到现在的数字化文献。大数据技术带来了文献的数字化时代,必然而且已经引发了文献的变化。我们将此变化从三个角度来标识:文献生产的创革,文本形态的新变和知识获取的拓展。这三方面的变化,最终一定会促进目前就已经开始了的传统文献学的现代转型。我们从这个角度来观察,可以发明大数据技术下新型文献学的实践功能,而且也可以借此认识大数据技术与传统学术本身的深层关联。
当时我们写这篇文章,背后有一个认识,即数字人文时代的到来毕竟还算是初期,并不是所有人都能够理解,这是很正常的。包括我们自身在这个浩瀚无比的“海洋”能够做多少、能够认识多少,是很难说的。所以,有人对数字化产生不理解,认为它可能会破坏传统学术应有的发展,都是非常正常的。在这个情况下,我们更多的不是去说服他们,而是要思考大数据在学理上的合理性或者合法性。
尤其是我们做文献学研究的学者、古典文献和文史领域的同行们,大家都会认同这样一个观点——做学问要以文献为基础,不仅是文献学,做其他学问也要以文献为基础。这是我们经常告诫自己和学生的。那么,数据是什么?大数据本身不就是文献吗?不同的是,它是一种现代型的文献,和传统的文献有区别,但本质还是文献。用大数据技术做研究,从根本上就决定了一定不能轻视文献,甚至比任何一个传统的时代还要更重视文献。所以,我们做数字人文,或者用大数据技术来做相关的研究,就具有特别强烈的合法性。因此,我们才要写文章来谈谈大数据技术和传统文献学血脉相连的关系,以及大数据技术如何推进传统文献学的研究。
简单地说,就是刚才提及的三个方面:第一,文献生产的创革。传统的文献学主要处理固化的、具体的知识,而大数据则能够处理多种类型的、海量的知识,更依赖工具与技术,因而极大突破了传统文献的生产方式,实现了文献形态的再发现与再生产。通过大数据技术,可以实现原生文献的碎片化与颗粒化,这同传统文献生产创作是不一样的。另外,文献知识的标准化和整理的规模化、传统文献与知识的重新关联与结构化等,感兴趣的朋友可以去阅读我们的文章。这些都是大数据时代文献生产同前大数据时代不同之处。比如,根据不同的需求和研究目的进行多维度的文献特征提取,任意实现文本聚类,分析出各种文本集或知识体。知识因新的文本重新关联,它不再是线性平面文本当中的字、句、段、篇这样最常规、最传统的联结方式,而是文本与文本之间建立起的交叉、立体、动态关联。所以大数据技术让人类第一次有了处理大规模综合文献数据的可能性。
在具有深厚传统的文献学研究中,大数据技术从知识获取、标注、表示、阐释等方面带来根本性变革,最终也体现出方法论和研究范式上的革新。
第二,随着数字化和数据化的发展,文献计量单位从部、册、卷、篇、页、段、行、句等,向以基本储存单元、扩展储存单元等转变,索引、算法、模型等成为知识链接的主要手段。文档、资料集、数据库、智能平台,在这个阶段可能还是与传统的总集、类书、丛书、资料汇编等共存。但是可能有朝一日就会偏向到前者新型的形态,这个形态分三种:第一,数据库作为一种“宏文本”,不同的数据库基于某种方式、角度的关联,就连接成一个超大文本。利用数据关联、集成分析,不同领域、主题、角度之间的障碍都会被打破,数据库可以最大程度地一站式获取所需文件。第二,历史文本的空间化与可视化。显而易见,这是传统的研究非常不方便去做的。第三,异质同构与传统文献的跨文本融合。未来的文献形态,远远不止于文本、图像,还包括音频、视频,或可能是其他我们想象不到的形态。各章节内容打通、聚合,形成动态的、关联的、立体的数据文本即超文本结构。语音识别、图像识别及自动翻译技术等信息技术的加入,使得数据化的古籍可以超越国别语言文字,实现同一语义层面的关联与比较,促进多语种文献和比较文化的研究。这实际上已经开始了——我们现在较以前不那么担心外语不好了,就是因为有机器翻译,但是翻译要对于我们的学术研究有用,那么可能就不仅仅是生活语言的翻译,甚至需要多语种的、立体的、综合的翻译。
此外,文本形态、文献生产跟传统不同,同样带来知识获取的不同,这就需要拓展。大数据是由海量文献组成的大样本、高维变量数据集,它们量大质异、多源分散,超出了人类在可接受时间下的收集、庋藏、管理和处理能力。用现代科学技术手段,在关联化、计量化和模型分析基础上,统摄不同知识的复杂关系,从碎片化、多维异构的海量知识获取并融合成系统化和创新性知识,这是社会学发展的总体趋势。
第三,知识获取的拓展也可分为三方面:第一,知识的关联。我们历来注重知识的关联性,但是,在这个大数据时代,知识的关联性得到了空前的拓展,过去是不可同日而语的。第二,知识计量,对于海量的知识体,计量就很重要。如果没有现代的技术支撑,计量也是不可能的。第三,主题模型的提取。建构整体性的文史研究,大数据特别便于研究整体性的问题,当然,反过来说,也很便于做局部的或者细化的研究。模式识别正是计算机擅长的领域,计算机可根据不同文件设置参数、提取主题,这是人工没办法做到的。因此,新工具和新方法赋予我们获得观察超长历史阶段、文化现象的新视角,也赋予我们获取新知识、新发现、新问题的能力。传统文献研究强调研究者的积累性、经验性、直觉性和思辨性,通过对已有研究成果整理、分析、归纳、提炼等方法进行知识发现和创新。大数据技术基于观察数据、实验数据、模拟数据等,通过数据“发声”和获取知识,是对传统文献研究方法的超越。
最后,我谈谈传统文学研究的现代转型。有人认为,文学史就是文学的屠宰场,抽样研究致使大量书籍永无出头之日,我很赞同。个人博览群书能博览多少?依靠一个人的力量,传统文学研究没办法全面展开,只能集中于有较高史料价值的经典。现在提倡要往下走,要走到民间,我们关注的这些大众文学、民间文化,如果从文学的角度来讲,数量还是很有限的。在大众文化、俗文化相关的文本当中,我们所关注的还是重要的,或者说我们认为是重要的部分。理论上,大数据使追踪全体文本成为可能。它追求的不是随机样本,而是全体数据,不是精确性,相反是混杂性。当然,基于混杂性做出的研究,我们认为是更精确的。这看似矛盾,实际上是一种辩证的关系。所以大数据技术有望在科学性、整体性、理论范式上促进传统文学研究现代化转型。
首先,促进文献研究的实证化与科学化。实证化,是以文献为基础的。我们专业的研究强调不能脱离文献,言必有据,这带来的很可能就是实证化。实证化相应的就是科学化。大数据时代我们面对的海量文献可以促进或者凸显实证化、科学化的特点。
第二,提升对海量古典文献整体性与复杂性的认识。我们看见的文献越少越容易得出结论,反之,越不容易,但会使我们对整体性、复杂性认识大大加强。学术研究中,如果是用简单化的思维或者利用非常小量的样本进行事物的观察,那是很危险的。随着样本量的增加和标准变化,以往建立在抽样或抽象基础上的结论可能发生变化。我们的团队最近致力于做关于诗词格律的研究,发现大概从明清以来一直到现当代教科书式的著作中所提到的一些规则,比如王力先生总结出的一些诗词格律规则,和我们用大数据研究发现的之间是有一些距离的。正因如此,一旦扩大到全样本,这些规则或显示其错误,或变得不那么明显,或者一些原本没有显示的、未曾被重视的特征变得显著,这就是重视整体性、复杂性带来的变化。
第三,产生新的学术理论与研究范式。这不是我们有意的追求,而是必然的趋势。大数据技术进一步缩小了定性研究与定量研究之间的鸿沟,在经典理论和实践理论、实践经验之间架设一座桥梁,有可能发现和提出新的重要理论。这些都是大数技术应用于人文研究而产生的新的理论、方法。也有学者认为,在大数据环境下,如果数据足够多,理论建构并非不可或缺。我更愿意把这句话的意思理解为,并不是不需要理论,但是我们不必去有意地追求所谓的理论建构——它自然会呈现出来。确实如此,大数据或者大数据的思维方法必然带来了一些研究范式的不同,或者方法的不同。在这个时代,不管你愿意不愿意,传统研究都面临着前所未有的挑战或者转型。近年出现了“电子文献学”“数字文献学”“数字目录学”“计算人文”“数字人文”等概念,其内涵无不体现出大数据技术与传统文学的血脉相承而又功能各异。古典文献学的版本、目录、校勘等知识门类都在,不可能取消,也一定不会取消,而是在升级迭代,可以说这是自秦汉以来最大的一次文献、文本、知识的管理变革,也是方法论和认识论的一次再现代化。
谈到大数据技术作为新型文献学的方法论的意义,传统文献学也注重使用大数据的方法,比如类书、资料汇编等可以看成是小样本时代的数字化或者大数据技术,而大数据则是大样本时代的文献学。我认为这可以让那些质疑我们的人放心,我们没有离经叛道,我们还是在做文献学研究。文献学和大数据技术都有方法论与本体论特征。大数据时代的文献,文本与知识以数据形式存在,而数据不仅最终完全可以转化为文献,甚至就是传统的文献文本的一种形态。所以说数据就是文献,但是是新型的文献。
最后,我们要说到“挑战”。大数据技术这么厉害,所向披靡,它存在什么问题?现在我们都在很热烈地讨论,想投身到大数据技术研究当中去的时候,要不要保持冷静的头脑?要认识到,它并没有改变知识的本质或者人的主体性的存在条件,依然只是一种认识世界的工作方法,从这个角度来讲,它跟传统的认识工具和方法性质上是相同的。它可以延伸人的力量,但是不会代替人。它也存在着局限和问题,比如“用数据说话”不等同于“数据就是客观事实”,数据量大不一定等于有用的信息多。随着经典文献收集完成,资料的价值会有一定程度的衰减。不能不承认文献的价值是有不同的,一般文献的处理成本会增加。大数据时代已经到来半个世纪了,我们所期待的史料大发现是不是已经到来?尤其是技术手段的更新和大数据的利用有没有真正地带来学术上非常明显的突破?是不是我们只是在做部分的修正、完善和细化?这可能是相当长一段时间内我们必须面对的事实。
同时,也需要警惕技术方法的局限性和负面影响。检索生成数据较容易,原因的分析则很欠缺。大数据时代削减了研究个体的特殊性,减损了读者对文本信息进行深度理解的意愿,破坏了文献的历史叙述魅力,夸大了纯粹理性的中立原则,使数据所关联的行为主体缺乏深度在场感。所以研究传统文献,最根本的是要研究其所体现的精神和文化,要警惕一味地推崇工具理性而忽视人文关怀的倾向。
但无论如何,大数据的发展带来工具方法、知识形态和思维观念的革新,机器学习、深度学习乃至更广泛、含义更丰富的人工智能技术方兴未艾,推动着研究范式和认知方式的不断升级。大数据时代的新型文献学,或者说大数据作为一种新型的文献学,必将在未来展现它更迷人的魅力。
徐永明(浙江大学人文学院):数字人文技术平台与古籍整理新生态
我对数字人文关注多年,创建了“学术地图发布平台”和“智慧古籍平台”两个数字人文技术平台。“学术地图发布平台”自成立以来,已有来自60多个国家、数十万人的访问量。“智慧古籍平台”从去年十月份上线至今,已有来自20多个国家、十几万的访问量。可见,这样的形式受到了读者的欢迎。下面我主要讲一下目前数字人文所涉及的技术工具和平台。
我认为现在数字人文可能会涉及这些技术:众包技术、图谱技术、文本处理技术、图像处理技术、云端技术、AI技术、空间处理技术、数据处理技术等。众包技术已在“智慧古籍平台”应用。对于图谱技术,过去我们一般都使用像MySQL这样的数据库,现在,我们使用了图数据库技术来处理图谱,这也是一项新技术。文本处理技术主要用于文本的挖掘和正则表达式的应用等。云端技术,如机器的标点、OCR识别的网络服务都是在云端的GPU里进行。还有AI技术、人工智能技术,目前古籍智能OCR的突破主要是利用了机器学习。空间处理技术,就是GIS技术的应用。还有数据处理技术,即整个大数据、数据库等技术的应用。举例来说,如数据处理包含office、编程语言等,文本处理包含正则表达式、词频统计等。图像处理,我们目前的智慧古籍平台就涉及扫描以后的图像如何进行切割的问题,有时需要对图片进行切分,如二切分或四切分,就要用到一些特别的工具和编程语言。我一般使用Python进行处理。事件图谱和整个生态,比如一些开源技术,就需要从GitHub上获取。
进入数字化时代后,首先出现的是传统的数据库,如“国学宝典”“中国基本古籍库”“籍合网”等,主要是利用数字引擎对可以全文检索的文本进行搜索,具有复制粘贴和搜索的功能。这种传统的数据库,相对来说还是比较简单的,所设计的工具也是比较少的。在这之后,传统的数据库逐渐开始向结构化数据发展。哈佛大学和北京大学、中国台湾“中研院”合作开发的CBDB(“中国历代人物传记资料库”)、Worldmap,浙江大学同哈佛大学合作的“学术地图发布平台AMAP”和王兆鹏教授负责的“唐宋文学编年地图”等,这些都是结构化的地理信息数据。结构化数据建设开始的时间不长,因为人物、地名、职官等数据都需要结构化,工作量很大。因此对结构化数据,我们要给予高度重视,而且需要大量的人力、物力去建设。随着技术的进步,出现了一种智能数据,即利用知识图谱理念以及大数据技术,将传统数据与结构化数据集成在一起的数据,它更加智能化。荷兰莱顿大学开发的文本标识系统MARKUS就带有智能化倾向,它把文本进行标引,然后关联到结构化的数据,产生关联效果。一些智能数据库具有定位可视化的效果,诸如中国台湾的DocuSky,德国马克斯·普朗克科学史研究所的LoGaRT,以及我们浙江大学2021年10月份上线的“智慧古籍平台CSAB”,还有北京大学的“宋元学案知识图谱系统”等,都是智能化数据库的实践。
前面讲的主要是一些技术平台工具,接下来我谈一下古籍整理。其一,传统的古籍整理都是个体作业的,即学者自己独立完成的。但是大数据背景下的古籍整理,可以在线众包完成,或者称为集体作业。其二,传统的古籍整理以一本书为单位,一本书的整理自始至终都是由一位学者来完成的。大数据背景下的古籍整理,可以以篇目为单位,即一本书可以由很多人来完成,那么它的最小的颗粒度可以到以篇目为单位。其三,传统的古籍整理主要依靠人工,比如一般的古籍整理是将图书馆的古籍复制影印,整理者在复制件上标点,然后让出版社或者自己输入电脑形成一个文本。现在,我们的古籍整理可通过平台人机共同完成,即在平台上首先通过智能OCR识别,再通过机器标点,最后通过人工校对和审核来完成。另外,传统的古籍整理成果,出版以后是很难修改的,除非到重新再版的时候,那可能需要很长时间。大数据背景下的古籍整理成果,在我们发布以后,如果读者发现还有问题,可以随时撤回修改,一直到最准确的程度。此外,传统的古籍整理成果出版后为纸质文献,不能进行数据标引和关联,而现在的电子文献可以进行标引,可以进行可视化呈现和计量统计分析等。从整理的时效来说,利用众包技术以后,现在的古籍整理速度大大加快。
中国现存的古籍有20多万种,目前已整理的古籍约3万多种。按照传统的古籍整理速度,余下的古籍也需要100多年才能整理完成。利用现在的技术,可以大大加快整理速度,诸如《全明文》《全明诗》《全清诗》《全清文》,在我们有生之年有可能看到它的完成。对于古籍整理的机构、协作的模式以及生态,大致可以这样描述:现在的古籍整理有两个领导机构,一个是教育部领导的全国高等院校古籍整理研究工作委员会(简称“古委会”),另一个是中宣部领导的全国古籍整理出版规划领导小组办公室(简称“古籍办”)。古籍主要收藏在图书馆,高校的学者通过我们开发的平台利用众包形式来进行古籍整理。我们的图像来源主要是图书馆,高校主要组织科研力量进行整理,经费由机构来资助拨款,最后如果形成一个非常准确的文本,可以通过出版社出版。另外,由于它是一个智能化的平台,数据公司可以利用平台进行进一步的下游开发,用于服务广大读者,公司也可以进行资金投入。出版社过去出版的电子文本也可以提供给平台进行智能化处理。因为这个平台拥有能够运行的技术环境,比如文字智能识别、机器标点、GPU运算、众包系统等。出版社拥有品牌,但没有这样的人力和运行环境。这是我对目前古籍整理生态的理解。
我们目前做的“智慧古籍平台”,大致的框架就是,古籍图片上传到平台后,通过OCR识别和机器标点,然后通过人工校对、审核和标引,发布到前台。标引后的文本,可以关联工具书和可视化呈现。如果是地名,可以在地图上定位,传统纪年可以马上转换为现在的公元纪年,等等。比如我们的后台可以看到篇目的校对审核功能——参与众包的整理者选择篇目后,可以选择校对标点,进入后选择对应的图片,那么左边是图片,右边是校对的文本。这个文本是经过机器识别、标点后产生的,参与标点的整理者就可以对照图片进行校对,校对完成后再提交,提交后进入专家审核,审核完成进行标引后再发布。我们发布的小说,每个章节配有影视视频,这样能够帮助读者对文本理解得更加深刻。
张晓虹(复旦大学历史地理研究中心):CHGIS与数字人文研究
大概在2000年前后,复旦大学中国历史地理研究所与哈佛燕京学社和费正清东亚研究中心共同研发了CHGIS,即“中国历史地理信息系统”。应该说,我们是国内开始从事数字人文研究最早的单位之一。以下将对CHGIS的发展历史、当前进展和未来前景做简单介绍。
首先,我介绍一下“中国历史地理信息系统”。严格地说,这个项目是基于《中国历史地图集》的。该图集编绘是谭其骧院士从1950年代开始,一直到1980年代完成,差不多用了30年的时间。它是新中国人文科学最重要的成果之一,应该是迄今为止国内外同类地图集中质量最高、内容最详细、印制最精美的地图集。但是,图集不可避免地有传统纸质历史地图集的缺陷。
第一是政区变化的复杂性。虽然谭先生在编《中国历史地图集》时,发明了用标准年代来反映一个时期的疆域变化和政区的特点——这是《中国历史地图集》一个非常重要的发明,但也不可避免地有其缺陷。比如,清代两百多年只有一个标准年代,即嘉庆二十五年(1820),因此不能全面地反映整个清代疆域变化和政区沿革。
第二是不便于使用者对其进行加工。现在做历史研究时,如果要用地图集,尤其涉及疆域和政区,基本上使用的底图都是谭图(谭其骧《中国历史地图集》简称“谭图”,下同)历史时期中国疆域的边界,国际上也都采用谭图作为标准。但是要叠加上自己研究的成果时,加工其实并不是那么便利。
第三是修订的复杂性,这是非常严峻的问题。首先,大概从1990年代开始,学界要求对谭图进行修订的呼声不断提出,一方面是因为谭图受当时的历史条件限制,有些考定和标准是有时代局限性的。其次,近些年来,历史地理学对政区沿革的研究不断深入。如去年获教育部人文社科奖一等奖的周振鹤主编《中国历代行政区划的变迁》,对历代行政区的演变做了不少修正。最后,新的考古资料不断发表使得对谭图进行修订成为可能。但事实上,谭图的版权是非常复杂的,作为单位版权来讲,它归社科院所有,但作者基本上都是复旦大学的老师,所以我们还有一部分的作者版权,因此修订起来还需要处理版权问题。在这样的情况下,对谭图进行修订,或者用什么样的方法来改变历史地图编纂模式的要求就提出来了。
与此同时,从全球范围内的数字化发展趋势来看,从1990年代开始,GIS技术在整个地理学科逐渐普及。由此,在技术层面支撑了使用GIS方法来编纂数据库、管理地理数据,同时生成可以不断修订的历史地图。
还有一点,我们研究所的成立实际上依托《中国历史地图集》的编纂,先是成立研究室,在编纂过程中积累了一些整理地图集的经验,用现在的话讲就是知识图谱的经验积累。因此1999年前后,哈佛大学就开始跟我们商讨合作,希望利用我们所编纂历史地图集和历史地名考订的丰富经验,同时当时编修谭图的老先生们还有精力做这部分工作。当然,我们也接收了哈佛大学东亚系和哈佛燕京学社的资源。1999年前后,我们国家经济状况还没有现在这么好,需要依托美国哈佛大学去申请人文社科基金。当时也希望澳大利亚格里菲斯大学亚洲空间数据中心提供技术支持。在各方推进下,数字化、人文化地图集的行动计划于2001年正式启动。
CHGIS项目于2001年正式启动,并制作了1820年数据作为演示数据——解决数据库的结构、数据格式等技术标准。在这里要强调,澳大利亚格里菲斯大学亚洲空间数据中心后来退出,因为他们发现用GIS方法去处理历史时期的空间数据有一定难度。我们所满志敏教授接手这部分工作之后,很快解决了数据库结构和数据格式等技术标准问题。2002年发布了第一版(CHGISV1),2003年发布第二版(CHGISV2),20005年发布第三版(CHGISV3)。一直到2016年,作为与哈佛大学的合作计划正式完成,共发布了六版数据。
关于版权,最初英文网站的建设主要是在哈佛大学,后来于2016年正式迁移至复旦大学,当时协商版权的分配为:中国大陆境内的版权归复旦大学中国历史地理研究所,中国大陆以外的版权归哈佛大学费正清研究中心。
这一项目在2016年底正式结项,我们研究中心也因此被美国图书馆系统评为全球最先进、最著名的数字人文研究机构。“中国历史地理信息系统”的建成,可以说推动了整个历史地理学的革命性变化。但是项目完成以后,后续应该如何发展是我们应当考虑的问题。
接下来就是第二项工作——“中国历史地理信息平台”的搭建。虽然CHGIS系统的建立对历史地理学界及数字人文工作产生了巨大推动,但事实上还有一些不足之处。第一点,从地图学专业来讲,它和谭图一样,基本是一个普通地图。第二点,在研究过程中我们做了很多专题数据库,也一直在考虑如何把这些专题数据叠加到CHGIS上。因此,我们希望能够搭建一个面向服务的中国历史地理信息数据平台。
我们当时想的是建立一个历史地理的时空数据库,建立一套历史地理时空库标准和更新体系,同时建立一个科研发布平台。也就是说,我们希望把有时空信息的所有数据都搭建在这个平台上。另外,对已有资源进行管理——实现对CHGIS、古旧地图、历史地名以及已积累的各类专题数据库等科研成果的管理,使其能够应用于学术研究,这是当时的基本设想。因为谭先生在编地图集时,就收集了大量古旧舆图,这些年我们也在继续收集工作,又从世界各地的图书馆收集来了一系列古旧地图。我们想搭建一个时空框架,整合已有的古旧地图库、历史地名模型分析、服务体系、用户制图和监控维护等资源和功能。因此,我们和西安云图信息技术有限公司进行合作,于2021年7月正式发布了“中国历史地理信息平台”,[3]这是以CHGIS为主的对基础空间和专题数据进行综合展示查询的数据平台。
我认为“中国历史地理信息”平台对数字人文的贡献主要有两方面:一方面搭建时空框架。CHGIS的显著功能就是对有时间和空间信息的数据进行管理和分析,如满志敏老师专门设计的时空数据概念模型,使用了生存期数据模型的概念。另一方面,我们把一些已有的地名、人口、聚落等专题数据库也整合了进去,建立一个综合性历史地理数据平台。
除此之外,作为历史地理研究者,我们是古籍的使用者,但事实上,作为传统古籍一部分的古旧地图,因为其资料特性——表达方式的复杂性、精度的不确定性,甚至是收藏机构的分散性,使得用户在利用上有非常大的困难。因此,怎样利用GIS方法进行整合,打破数据孤岛现状,提升对古籍尤其是古旧地图的资料利用率和检索率,需要我们再做考虑。另外,随着数字人文研究的深入,尤其是古籍文献数字化推进,传统史料地图应用从单纯的古旧舆图编目整理逐渐向数据平台建设和资源共享转变,这是我们未来对古籍的数字人文研究所应该做的一些贡献。
王兆鹏(四川大学文学与新闻学院)古籍利用与智慧化数据库
在我看来,古籍智能化有两个面向。一个属于古籍整理方面的,主要是追求文本智能化。技术和平台的建设主要是集中在文本转化方面,即将纸本的文献转化为数字文献,将原文版转化为标引版,不断地提高智能化技术水平,来扩大文本转化的体量和速度。第二个面向,是关于古籍利用方面,主要是功能提升的智慧化,我要集中谈的是这个话题。如果我们把现有的古籍资源库,包括“籍合网”“四库全书”“四库丛刊”“国学宝典”等这类资源库看作1.0版,那么我把未来的智慧化数据库看作2.0版。
2.0版数据库的一大进展是从以词定位到以类相从。以词定位即关键词的检索,以类相从即主题类型的检索。当然现在我们还没有到完全语义化的检索技术阶段。1.0版的资源库相对过去的纸版而言,已经大大提高了利用率和检索速度,便捷性非常强,但是它是各自孤立、零乱无序的。2.0版的数据库是以类相从,它获得的结果是相互关联的,是有机分类的。比如,要检索一位人物的资料,要查一个诗人的资料,在“四库全书”里查出来的几千条资料是各自孤立的,我们看不出彼此之间的联系,也不知道每一条是属于什么样的数据。但在2.0版的资源数据库中,人物资料经过人工智能自动划分成人、事迹、交往、评点和研究等类型。例如,从中可以查取杜甫的事迹,了解杜甫的作品——作品也是有序有机分类编排的,而且可以多角度地分类,比如按照题材、体裁;还可以了解到杜甫的交往数据——历史交往、当下的交往、后世人提及的交往等数据;还有评点数据和当代的研究数据。这些数据都是有机分类的。
我们正在做的“知识图谱”[4],还没有完全上线,也没有公开宣传,目前还在逐步地推进。比如,我们要检索时间信息,过去只能检索一个时间点。现在我们可以检索到这个时间的相关信息——与这个时间相关的地点、作品、人物和他的活动。比如今日是2月10日,如果在“四库全书”里,我们只能检测到包含2月10日的比较有限的材料,而在“知识图谱”里,可以区分是哪一个历史时期的2月10日,我们能检测到在诗库中与2月10日相关的有100首诗,在人物库中检索到清朝、近现代的两个相关人物,在古籍库中(古籍库包含了《四库全书》《四库丛刊》)检测到1,369条信息,并且在活动数据中的“唐宋文学编年地图”我们可以看到当日苏轼在哪里,他在彭城做什么,写了什么作品。“知识图谱”可以将和时间相关的史料、人物、活动都呈现出来。
那么搜索地点又是什么情况呢?如果我们在一般古籍库里搜索“成都”,只能够得到包含有“成都”关键词的史料。而在“知识图谱”数据库里,可以把历代有关成都的事件、人物、作品、活动都找出来。这方面我们还参考了复旦大学中国历史地理研究所的一些研究成果,例如输入四川省时,四川省的地市就都出来了,然后我们限定分类在成都,下面分各个区、县与成都有关的数据。在唐宋文学编年数据库里,人物有1,790人,1,336人于成都活动过,诗歌有9,124首,有关成都的地理沿革等相关的信息我们也能够查得到。
关于人物,我们按照朝代进行了分类。如果在此处,我们想要查杜甫的资料,与杜甫有关的生平资料、作品资料都能够分类查询,目前这个功能还未完全实现。数据库还可以呈现社会网络图,以及杜甫在诗歌中提到的历代人物,后代哪些人提及了杜甫——杜甫在历史的坐标系上,他跟过去和后来的人物关联。杜甫相关的传记资料、评点资料,随着资源越来越丰富,我们都可以查到。
此外,这个数据库可以查询到一些过去没办法查询的资料,比如一首诗歌被哪些人唱和或化用过。举个例子,在“知识图谱”中搜索杜甫的诗《登高》,可以看到这首诗历代引用次数,可以看到图文对照及历代评注、相似作品以及历代有多少人唱和这首诗,还可以查看同这篇作品中每句相似的句子,如果全都需要,可以选择一键下载。
因此今后的数据是关联型的,而不是孤立的,即以类相从。每一个知识点、时间点、地点、人物、作品、名物、职官等都包含了史料和关联数据。例如,我们查一个职官名,查到的不仅仅是职官的解释,还有职官的沿革,历代有哪些人做过这个职官。再例如,我们查一个名物,不仅仅查到相关的解释,还能查到历代描写该名物的有关作品。1.0版都是孤立的材料,今后则是关联数据,可以适应我们未来大数据的研究需求。
1.0版检测的结果只能逐条复制,今后我们可以分类提取。我们需要哪一类就点哪一类,需要综合类就一键下载。过去我们查杜甫的资料,在“四库全书”里一共有3,000多条,下载大概要六七十个小时。而今后在“知识图谱”或者在2.0版数据库里,一键就可以搞定,而且可以直接下载到本地的云盘。随着技术的发展进步,古籍的智能化前景会越来越广阔。
金连文(华南理工大学电子与信息学院):深度学习时代的古籍OCR
中国有几千年文明历史,留下了海量的古籍。根据国家图书馆牵头建设的“全国古籍普查登记基本数据库”,截至2020年11月,登记在册的古籍图书已经超过了700多万册。古籍数字化是古籍保护中的一个重要课题,OCR也是重要的技术工具。但是近40年来,我们国家真正完成文字转录的数字化的古籍图书,估计还不到30万册。其中比较典型的代表性工程如《四库全书》约有9,000册,“中国基本古籍库”大约历经20年,做了大概一万多册。现在依然有大量的古籍需要完成文字转录工作,但是如果用人工的方法来做,进程缓慢。因此,目前很多古籍只能用原图影印的方式出版,但这不便于我们进行编辑、检索、利用,乃至信息抽取、知识图谱化等。古籍数字化任务任重而道远,亟需更好的古籍图像处理工具。
古籍OCR也存在很大的困难和挑战。对于比较清晰干净的古籍,如《四库全书》,基本上能较好地识别。但是对于复杂版式、刻制风格特殊的古籍,则识别正确率较低。此外,很多古籍图像存在残缺污迹、模糊等“噪声”干扰,古籍中有大量异体字,也为古籍文字识别带来很大的困难。举一个简单的例子,我挑了一张还算清晰的敦煌艺术类古籍图像,测试了一下国内比较重要的几家IT公司的OCR引擎。发现它们对这张古籍的文字分割、检测识别效果大都不太好。当然也有做的比较好的——一家专门做古籍OCR的公司,我后面会做简单的介绍。我们自己的引擎也做的还可以。前面提到的这几家大公司是互联网领域的巨头,并不是说他们没有能力,而是古籍OCR有自身的一些特殊技术难题。如果没有数据,没有针对性的设计算法,依然不能使用通用的OCR引擎很好地做识别。
谈及OCR引擎,刚才几位老师也提到,源于人工智能过去十多年巨大的进步,它取得了巨大的突破。人工智能真正的爆发大约是在2012年之后,然而实际上人工智能相关的技术在OCR领域已经应用超过二十年了。人工智能技术主要有三大要素——数据、算法、算力。2012年之后的人工智能爆发也是和大数据、巨大的GPU算力、新的算法密不可分的。因此,我会从数据、算法和应用三方面向大家科普性地介绍古籍OCR技术的概况。
首先,数据的层面。我们知道当今人工智能OCR技术离不开高质量标注数据的支持。有了好的数据支持,设计OCR的引擎并不难。但是,国内外公开的古籍数据集很少,因此我们和北京一家机构合作构建并公开了《高丽藏经》的数据集TKH和多种版式的《大藏经》的数据集MTH(v1,v2)。这两个数据集,目前加起来将近有4,000张图,大概有超过100万个字符。虽然数据集规模还不是很大,但是有这样经过精细标注的数据,可以比较好地支撑我们去构建和研究古籍OCR系统。总体来讲,在国内我们构建的MTHv2版本的数据集质量还是比较好的。只要有数据标注,它的识别检测也不是特别的困难。关于数据集,另外一个是中国科学院自动化研究所于2021年发布的古籍数据集。这个数据集的来源是《四库全书》和古代佛经,经过精心处理——包括机器的自动化处理和人工检测,形成了古籍文字的数据集。此数据集为单字符的数据集,数据量比较大,涵盖200多万个单字符、1万多种文字类别,已经能够覆盖99%的常见文本。前面提及的MTH和TKH数据集,是一个篇幅集的数据集,有多种标注。此外,另一个学术界公开的古籍数据集——甲骨文数据集,是甲骨文信息处理教育部重点实验室近两年先后公开的数据集,为我们研究甲骨文的保护以及甲骨文的破解提供了数据支撑。甲骨文目前大概只有不到2,000字是大家认识的,未破解出来的字还有很多,希望通过人工智能技术为古籍甲骨文的破译提供一些辅助手段和工具。当然,数据集还有很多方面,我这里只是列举了上述三方面的典型代表来介绍。
除了古籍字符及文本行数据的构建以外,古籍图像的版式也是非常重要的,因为版面分析是做OCR很重要的一个步骤。目前,我们也正在构建一个古籍版式的数据集。当然,作为工科教师,我在文科方面的知识是比较欠缺的,特别希望有古典文献版式学的专家能一起合作,去构建一个开放式的古籍图像版式数据集。这样可以帮助人工智能更好地分析理解古籍版式数据。
第二个方面,我简要介绍一下古籍OCR的一般方法。古籍通用OCR的一般流程包括数据的获取、预处理、版面分析、文字检测、分割识别以及后处理。OCR近来也是人工智能领域的一个研究热点,有大量的新研究成果可以参考,也有一些相关的AI技术可以借鉴和应用。比如在计算机视觉领域当中,有大量目标检测的方法,可以直接用于古籍的文字切分。无论是单阶段的切分技术还是双阶段的方法,都可以直接用来做文字切分。
做文字识别比较典型的代表性方法是华中科技大学白翔教授团队提出的CRNN技术,该技术也是如今大量商业OCR引擎中所广泛应用的技术之一。我们团队也做了一些古籍方面的工作,比如针对古籍的文字保护问题做了高精准的文字分割。用传统的方法做得不够精准,文字不能完整地被切分出来,而我们提出的基于深度强化学习的方法可以达到这个目标。此外,我们也研发了一些古籍文字识别新方法。数据标注量充足的情况下古籍文字识别并不难,但如果在数据标注不是很充分的情况下,如何减少人工的标注从而处理更多的古籍就显得很重要。我们提出了弱监督的方法,包括古籍端到端版面的分析,弱监督文字的检测与识别。初步来看,这些工作用于多样式的《大藏经》效果很不错。
最后,其向大家介绍一下目前一些比较好的古籍OCR工具和相关平台,当然也不可能介绍得很全面。我挑了三个典型代表:一个是北京如是人工智能技术研究院做的“如是古籍”,内含OCR引擎,也许将来会有对外开放的OCR的接口,并且它还是一个很好的古籍文字标注平台,可以上传图片做标注。第二个是我们做的古籍OCR的Demo系统,它还不能完全说是一个很好的工具,但欢迎大家测试。我们是主要针对《大藏经》的古籍OCR引擎,上传图片后就可以把识别结果反馈回来。将来如果有时间精力,我们会把它做成一个开放的平台,开放给社会大众使用。第三个是北京书同文团队做的“i-慧眼OCR”,该系统的识别率相对来说还是很不错的。
总体来说,古籍OCR还有很多的问题有待解决,比如残缺古籍的修复、古籍图像增强、复杂版式的分析理解、包含异体字在内的超大类别的古籍识别等。目前,我们的古籍OCR识别的类别可能只有27,000种左右,如果依据GB18030-2005《信息技术中文编码字符集》,需要支持七万多个类别。《康熙字典》大概也接近这个量级,据我们所知目前还没有OCR引擎支持这么大规模的数据量。此外,我认为古籍OCR工作也需要多学科交叉融合,包括古典文献学、文字学的专家和理工科人工智能方面的学者密切合作,来更好地推进这个领域的进步。
许喆(韩国庆星大学):跨文化视野下东亚古文献数字研究的领域
近代以前,即19世纪以前,我们东亚处于同一文化圈。Eduard Erkes(1780年)曾言:“采用中国文字的亚洲各民族,即朝鲜人、日本人、安南人等,即使不懂汉语,也能和中国人进行沟通。”
那时,东亚诸多国家或民族,都通过一些共享的方法进行着知识交流,包括人际交流、物品交流、文化交流、书籍交流、语言交流及思想交流,其最重要的工具和载体就是汉字与文言。其中,中国人用汉字来创造和传承中国文化,韩国人用汉字来创造和传承韩国文化,日本人也用之来创造和传承日本文化。因此“汉字文化圈”实为同中有异。以上各国文字都是使用繁体字形,书面语则用古代汉语,即韩国人和日本人之所谓汉文。可是,20世纪以后,文字和文言都发生了重大改变。
接下来我重点介绍一下韩国古籍数字化的情况。从1984年开始使用个人计算机,到民间开发软件、文字、数据库等,形成了韩国史史料研究所、“尚友千古”平台、韩国古典翻译院等一系列研究机构和成果。在韩国,国家主导建设“古籍数字化”系统始于2000年,那年国家制定了“知识情报知识管理法”,投资开发有关历史的全文献数字化工程,并开发“韩国历史情报综合系统”[5]。2000年至2022年,韩国开发的重大数据库都在这个网站中,包括:具有检索功能的“承政院日记”[6]、韩国古典翻译院的“韩国古典综合数据库”[7]、韩国经学资料系统[8]、韩国族谱资料系统[9]。与此同时,韩国还进行了大规模的电子书扫描,如国立中央图书馆,[10]也建设了韩国古籍目录检索系统,如韩国国立中央图书馆古典籍综合目录,[11]如需了解韩国古籍全面情况,强烈推荐使用此系统。
韩国的古籍数字化,从1989年至2017年,历经近三十多年的发展,已有大量的个人和国家主导下的大型数据库。这些数据库已具备图像数据、全文数据和图文数据相结合的内容形式,光盘版、数据库版、网络版的载体形式,以及内嵌检索工具、知识工具、研究工具的系统功能。但是,这些数据库大都是把古籍变成电子书,为方便检索制作电子版,而没把各个数据结构化,并加以利用和研究。比如,要研究《孟子》里最常见的字和词性,除了输入《孟子》外,还需要别的数据加工技术,建设实现分词、标记词性的语料库。
以上是五年前的情况,近年来这种情况得到了明显改善:檀国大学采用人工智能学习技术开发了“人工智能基础汉字识别和分类自动化平台”;庆北大学与国学进兴学院合作开发了“草书认识器与机器翻译器”[12];韩国古典翻译院2021年公布“承政院日记机器翻译器”[13];韩国政府2020年开始实施大量人工智能数据库工程计划。[14]本人利用北京师范大学开发的“古诗文断句”v3.0版本、北京大学开发的“吾与点”古籍自动整理系统处理了4,000篇文章,对中国古籍、《朝鲜王国实录》、《承政院日记》、韩国文集分类统计,“吾与点”除了对《朝鲜王国实录》《承政院日记》正确率为34%以外,其他均为75%以上。这足以证明,中国分词器可以用于整理韩国古籍文献。因此,这些软件、数据库或工具不仅在中国适用,东亚地区也可以加以利用。需要注意的是,在汉字文化圈里,每个国家的汉字虽然具有很多共同点,但是不同国家和民族之间亦有不同之处,蕴含着各自的特殊性。从全球角度来看,汉字研究不应只针对某一特定国家或民族,而应面向所有国家或民族的资料进行综合研究,这样才能够全面而又准确地掌握整个汉字文化圈的性质和特点。其数字化资料不仅具有超越国家、民族、地区、个人研究的特殊性,这些数字化资料作为日后研究的基础数据,有助于开展基于汉字认识的多种平台开发工作,并且有望成为连接现在和未来的重要桥梁。
刘炜(上海图书馆):基于联盟链技术的古籍文献服务平台
上海图书馆是研究性的公共图书馆,有丰富的特色馆藏,古籍是其中之一,其数量和珍贵程度仅次于国家图书馆。进入数字时代,上海图书馆不仅定位于做好资源服务,还希望能够提供功能强大的平台和工具。我们拥有一支非常专业的文献学研究队伍,我们资源开发和平台建设的需求首先来自于他们,通常开发成熟后再分享出来,为更多研究人员提供服务。很希望将来有机会与大家合作,开发更通用的、互联互通的平台。
从总体上看,图书馆的资源和平台建设属于数字人文基础设施,目的是为研究提供服务。图书馆进入数字时代,通常有很深的危机感,上海图书馆也不例外,从1990年代中期开始我们一直在做数字化,每年投入上千万经费,一直延续到现在。现在随着技术的进步又开始做数据化,并尝试利用区块链技术将我们的数据进行资产化确权。今天我就我们这方面的工作做一个汇报,这是我们现在开展数字化转型的重点工作。
我先谈谈对“平台”一词的理解。现在大家都用平台这个词,这个词有很多的含义,宽泛的“业务平台”和代表一定技术应用的“技术平台”是不一样的概念,由技术平台带来的社区化和生态化也是“平台”的延伸效应,这是值得重视却常常被忽略的。我们理解的平台首先是一种云原生技术的实现模式。现在数字人文领域用到了大量的技术,战线拉得非常长——有非常传统的技术,例如关系型数据库技术、文本处理技术等,也有非常前沿的技术,例如知识图谱、名称实体识别等,从这些技术应用的脉络可以看到一种技术进步,就是技术越来越接近人的习惯,方便人的使用,技术将复杂性封装在了内部,而让人使用的那部分就越来越人性化。当然,真正的高手还是需要更多地了解和掌握技术。尤其在人文领域,由于相对小众,且经费有限,很难成为新技术的重点关注对象,因此人文学科的许多需求,经常是一些人文学者通过自己的辛苦探索、自学成才开发而成的,这样也会走很多的弯路。另外还有一个现象,就是一些前沿技术要过很久才能被人文领域引进利用。比如知识图谱已经出现了很多年,为什么到现在还普及不了?其实与这个行业的规模,以及人们的行为习惯也是有关系的。大家不协作不交流,孤芳自赏,自然进步就很慢。
现在有了数字人文,情况产生了很大变化。数字人文是所有人文领域相通的方法论,它本身就是一个大帐篷,面临许多共同的需求和问题,因此技术应用可以有更大的规模。平台化能促进这种改变。由云计算技术带来的平台应用,在更大程度上是一种业务模式的变化。如果平台能够调动科研各方的积极性,就能够形成一个不断生长且有活力的生态系统。例如现在的开放存取和开放源代码,都是开放运动的一部分,很大程度上是一个利益再分配的形式,虽然很复杂,但如果能够对各类参与方都有激励机制,就能够调动大家的积极性,形成一种比较好的业务/商务模式。
信息技术的发展一直有一个趋势,就是让信息的流动更自由、更简单,改变传统的生产关系,带来更多的可能性。然而技术的应用通常也是一把双刃剑:它也可以用来强化过去落后的生产关系。商业化社会中这样的例子很多,利益再分配肯定会触及一些人的奶酪。比如将古籍文献重新出版,或将很多过去的资料做成数据库,一方面是扩大或方便了利用,另一方面又会重新进入到受“版权保护”的商业领域而不能得到充分有效的利用。有些公共资金投入的科研成果也无法进入开放存取领域,这就非常不合理。因此这是很复杂的社会经济法律层面的问题,不是技术单方面能解决的,技术的发展使这类问题凸显出来,需要在更大范围引起重视,从而得到讨论、研究和解决。
目前逐渐热起来的Web3.0就是能够在虚拟数字世界重塑利益机制、建立新的生产关系的许多新技术的综合应用。我们知道,Web1.0是信息互联网,主要作为机构组织单向发布信息的技术;Web2.0通常被称为社交互联网,大家谁都可以创造内容,并且进入到移动互联网时代创造内容更容易;而Web3.0长期以来都被作为语义互联网的别称,但语义互联网并没有取得成功,现在被用来指代底层采用区块链技术的网络的别名,意味着实现一个“价值互联网”,是因为在Web3.0中所有的数字资源都可以赋予唯一性特征,因此就可以私有化和进行交换,从而具有资产的价值,而且建立在Web3.0之上的各类应用被赋予了宏大无边的“元宇宙”概念,具有了非凡的想象空间。
由于Web3.0的这个特性,使得资本界大举进入,从而具有了实现的前景,这一点是仅仅依靠学术理想所无法做到的。目前的发展虽然并非一帆风顺,但势头凶猛,前景可期。当资本进入到这个领域,首先是加密货币和去中心化金融Defi;然后是游戏代币的各种玩法支持Play to earn,形成GameFi;最近又侵入到艺术领域,各类数字化作品都可以以非同质化代币NFT形式发行和交易,并且可以在元宇宙中炒房地产。一时间风头无二,热闹非凡。
Web3.0带来的元宇宙和价值互联网提供了新的平台,未来的人文数据也可以在其中找到实现价值的更好方式。Web3.0有两个特征:一个是使用了公私钥和加密计算技术(以区块链技术为代表)使得数字产品能够得到确权,大量的虚拟创造能够得到唯一性证明,这对于学术界也是非常重要的,唯一性证明使引证变得非常方便,而引证让整个知识大厦可以直接在互联网上建立起来,这比简单的引文分析要“高级”得多;另一个特征是具有语义,在Web3.0当中要建设元宇宙必须建立起各类关系,例如可以将历史资料里的描述做成虚拟时空(时光机)或数字孪生,这样应用系统就不仅仅是文本图像数据,而是可以更好进行交互的、具有真实感的沉浸式模型。实际上关联数据一开始就是想实现这个目标。这两个技术特征相结合,给予了Web3.0巨大的发展潜力。
要充分发挥技术的潜能必须在业务模式方面有所创新。基于区块链、Web3.0和DAO等一系列新技术的应用平台,实际上是平台加应用的模式——它能够兼顾商业性和开放性,并且通过一定的开放性(例如开放相应的标准规范)来促进形成一个有序竞争的良好生态,各类公司都能够在其中找到自己的位置,形成互补共建的关系,从而使平台和应用都能不断迭代,通过功能叠加和更新换代,来满足未来的需求。从这个意义上来说只有开放的架构才能适应未来的需求。从技术、业务模式和生态建设的角度,我认为到了需要讨论一个新时期的平台的阶段了,这个平台不仅能充分利用新技术解决利益机制的优化设计问题,而且能促进整个行业生态尽快成型。
关于区块链特征就不多介绍了,由于其技术特征,使它带来了去中心化,带来不可篡改,使得参与方都可以有一个账本。实际上,复制、复用是我们文化遗产得到延续和长期保存甚至永久保存的一个必备的前提条件:海量复制才能得到长期保存。包括古籍在内的任何文化遗产,它的元数据可以上链,对象数据上链在目前看起来还不太现实,去中心化存储应用还不成熟,成本昂贵,但已有一些解决方案让我们看到了巨大的潜力,近几年得到解决也不是不可能。
我刚才提到,现在数字人文领域采用了大量的技术,这个技术战线拉得非常长,很多新技术还没有得到充分认知和实现,因此,我希望新的技术能够更快地普及,区块链就是其中之一。区块链刚出现的时候,大家都觉得它是一个颠覆性的技术,但是现在似乎进入了一个瓶颈期,可能因为它和金钱结合得太紧密,带来了不少副作用,不少国家对它非常谨慎,包括虚拟货币、NFT交易等,都受到严格监管。但是如果不引入通证经济,整个Web3.0会缺乏利益机制和足够的发展动力。
对于我们文化领域,情况略有特殊。区块链的应用不太可能完全是用公链这种完全去中心化的方式,也可以克服现在这样完全中心化方式的许多弊端,因此可以在得到一定监管的前提下发挥各方积极性,例如在联盟链的组织方式上根据一定的规则开发智能合约,以DAO的方式进行社区管理,让地位不平等的各方能够得到平等对待,充分保障小型参与方甚至个人的权益。联盟链既有一定的公链的去中心化特征,又有一些私链的效率方面的优势,所以它可以提供确权,提供引证,提供资产化。这些在传统的网络时代——网络技术2.0以前的网络技术——都是达不到的。这是我认为在文化遗产领域,机构解决开放、保护与保存矛盾的一个很好的技术。
大概用一年左右的时间,我们在上海图书馆利用古籍联合目录做了一个底层为区块链的古籍服务平台。我们想试验一下区块链的技术应用。该平台底层采用Fabric开源的联盟链的技术,我们把上海图书馆的善本目录、加州大学伯克利分校的善本目录和哈佛大学的善本目录都上链,目前做了三个节点,并开发了节点扩展工具,主要是希望将来任何一家机构都能够通过很简单的、门槛很低的方式把他的目录上传。当然,任何机构如果需要我们的帮助,也可以将目录交给我们进行处理,并托管节点。每个机构原则上都有一条等价的区块链账本,不依赖于任何其他的机构,因此他是具有一定健壮性的。对于用户来说,只要能上网,就能够使用古籍平台。我们目前只是用元数据在做这条链,将来还想把扫描的全文文本也都放上来,每家上链机构的古籍馆藏都可以在链上得到确权和引用,当然任何第三方也可以进行研究和考证。
图书馆行业能够为人文领域提供的研究方法论,我认为有两个方面:一个是书目控制,即提供文献获取途径,最好让用户在图书馆可以找到所有所需的文献;另一个是提供引证,即提供文献循证的各种方法工具,用户所提出的任何观点,都可以在我们图书馆中找到依据。区块链保证了数据的开放性,因此所有的数据,用户可以在任何时候去重复验证。当然这是一个比较理想的状态。
最后总结一下,通过建立古籍区块链平台让我们看到的一个愿景:如果所有的机构都有意愿将资源上网公开,所有的古籍资源就能够得到确权并一网打尽,所有的研究就能避免重复并不断积累。可想而知,我们古籍普查所得到的六七十万种不同版本的古籍文献,如果通过联盟链公开,善莫大焉。如果这个平台允许用户将资源上传,资源可以按照工作量证明或其他共识方式,将资源或任何其他贡献折换成股份,这样可能所有机构都愿意把资源公开,更多的专家都愿意参与。我们希望所有的古籍元数据和原文都能够永远在线,永不删除,永久保留,并按权限访问。资源提供者可以根据提供的数量和用户使用的情况获得通证;设施提供者可以根据提供的存储和算力获得通证;使用者在一定情况下需要付出通证得到资源服务,也可以通过标注或者其他的劳务,即众包来得到权益,参与方就可以在这个平台上使用通证,这样就可以最终形成一个互惠互利、共建共享、良性循环、长治久安的古籍区块链应用平台。
整理:易全旺/南京师范大学文学
(编辑:徐璇)
注释:
[1]姜小青:《引领与推进:新中国古籍整理出版规划概览》,《中国出版史研究》2022年第1期。
[2]刘石、李飞跃:《大数据技术与传统文献学的现代转型》,《中国社会科学》2021年第2期。
[3]http://yugong.fudan.edu.cn/。
[5]网址:http://www.koreanhistory.or.kr/。
[6]网址:http://sjw.history.go.kr/main.do。
[7]网址:www.itkc.or.kr。
[8]网址:http://koco.skku.edu/CHN/index.jsp。
[9]网址:http://jokbo.skku.edu/CHN/index.jsp。
[10]网址:http://www.nl.go.kr/nl/index.jsp。
[11]网址:http://www.nl.go.kr/nl/dataSearch/data_kor.jsp。
[12]网址:http://dila.co.kr/。
[13]网址:http://aitr.itkc.or.kr。
[14]网址:http://aihub.co.kr。