图书情报与数字图书馆 古籍引书上下文自动识别研究——以注疏文献为例 标题: 古籍引书上下文自动识别研究——以注疏文献为例作者: 周好,王东波,黄水清第一作者: 周好机构: 南京农业大学信息管理学院期刊: 情报理论与实践发表日期: 2021-04-29论文摘要: 古籍引书中埋藏着中华传统文化传承的脉络与线索,为更进一步揭示古籍中的知识体系,对引书中的具体引用内容进行分析势在必行,而从大量的古籍文本中准确识别出引书的上下文是进行上述研究的基础。文章旨在自动识别引书的上下文,并以《论语注疏》《毛诗正义》《春秋左传正义》三部古籍文本为数据集。引书上下文识别主要基于深度学习的方法,在人工标注的基础上,分别基于文本分类和序列标注两种方法,使用CRF、Bi-LSTM、SVM和BERT四种模型进行实验并得到引书上下文自动识别结果。实验结果表明,在整体引书上下文识别任务上,Bi-LSTM模型表现最佳,调和平均值为68.70%;在各个类别标签的识别中,BERT模型的效果最好。其中,引文句的综合识别结果的调和平均值达到90.69%。关键词: 引书; 引文上下文; 数字人文; 文本分类; 深度学习; 自动识别DOI阅读链接: 10.16353/j.cnki.1000-7490.2021.09.024