图书情报与数字图书馆 融合结构特性的语义增强式古籍句读识别方法研究 标题: 融合结构特性的语义增强式古籍句读识别方法研究作者: 李佩琪,王昊,任秋彤,范涛第一作者: 李佩琪机构: 南京大学信息管理学院,江苏省数据工程与知识服务重点实验室期刊: 情报学报发表日期: 2023-02-24论文摘要: 数字人文概念的提出扩展了古文自动化处理的内涵与外延,实现古籍文本语义的深层理解成为首要任务。因此,本文重点探索古籍句读识别任务中的语义增强模式,以提升主流BBiC模型(BERT-BiLSTM-CRF)表征古籍文本语义的能力。本文融合结构特性从文本与模型两个维度实现古籍文本语义的深层表征,提出引入细粒度文本知识的BBiC-EK (BBiC-external knowledge)模型与融合文本结构特征的BBiCC-EK模型(BBiC-CNN-EK),并从模型结构化角度探究CNN与BiLSTM的最优连接方式以及外部知识编码的最优引入位置,多方位探究模型提升效果。研究结果表明,采用BBiC-EK模型中的最优外部知识组合模式,相较于基线BBiC模型能将句读识别准确率提升0.83个百分点;进一步融合CNN并探究最优模型结构下的BBiCC-EK (Se)模型能将BBiC模型的识别准确率提升1.36个百分点。本文通过融合结构特性的语义增强技术,实现了古籍文本句读识别准确率的提升,为古籍文本的自动化语义理解提供了新思路。关键词: BERT; 古籍文本; 句读识别; 数字人文知网阅读链接: 点击跳转