计算机软件及计算机应用 中国语言文字 面向《方志物产》的自动断句深度学习模型构建研究 标题: 面向《方志物产》的自动断句深度学习模型构建研究作者: 王东波,陆昊翔,彭运海,包平,徐晨飞第一作者: 王东波机构: 南京农业大学信息管理学院,南京农业大学数字人文研究中心,南通大学经济与管理学院期刊: 中国科技史杂志发表日期: 2022-06-15论文摘要: 古汉语文本信息处理和语义理解一直是自然语言处理领域的重难点之一,而断句又是语义理解中的基础任务。传统的机器学习方法解决古汉语断句问题需要基于大量的专业标注语料,过程繁琐,效果不佳。本文基于已有的BERT模型,在《四库全书》中文繁体版全文数据集的基础上构建了SikuBERT预训练模型,并将该模型迁移到《方志物产》数据中,完成了在不同数据集上的古汉语自动断句实验,实验最优F值为77.23%,比基础的BERT模型断句效果高出10.3个百分点。实验结果表明,SikuBERT模型具有较好的古汉语断句效果,且在有一定关联性数据集合中的迁移性较好。关键词: 《方志物产》; SikuBERT模型; 数字人文; 自动断句知网阅读链接: 点击跳转