数字人文视域下SikuBERT增强的史籍实体识别研究
数字人文视域下SikuBERT增强的史籍实体识别研究

数字人文视域下SikuBERT增强的史籍实体识别研究


标题: 数字人文视域下SikuBERT增强的史籍实体识别研究


作者: 刘江峰,冯钰童,王东波,胡昊天,张逸勤


第一作者: 刘江峰


机构: 南京农业大学信息管理学院,南京大学信息管理学院


期刊: 图书馆论坛


发表日期: 2021-08-17


论文摘要: 利用自然语言处理技术深入挖掘典籍文献,推进中文古籍文献的数字化,对于推动历史学习、增强文化自信与促进文明传播具有重要意义。命名实体识别研究是自然语言处理中的基础性环节,文章基于BERT-base、RoBERTa、GuwenBERT、SikuBERT、SikuRoBERTa等预训练模型,以“前四史”和《左传》为研究语料,构建人名、地名、时间等命名实体识别任务。实验结果表明:SikuBERT、SikuRoBERTa在无标点语料、小范围语料上能够取得较基准模型更好的效果;语体风格、语料规模对模型性能产生一定影响;BERT模型更为适应大规模语料任务。实验验证了基于《四库全书》繁体语料预训练的BERT模型在预训练-微调范式下典籍命名实体识别的可行性,构建了基于SikuBERT的典籍命名实体识别软件,为进一步开展典籍文本挖掘和利用提供参考。


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝