计算机软件及计算机应用 图书情报与数字图书馆 面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例 标题: 面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例作者: 胡昊天,张逸勤,邓三鸿,王东波,冯敏萱第一作者: 胡昊天机构: 南京大学信息管理学院,南京农业大学信息管理学院,南京师范大学文学院期刊: 图书馆论坛发表日期: 2021-10-18论文摘要: 文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,SikuBERT模型取得90.39%的整体分类F值,在天文算法类古籍上的分类F值达98.83%。在类别自动识别任务中,SikuRoBERTa的预测正确率达95.30%。基于SikuBERT和SikuRoBERTa预训练语言模型的四库自动分类体系可以将典籍文本划分为所属子部类别,构建的分类工具为高效自动化典籍分类提供了新途径。关键词: 《四库全书》子部; SikuBERT; 数字人文; 文本分类; 预训练模型知网阅读链接: 点击跳转