面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例
面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例

面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例


标题: 面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例


作者: 赵连振,张逸勤,刘江峰,王东波,冯敏萱


第一作者: 赵连振


机构: 南京大学外国语学院,南京大学信息管理学院,南京农业大学信息管理学院,南京师范大学文学院


期刊: 图书馆论坛


发表日期: 2022-04-16


论文摘要: 古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。文章利用SikuBERT模型,以“中国哲学书电子化计划”古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型。实验结果表明:SikuBERT模型对先秦两汉典籍自动标点的整体效果比较优越,对书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与冒号标签的识别准确率、召回率与F1值均达到95%以上。文章验证了BERT模型在古籍文本自动标点中的可行性。


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝