古籍标点与专名的智能识别技术研究
古籍标点与专名的智能识别技术研究

古籍标点与专名的智能识别技术研究


标题: 古籍标点与专名的智能识别技术研究


作者: 李绅,胡韧奋,诸雨辰


第一作者: 李绅


机构: 北京师范大学文学院,北京师范大学国际中文教育学院


期刊: 数字人文


发表日期: 2023-09-30


论文摘要: 句读标点与专名标引是古籍整理和出版过程中的重要环节。近年来,伴随人工智能技术的发展,古籍自动标点技术逐步成熟,专名识别也受到了越来越多的关注。考虑到句读标点与专名识别之间存在知识依赖,文章构建了一种基于深层神经网络的联合学习方法,首先通过大规模古汉语语料库训练语言模型,使得模型具备基础的古汉语语法和语义知识,然后在此基础上引入联合学习机制,令模型同时学习句读标点和专名识别,并通过数据增广来缓解训练数据不足的问题。该方法使用一个模型即可实现标点、引号、书名、地名、人名、朝代年号等多种信息的自动标注,并且达到了较高的精度。在多领域测试集上,自动句读F1值达到94%以上,自动标点F1值达到85%以上,专名识别F1值达到87%以上。系统的访问地址为:https://seg.shenshen.wiki/。


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝