中国语言文字 古籍标点与专名的智能识别技术研究 标题: 古籍标点与专名的智能识别技术研究作者: 李绅,胡韧奋,诸雨辰第一作者: 李绅机构: 北京师范大学文学院,北京师范大学国际中文教育学院期刊: 数字人文发表日期: 2023-09-30论文摘要: 句读标点与专名标引是古籍整理和出版过程中的重要环节。近年来,伴随人工智能技术的发展,古籍自动标点技术逐步成熟,专名识别也受到了越来越多的关注。考虑到句读标点与专名识别之间存在知识依赖,文章构建了一种基于深层神经网络的联合学习方法,首先通过大规模古汉语语料库训练语言模型,使得模型具备基础的古汉语语法和语义知识,然后在此基础上引入联合学习机制,令模型同时学习句读标点和专名识别,并通过数据增广来缓解训练数据不足的问题。该方法使用一个模型即可实现标点、引号、书名、地名、人名、朝代年号等多种信息的自动标注,并且达到了较高的精度。在多领域测试集上,自动句读F1值达到94%以上,自动标点F1值达到85%以上,专名识别F1值达到87%以上。系统的访问地址为:https://seg.shenshen.wiki/。关键词: 专名识别; 古汉语; 句读标点; 智能技术; 联合学习知网阅读链接: 点击跳转