基于句法特征和Bert-BiLSTM-MHA-CRF的细粒度古籍实体识别研究
基于句法特征和Bert-BiLSTM-MHA-CRF的细粒度古籍实体识别研究

基于句法特征和Bert-BiLSTM-MHA-CRF的细粒度古籍实体识别研究


标题: 基于句法特征和Bert-BiLSTM-MHA-CRF的细粒度古籍实体识别研究


作者: 武帅,杨秀璋,何琳,公佐权


第一作者: 武帅


机构: 南京农业大学信息管理学院,贵州大学贵州省大数据产业发展应用研究院,武汉大学国家网络安全学院,贵州财经大学信息学院


期刊: 数据分析与知识发现


发表日期: 2024-03-13


论文摘要: [目的]结合古籍文本复合句式结构特征,设计较高精度识别古籍文本中实体词的方法,推动数字人文研究的发展。[方法]以触发词和关系词作为识别实体词的关键特征词,设计句式特征模板;根据古籍文本特征,构建Bert-BiLSTM-MHA-CRF模型;融合句法特征和Bert-BiLSTM-MHA-CRF模型实现对古籍文本深层次、细粒度的命名实体识别。[结果]本文方法在常规标注的测试数据集上的F1值为88.00%;在小样本标注的测试数据集上的F1值为82.54%;在迁移学习的测试数据集上的F1值分别是78.72%(《诗经》)、81.45%(《吕氏春秋》)和85.09%(《国语》)。[局限]在句法特征模板设计上,仅以单部古籍设计特征模板;语义信息挖掘上,未考虑古籍文本字符的注音、部首等字结构特征。[结论]本文方法在小样本标注和迁移学习实验中,同样能精准地实现对古籍文本的命名实体识别,为“数字人文”研究任务提供较高质量语料数据。


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝