基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类研究
基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类研究

基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类研究


标题: 基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类研究


作者: 武帅,杨秀璋,何琳,公佐权


第一作者: 武帅


机构: 南京农业大学信息管理学院,贵州大学贵州省大数据产业发展应用研究院,武汉大学国家网络安全学院,贵州财经大学信息学院


期刊: 情报学报


发表日期: 2024-05-24


论文摘要: 以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking, word, pattern, and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji-recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在...


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝