计算机软件及计算机应用 自动化技术 中国文学 数字人文下的典籍深度学习实体自动识别模型构建及应用研究 标题: 数字人文下的典籍深度学习实体自动识别模型构建及应用研究作者: 杜悦,王东波,江川,徐润华,李斌第一作者: 杜悦机构: 南京农业大学信息科学技术学院,金陵科技学院人文学院,南京师范大学文学院,南通大学经济与管理学院期刊: 图书情报工作发表日期: 2021-03-08论文摘要: [目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。关键词: 先秦典籍; 命名实体识别; 数字人文; 深度学习DOI阅读链接: 10.13266/j.issn.0252-3116.2021.03.013