数字人文下的典籍深度学习实体自动识别模型构建及应用研究
数字人文下的典籍深度学习实体自动识别模型构建及应用研究

数字人文下的典籍深度学习实体自动识别模型构建及应用研究


标题: 数字人文下的典籍深度学习实体自动识别模型构建及应用研究


作者: 杜悦,王东波,江川,徐润华,李斌


第一作者: 杜悦


机构: 南京农业大学信息科学技术学院,金陵科技学院人文学院,南京师范大学文学院,南通大学经济与管理学院


期刊: 图书情报工作


发表日期: 2021-03-08


论文摘要: [目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。


DOI阅读链接: 10.13266/j.issn.0252-3116.2021.03.013






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝