计算机软件及计算机应用 图书情报与数字图书馆 数字人文视角下的非物质文化遗产文本自动分词及应用研究 标题: 数字人文视角下的非物质文化遗产文本自动分词及应用研究作者: 胡昊天,邓三鸿,张逸勤,张琪,孔嘉第一作者: 胡昊天机构: 南京大学信息管理学院,江苏省数据工程与知识服务重点实验室,南京农业大学信息管理学院期刊: 图书馆杂志发表日期: 2022-04-24论文摘要: 文本自动分词是非物质文化遗产相关数字人文研究的基础与关键步骤,是深度发掘非遗内在信息的前提。文章构建了国家级非物质文化遗产项目申报文本自动分词模型,探究了融入领域知识的机器学习模型CRF、深度学习模型Bi-LSTM-CRF和预训练语言模型BERT、RoBERTa、ALBERT在非遗文本上的分词性能,并对比了通用分词工具HanLP、Jieba、NLPIR的效果。在全部14种模型中,RoBERTa模型效果最佳,F值达到了97.28%,预训练模型中ALBERT在同等条件下训练速度最快。调用分词模型,构建了非遗文本领域词表和全文分词语料库,对非遗文本词汇分布情况进行了分析挖掘。开发了中国非物质文化遗产文本自动分词系统(CITS),为非遗文本自动分词及分词结果的多维可视化分析提供了工具。关键词: ALBERT; RoBERTa; 中文分词; 数字人文; 非物质文化遗产; 预训练模型DOI阅读链接: 10.13663/j.cnki.lj.2022.08.010