图书情报与数字图书馆 中国语言文字 中国古代史 考古 数字人文视域下简帛文献的分词研究——以《里耶秦简牍》为例 标题: 数字人文视域下简帛文献的分词研究——以《里耶秦简牍》为例作者: 刘铭,冯慧敏,陈镱文第一作者: 刘铭机构: 西北大学科学史高等研究院,陕西省文化遗产数字人文重点实验室期刊: 语言文字应用发表日期: 2024-08-15论文摘要: 简帛文献是一类不同于传世典籍的传统文化载体。本文以两卷里耶秦简为例,结合数字人文的文本数据计算及分析方法,对其进行自动分词研究。基于经过人工标注的里耶秦简文本构建里耶秦简语料库,分别使用3类分词方法进行实验,对比并讨论其结果。实验显示,Bi-LSTM-CRF模型的分词效果最佳,准确率达到94.54%,召回率94.82%,F值为94.68%。实验结果不仅验证了深度学习的分词方法在里耶秦简等简帛文献中的有效性和泛化能力,还表明其可应用于简帛词汇研究、语料库深加工以及文本分析等多元任务中。关键词: 数字人文; 深度学习; 简帛文献; 自动分词; 里耶秦简DOI阅读链接: 10.16499/j.cnki.1003-5397.2024.03.001