计算机软件及计算机应用 图书情报与数字图书馆 面向多领域先秦典籍的分词词性一体化自动标注模型构建 标题: 面向多领域先秦典籍的分词词性一体化自动标注模型构建作者: 张琪,江川,纪有书,冯敏萱,李斌第一作者: 张琪机构: 南京大学信息管理学院,南京农业大学信息管理学院,南京师范大学文学院期刊: 数据分析与知识发现发表日期: 2021-03-25论文摘要: 【目的】探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型。【方法】采用涵盖"经史子集"的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型。最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析。【结果】在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98%,词性标注准确率达到88.97%。在《史记》上的应用进一步证明了模型的稳定性和实用性。【局限】通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决。【结论】将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍。关键词: 先秦典籍; 分词; 古籍智能处理技术; 数字人文; 深度学习; 词性标注知网阅读链接: 点击跳转