计算机软件及计算机应用 不同词性标记集在典籍实体抽取上的差异性探究 标题: 不同词性标记集在典籍实体抽取上的差异性探究作者: 袁悦,王东波,黄水清,李斌第一作者: 袁悦机构: 南京农业大学信息科学技术学院,南京农业大学领域知识关联研究中心,南京师范大学文学院期刊: 数据分析与知识发现发表日期: 2019-03-25论文摘要: 【目的】在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,以南京师范大学先秦词性标记集为主、以北京大学、中国科学院计算技术研究所和教育部词性标记集为辅,共形成三种不同大小的新标记集,通过条件随机场以及添加特征模板比较这三种词性标记集合在同一语料上进行实体抽取结果的差异性。【结果】在先秦典籍《左传》和《国语》上对不同大小的三种词性标记集开展对比实验,三种模型各自进行实体抽取的F值分别达到82.53%、83.42%和84.07%。【局限】特征选取有待进一步改善,训练结果还有提升空间。【结论】本文研究结果有助于先秦古文献命名实体的抽取,所构建的词性标记集合适用于古汉语词性标注工作。关键词: 古文信息处理; 命名实体抽取; 数字人文; 词性标注知网阅读链接: 点击跳转