计算机软件及计算机应用

不同词性标记集在典籍实体抽取上的差异性探究

标题: 不同词性标记集在典籍实体抽取上的差异性探究

作者: 袁悦,王东波,黄水清,李斌

第一作者: 袁悦

机构: 南京农业大学信息科学技术学院,南京农业大学领域知识关联研究中心,南京师范大学文学院

期刊: 数据分析与知识发现

发表日期: 2019-03-25

论文摘要: 【目的】在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,以南京师范大学先秦词性标记集为主、以北京大学、中国科学院计算技术研究所和教育部词性标记集为辅,共形成三种不同大小的新标记集,通过条件随机场以及添加特征模板比较这三种词性标记集合在同一语料上进行实体抽取结果的差异性。【结果】在先秦典籍《左传》和《国语》上对不同大小的三种词性标记集开展对比实验,三种模型各自进行实体抽取的F值分别达到82.53%、83.42%和84.07%。【局限】特征选取有待进一步改善,训练结果还有提升空间。【结论】本文研究结果有助于先秦古文献命名实体的抽取,所构建的词性标记集合适用于古汉语词性标注工作。

关键词:

古文信息处理; 命名实体抽取; 数字人文; 词性标注

知网阅读链接: 点击跳转

提示：本站使用最低限度cookies来确保基础功能实现。 View more

同意

拒绝