计算机软件及计算机应用 基于TopWORDS方法的古文献专名识别——以《汉书》和《明史》为例 标题: 基于TopWORDS方法的古文献专名识别——以《汉书》和《明史》为例作者: 徐嘉泽,潘长在,贺莉丽,王宏甦,张力伟第一作者: 徐嘉泽机构: 清华大学统计学研究中心,清华大学古典文献研究中心,中国历代人物传记资料库期刊: 数字人文发表日期: 2020-06-30论文摘要: 大量数字化古代汉语文本资源的出现对其分析工具产生了巨大需求。作为一种基于统计模型的无监督中文文本分析方法,TopWORDS在针对古代汉语文本的词语发现和信息提取问题方面具有应用前景。本文介绍了Top WORDS方法的基本原理、工作流程以及特点和优点,并将其应用于《汉书》和《明史》这两部古籍的词语发现,且以相关古籍的人名及地名索引为标准对TopWORDS方法抓取古文献中专有名词的能力进行了量化评估和比较。相关结果证明了:TopWORDS在古代汉语文本分析中具有较强的专名抓取能力,有潜力在未知专名识别和专名索引快速构建方面发挥重要作用。关键词: 中文分词; 无监督学习; 词语发现知网阅读链接: 点击跳转