面向古诗词的物象库构建方法及其分布规律研究
面向古诗词的物象库构建方法及其分布规律研究

面向古诗词的物象库构建方法及其分布规律研究


标题: 面向古诗词的物象库构建方法及其分布规律研究


作者: 刘懋霖,赵萌,王昊


第一作者: 刘懋霖


机构: 南京大学信息管理学院,江苏省数据工程与知识服务重点实验室


期刊: 图书馆杂志


发表日期: 2023-02-20


论文摘要: 在数字人文视野下,古诗词资源蕴含巨大价值但难以规模化分析。研究古诗词知识库的自动构建方法,有利于从宏观的角度对古诗词进行分析研究,挖掘其中价值。首先,基于“物象”的概念,尝试提取古诗词中所有可能包含情感的客观名物,降低分析复杂度以构建自动化流程;其次,基于深度学习方法构建RoBERTa-BiLSTM-CRF模型,对古诗词语料进行物象抽取;之后,使用《全唐诗》和部分宋代诗词资源验证模型的可行性与泛用性;最后,成功构建《全唐诗》物象库,并初步分析其物象分布规律。使用《全唐诗》自动标注语料训练模型后,模型对普通名词、时间名词和地名识别的F1分值分别达到89.6%、93.3%和93.6%。将模型迁移至未用于训练的宋代诗词语料,抽取密度为每首诗4.5个物象,具备未登录词发现能力,说明模型有良好的泛用性和可扩展性。


DOI阅读链接: 10.13663/j.cnki.lj.2024.01.010






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝