计算机软件及计算机应用图书情报与数字图书馆中国文学

面向古诗词的物象库构建方法及其分布规律研究

标题: 面向古诗词的物象库构建方法及其分布规律研究

作者: 刘懋霖,赵萌,王昊

第一作者: 刘懋霖

机构: 南京大学信息管理学院,江苏省数据工程与知识服务重点实验室

期刊: 图书馆杂志

发表日期: 2023-02-20

论文摘要: 在数字人文视野下，古诗词资源蕴含巨大价值但难以规模化分析。研究古诗词知识库的自动构建方法，有利于从宏观的角度对古诗词进行分析研究，挖掘其中价值。首先，基于“物象”的概念，尝试提取古诗词中所有可能包含情感的客观名物，降低分析复杂度以构建自动化流程；其次，基于深度学习方法构建RoBERTa-BiLSTM-CRF模型，对古诗词语料进行物象抽取；之后，使用《全唐诗》和部分宋代诗词资源验证模型的可行性与泛用性；最后，成功构建《全唐诗》物象库，并初步分析其物象分布规律。使用《全唐诗》自动标注语料训练模型后，模型对普通名词、时间名词和地名识别的F1分值分别达到89.6%、93.3%和93.6%。将模型迁移至未用于训练的宋代诗词语料，抽取密度为每首诗4.5个物象，具备未登录词发现能力，说明模型有良好的泛用性和可扩展性。

关键词:

古诗词; 数字人文; 深度学习; 物象

DOI阅读链接: 10.13663/j.cnki.lj.2024.01.010

提示：本站使用最低限度cookies来确保基础功能实现。 View more

同意

拒绝