计算机软件及计算机应用 中国文学 面向数字人文的古诗文本情感术语抽取与应用研究 标题: 面向数字人文的古诗文本情感术语抽取与应用研究作者: 张卫,王昊,邓三鸿,张宝隆第一作者: 张卫机构: 南京大学信息管理学院期刊: 中国图书馆学报发表日期: 2021-06-30论文摘要: 在跨学科知识范式下,数字人文的研究范畴随着自身学科体系的拓展而不断泛化,采取关键语义技术解析文化对象中的人文内涵与情感知识对于重拾学科"人文性"与"计算性"特质具有重要意义。本文以古诗文本为例,面向汉语诗文及其鉴赏实现大规模人文情感术语的自动化抽取与分析。首先在无标注集环境下提出一种基于"冷启动"的字序列自动标引方法来获取学习语料,随后在字向量(Char2Vec)指导下将汉字特征(部首、拼音等)和BERT语言学模型分别引入机器学习与深度学习模型,并从知识发现的角度定义新术语识别规则。研究发现,将现代鉴赏融入古诗原文显著优化了情感知识的广度与深度,领域术语能够被有效标引。训练的BERT-BiLSTM-CRFs深度学习模型的效果明显优于CRFs机器学习,最佳F1与F1distinct可分别达到95.63%和85.43%;同时汉字特征的引入也有效提升了传统CRFs效果,以领域特征和基于"竖心旁""心字底"部首约束特征为最优。相较于机器学习抽取出的长篇幅新术语,深度学习能够拓展出更多寄托情感知识的新意象词。源于诗文与鉴赏的情感术语为文学信息资源的情感分析与知识服务提供了参...关键词: BERT; Char2Vec; 古诗; 情感术语抽取; 数字人文; 汉字语言特征DOI阅读链接: 10.13530/j.cnki.jlis.2021033