图书情报与数字图书馆 基于典籍跨语言的自动词性标注大语言模型研究 标题: 基于典籍跨语言的自动词性标注大语言模型研究作者: 刘洋,许乾坤,刘畅,王东波第一作者: 刘洋机构: 南京农业大学信息管理学院期刊: 情报资料工作发表日期: 2024-10-12论文摘要: [目的/意义]大语言模型的指令遵循、思维链及推理能力为古籍文本的自动词性标注任务提供了新的契机,有利于促进古籍智能信息处理研究工作的开展。[方法/过程]本研究以人工校验的《二十四史》古现词性标注语料为基础,运用LoRA方法对主流中文大语言模型进行高效监督微调,并测试了SFT模型的零样本(Zero-shot)和单样本(One-shot)学习能力,以比较其在古现文本分词与词性标注的性能。[结果/结论]测试发现,经过微调后的xunzi-baichuan模型整体表现最优,古文本的分词和词性标注的F1得分分别为92.293%和85.75%,而现代汉语的分词和词性标注F1得分则为91.993%和86.344%。关键词: 古籍智能信息处理; 大语言模型; 数字人文; 词性标注知网阅读链接: 点击跳转