图书情报与数字图书馆

基于典籍跨语言的自动词性标注大语言模型研究

标题: 基于典籍跨语言的自动词性标注大语言模型研究

作者: 刘洋,许乾坤,刘畅,王东波

第一作者: 刘洋

机构: 南京农业大学信息管理学院

期刊: 情报资料工作

发表日期: 2024-10-12

论文摘要: [目的/意义]大语言模型的指令遵循、思维链及推理能力为古籍文本的自动词性标注任务提供了新的契机，有利于促进古籍智能信息处理研究工作的开展。[方法/过程]本研究以人工校验的《二十四史》古现词性标注语料为基础，运用LoRA方法对主流中文大语言模型进行高效监督微调，并测试了SFT模型的零样本（Zero-shot）和单样本（One-shot）学习能力，以比较其在古现文本分词与词性标注的性能。[结果/结论]测试发现，经过微调后的xunzi-baichuan模型整体表现最优，古文本的分词和词性标注的F1得分分别为92.293%和85.75%，而现代汉语的分词和词性标注F1得分则为91.993%和86.344%。

关键词:

古籍智能信息处理; 大语言模型; 数字人文; 词性标注

知网阅读链接: 点击跳转

提示：本站使用最低限度cookies来确保基础功能实现。 View more

同意

拒绝