基于典籍跨语言的自动词性标注大语言模型研究

基于典籍跨语言的自动词性标注大语言模型研究


标题: 基于典籍跨语言的自动词性标注大语言模型研究


作者: 刘洋,许乾坤,刘畅,王东波


第一作者: 刘洋


机构: 南京农业大学信息管理学院


期刊: 情报资料工作


发表日期: 2024-10-12


论文摘要: [目的/意义]大语言模型的指令遵循、思维链及推理能力为古籍文本的自动词性标注任务提供了新的契机,有利于促进古籍智能信息处理研究工作的开展。[方法/过程]本研究以人工校验的《二十四史》古现词性标注语料为基础,运用LoRA方法对主流中文大语言模型进行高效监督微调,并测试了SFT模型的零样本(Zero-shot)和单样本(One-shot)学习能力,以比较其在古现文本分词与词性标注的性能。[结果/结论]测试发现,经过微调后的xunzi-baichuan模型整体表现最优,古文本的分词和词性标注的F1得分分别为92.293%和85.75%,而现代汉语的分词和词性标注F1得分则为91.993%和86.344%。


知网阅读链接: 点击跳转






提示:本站使用最低限度cookies来确保基础功能实现。 View more
同意
拒绝