计算机软件及计算机应用 美术书法雕塑与摄影 旅游 CCI-ClipCap:一种基于Prompt范式的中国陶瓷图像描述模型 标题: CCI-ClipCap:一种基于Prompt范式的中国陶瓷图像描述模型作者: 石斌,王昊,刘懋霖,邓三鸿第一作者: 石斌机构: 南京大学信息管理学院,江苏省数据工程与知识服务重点实验室期刊: 数据分析与知识发现发表日期: 2024-01-18论文摘要: [目的]构建中国陶瓷图像描述模型,为陶瓷文化研究和数字化保护提供技术支撑。 [方法]本文在ClipCap的基础上,引入Prompt范式改善模型对跨模态数据的理解,实现对陶瓷图像的自动描述。此外,我们还提出了一种针对具有一定表述结构的文本相似度评估方法。 [结果]CCI-ClipCap利用Prompt范式改进了多模态融合过程,能够很好地提取陶瓷图像的信息,并生成与实际相符的描述文本,Bleu、Rouge值等相较于baseline分别提升了0.04、0.14。 [局限]本文所使用的数据来源于大英博物馆的馆藏数据,而非中文原生数据集,数据来源较为单一,对模型的性能产生了一定的影响。 [结论]CCI-ClipCap生成的文本表达层次丰富,能够理解陶瓷领域知识,具有较强的专业性。关键词: ClipCap; Prompt范式; 图像描述; 多模态学习; 数字人文知网阅读链接: 点击跳转