计算机软件及计算机应用美术书法雕塑与摄影旅游

CCI-ClipCap：一种基于Prompt范式的中国陶瓷图像描述模型

标题: CCI-ClipCap：一种基于Prompt范式的中国陶瓷图像描述模型

作者: 石斌,王昊,刘懋霖,邓三鸿

第一作者: 石斌

机构: 南京大学信息管理学院,江苏省数据工程与知识服务重点实验室

期刊: 数据分析与知识发现

发表日期: 2024-01-18

论文摘要: [目的]构建中国陶瓷图像描述模型，为陶瓷文化研究和数字化保护提供技术支撑。 [方法]本文在ClipCap的基础上，引入Prompt范式改善模型对跨模态数据的理解，实现对陶瓷图像的自动描述。此外，我们还提出了一种针对具有一定表述结构的文本相似度评估方法。 [结果]CCI-ClipCap利用Prompt范式改进了多模态融合过程，能够很好地提取陶瓷图像的信息，并生成与实际相符的描述文本，Bleu、Rouge值等相较于baseline分别提升了0.04、0.14。 [局限]本文所使用的数据来源于大英博物馆的馆藏数据，而非中文原生数据集，数据来源较为单一，对模型的性能产生了一定的影响。 [结论]CCI-ClipCap生成的文本表达层次丰富，能够理解陶瓷领域知识，具有较强的专业性。

关键词:

ClipCap; Prompt范式; 图像描述; 多模态学习; 数字人文

知网阅读链接: 点击跳转

提示：本站使用最低限度cookies来确保基础功能实现。 View more

同意

拒绝