论文摘要: 【目的】针对当前非遗图片分类不足的问题,提出结合非遗图片和文本描述,以多模态融合的方式进行非遗图片分类研究。【方法】构建基于多模态融合的非遗图片分类模型(Image Classification Model with Multimodal Fusion,ICMMF),其主要由用于非遗图片视觉语义特征抽取的微调深度预训练模型、对文本特征进行抽取的BERT模型、融合视觉语义特征和文本描述特征的多模态融合层和预测类别输出层组成。【结果】以国家级非遗项目——年画为例,对我国四大年画(绵竹年画、杨柳青年画、杨家埠年画及桃花坞年画)进行分类。将ICMMF模型在建立的数据集中进行实证,实验结果表明,对图片深度预训练模型中的卷积层进行微调,能够改善非遗图片的视觉语义特征,分类的F1值最高达72.028%。在同基线模型的对比中,ICMMF模型表现最优,F1值达77.574%。【局限】ICMMF模型仅在年画数据集上进行了测试,未在更广泛的非遗项目中进行验证。【结论】结合文本描述,以多模态的方式进行非遗图片分类,能够有效提升模型的分类性能;同时,对图片深度预训练模型中的卷积层进行微调,能够改善抽取的视觉语义...