|论文成果

Prompt-Driven Referring Image Segmentation with Instance Contrasting

文:|图:信通学院| 发布时间: 2024-06-22 18:42:25|

会议:CVPR 2024

作者:尚超;李宏亮;孟凡满;吴庆波;邱荷茜;王岚晓

论文简介:

多模态目标分割任务的目的是理解文本表达的语义,在图像中对文本描述的目标进行像素级分割。随着在大规模数据集上预训练的模型的兴起,强大的泛化能力让大模型在多种下游任务中获得了显著的性能提升。如何将大模型应用于多模态分割任务,并充分挖掘大模型丰富的知识以及强大的泛化能力,成为了当前多模态分割任务中极具挑战性的难点。为了解决上述问题,该论文提出了一种新颖的基于提示学习的多模态目标分割框架,称为Prompt-RIS。该网络框架将现有的多模态大模型CLIP和图像分割大模型SAM端到端地结合起来,并通过提示学习将CLIP和SAM在大规模数据集上学习到的丰富的知识迁移到多模态目标分割任务中。基于该框架,该论文提出了跨模态的提示学习方法,将图像级的CLIP模型应用于像素级的分割任务中并提升跨模态的信息交互。此外,该论文提出了实例对比学习方法,提高模型对不同实例的区分能力,以及对描述同一实例的不同文本的鲁棒性。