期刊:IEEE Transactions on Multimedia 2020
作者:石恒粲,李宏亮,吴庆波,King Ngi Ngan
论文简介:
引用表达图像分割的目的是分割出自然语言查询所描述的对象。由于视觉内容和语言描述的多样性,要准确建立视觉和语言之间的对应关系模型非常具有挑战性,这不可避免地会从查询中产生一些不理想的分割对象。该论文提出了一种查询重构网络(QRN),以在语言查询和对象分割结果之间建立更加一致的对应关系。QRN不仅能根据查询和图像生成分割结果,还能根据分割结果和图像反向重构查询。通过查询重构,QRN可以确认分割结果与查询之间的视觉语言一致性。在推理阶段,对于不一致的分割和查询,该论文提出了一种迭代分割校正(ISC)方法来进行校正。ISC将重建查询和输入查询之间的差异作为损失,以优化所提出的QRN。然后,提出的QRN可以生成新的分割和查询。通过迭代优化,可以逐步修正分割。在四个参考表情图像分割数据库上的广泛实验证明了所提方法的有效性。
