学院本科生在全球计算机视觉顶会CVPR上发表研究成果

文:许玮 王谭|图:信通学院| 发布时间: 2020-03-13 12:14:38|

2月24日,2020 IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,简称CVPR)官方公布论文收录结果。信息与通信工程学院本科2016级学生王谭在南洋理工大学Prof. Hanwang Zhang指导和阿里巴巴达摩院的资助下,以第一作者撰写的论文《Visual Commonsense R-CNN》(《视觉常识 R-CNN》)被CVPR2020接收。这是我校第一位以第一作者在CVPR上发文的本科生。

CVPR是计算机视觉领域的三大世界顶级会议之一,本届CVPR收到来自世界各地的投稿超过10000篇,有效投稿6656篇,最终接收1470篇,录取率为22%,近10年来的最低。该会议将于6月16-19日在美国华盛顿召开。

论文《Visual Commonsense R-CNN》针对现有的 Vision & Language 任务所用Up-Down特征存在的:bias较大、缺少构建物体与物体之间关系等问题,从因果推断(Causal Inference)的角度出发,利用Judea Pearl等人在2009年提出的“Do”算子和后门调整算法,结合现有的目标检测框架对现实场景中的物体进行干预(Intervention)。其本质可以简单的理解为“Borrow & Put”:


图1:和传统的贝叶斯条件概率对比

• 通过构建一个字典来把广泛存在于其他图片中的物体“borrow”到当前图片中。

• 然后把借来的物体“put”到X、Y周围和X、Y对比,例如上图中的把 sink、handbag、chair等等移到 toilet和person 周围,然后通过后门调整公式计算干预后的值。

最后通过一种自监督学习的方式学习到图片局部物体的更好的表征——我们称之为视觉常识特征,框架图如下。详细的计算过程可以参考文章(见文末链接).


图2:视觉常识特征提取框架结构图

论文作者在三个最主要的 Vision & Language 下游任务中对学习到的特征进行验证,都取得了目前最好结果。其中图片描述任务(Image Captioning)更是在Cider上比原先增长了近2个百分点。


王谭同学于2019年7月前往新加坡南洋理工大学实习,在这篇论文发表的背后经过了很长时间的努力。这项研究和当前整个学术界非常关注的自监督学习联系非常紧密,但是自监督学习难点在于,缺乏直接的评价指标,需要耗费大量的实验来验证算法的有效性,希望这篇论文成果能给学术界带来更多价值。


王谭:在校期间荣获国家奖学金,唐立新奖学金。加权平均分92.8,GPA3.99,前两年专业排名综合排名均位列1/450,所修67门课程中有62门90分以上,获得省优毕业生称号。2019年11月,王谭以第一作者撰写的论文“Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking”(基于多模态张量融合和重排序的图像文本检索)被第27届国际多媒体会议(The 27th ACM International Conference on Multimedia) 接受为Oral(大会演讲)论文。目前已经获得港中文计算机视觉全奖博士offer。


参考链接:

文章链接:https://arxiv.org/abs/2002.12204

更多详细的算法代码可参考王谭同学的github repo,欢迎star:https://github.com/Wangt-CN/VC-R-CNN

知乎科普文章,欢迎查阅:https://zhuanlan.zhihu.com/p/111306353



清水河校区地址:成都市高新区(西区)西源大道2006号 电子科技大学清水河校区科研楼B区

邮编:611731 Email: xintong@uestc.edu.cn

电话:028-61830156 传真:028-61831665

学院官微

分享