CVPR 2019口头报告揭秘无监督领域适应的语义分割之谜

CVPR 2019口头报告揭秘无监督领域适应的语义分割之谜

《深度解析CVPR2019口头报告:无监督域适应语义分割的新纪元》

在百度研究院与华中科技大学的联合攻关下,悉尼科技大学也加入了这场创新实验室的盛宴。他们共同推出了一个革命性的论文——《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》,并且,这份杰作在国际顶尖学术会议CVPR 2019上荣获了Oral演讲资格。这篇论文提出了一个令人瞩目的算法,它可以将从“虚拟领域”获得的标注数据应用到现实世界中,无需额外的人工标注成本。

文章揭示了语义分割任务面临的一个重大挑战——不同于图像分类等任务,语义分割需要的是精确到每个像素级别的人工标注,这一过程既耗时又昂贵。然而,利用现代计算机技术,如3D游戏,可以生成几乎无限数量的自动标注数据。但是,由于存在严重视觉差异(域偏移),如纹理、光照和视角变化等问题,这些虚拟图像上的模型往往无法直接迁移到真实世界中。

为了解决这一难题,一种常见方法是在网络结构中引入一个判别器(Discriminator)通过对抗学习来减少源域和目标域之间分布差异。然而,这种方法仅能对齐全局特征分布,而忽略了不同域间相同类别特征的一致性。在没有经过适应算法之前,目标域中的车辆等类别可能会被正确识别,但为了迎合传统方法,全局对齐策略可能会导致这些特征被映射到其他类别,如火车,从而造成负迁移。

针对这一问题,本文提出了一种新的框架,即Category-Level Adversarial Network (CLAN),它结合了互斥分类器以判断目标域隐层特征是否达到局部语义对齐。在后续训练过程中,该网络根据互斥分类器产生的两个预测向量之差来调整判别网络反馈给其的损失函数,以加强原始网络在泛化能力上的提升。

本文还进行了详尽的地面试验,以GTA5和SYNTHIA作为源数据集,将其迁移到Cityscapes作为目标数据集,并展示出与传统方法相比,在不常见类别上取得显著优势。此外,本文还提供了一系列关于特征空间分析、T-SNE可视化以及最终结果可视化图片,以进一步证明该算法在实际应用中的有效性。

总结来说,《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》的出现为无监督领域自适应语义分割开辟了解放前线,其潜力巨大,对自动驾驶技术尤为关键。