CVPR 2019口头报告背后的秘密无监督域适应语义分割之谜

CVPR 2019口头报告揭秘：无监督域适应语义分割的新篇章

百度研究院、华中科技大学与悉尼科技大学联合发布了一项革新性的研究成果，解决了深度学习领域长期困扰的问题——如何在无需额外标注数据的情况下实现语义分割。他们在CCF A类学术会议CVPR 2019上展示了这项工作，并将其收录为Oral论文。这份贡献巨大的论文名为《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》，提出了一种从“虚拟域”到“现实域”的无监督语义分割算法，该算法利用易于获取的虚拟场景数据来减少对昂贵现实场景数据的依赖。

文章首先回顾了深度学习中的语义分割任务，它们通常需要大量的人工标注，但这样的成本高昂且不可持续。借助计算机生成技术，如3D游戏，可以几乎无成本地获得大量自动标注数据。但是，这些虚拟图像和真实图像之间存在严重的视觉差异（域偏移），导致在虚拟图像上训练出的模型往往无法很好地泛化到真实世界。

为了克服这一挑战，传统方法使用对抗训练，使网络学会区分源和目标域，同时保持分类性能。然而，这种方法仅能调整全局特征分布，而忽略不同域间相同类别特征的一致性问题，从而可能引发负迁移，损害最终结果。

针对这些不足，本文提出了一个新的框架Category-Level Adversarial Network (CLAN)，它采用互斥分类器来判断目标域特征是否达到了局部语义一致，并根据此进行加权对抗损失。在这个过程中，我们通过余弦距离优化两个互斥分类器以保证它们产生不同的预测，以确保正确地识别出需要进一步调整的特征。

实验结果表明，在GTA5转移到Cityscapes以及SYNTHIA转移到Cityscapes两种常见任务上，本文提出的CLAN模型能够达到state-of-the-art水平，无论是在常见还是不常见类别上的性能都显著超越竞争者。此外，我们还展示了源和目标域同一类别特征簇中心距离较小，说明本方法有效提升了跨界面层面的相似性，从而增强了算法鲁棒性。

总之，本文不仅提供了解决当前深度学习难题的一般框架，也为未来的应用，如自动驾驶系统，为更好的街景识别能力奠定基础。