问答之先何晓冬对话京东探寻多模态大模型在增强现实时代的智慧

问答之先何晓冬对话京东探寻多模态大模型在增强现实时代的智慧

在对话京东何晓冬时,探讨“多模态大模型”前提下的三个关键问题:跨模态融合的层次、语义对齐的机制,以及技术创新与产品工程化的结合。这些问题背后的答案似乎隐藏在2016年的CaptionBot之中,那个由微软CEO纳德拉带来的AI应用,仅一星期内就达到了百万用户量。然而,这个先进的技术并未成为今天ChatGPT那样深入人心的大模型,而是留下了遗憾和期待。

七年后,大模型时代再次来临。在CVPR发表论文五年中的排名前二十工作中,只有一项与多模态研究相关,与此同时,“Bottom-up and top-down attention”注意力机制也被提出,以跨模态语言和图像信息在语义层次进行对齐研究,单篇引用已超过4000次。

何晓冬认为,在多模态大模型的探索路线上必须回答三个问题:首先是在哪个层次做多模态信息融合?其次,是如何实现有效的跨模态理解?最后,是如何将产品与技术研究相结合,使之既能满足用户需求,又能不断创新?

正如CaptionBot曾经迈入市场,为人称道的“极致工程化”,ChatGPT又一次踏上了相同路径,但这一次,何晓冬相信多模态大模型将会更进一步,不仅解决了过去的问题,还将为更多用户提供普惠价值,让产业受益而非加剧鸿沟。