问答之先何晓冬对话京东探寻多模态大模型在增强现实时代的智慧

在对话京东何晓冬时，探讨“多模态大模型”前提下的三个关键问题：跨模态融合的层次、语义对齐的机制，以及技术创新与产品工程化的结合。这些问题背后的答案似乎隐藏在2016年的CaptionBot之中，那个由微软CEO纳德拉带来的AI应用，仅一星期内就达到了百万用户量。然而，这个先进的技术并未成为今天ChatGPT那样深入人心的大模型，而是留下了遗憾和期待。

七年后，大模型时代再次来临。在CVPR发表论文五年中的排名前二十工作中，只有一项与多模态研究相关，与此同时，“Bottom-up and top-down attention”注意力机制也被提出，以跨模态语言和图像信息在语义层次进行对齐研究，单篇引用已超过4000次。

何晓冬认为，在多模态大模型的探索路线上必须回答三个问题：首先是在哪个层次做多模态信息融合？其次，是如何实现有效的跨模态理解？最后，是如何将产品与技术研究相结合，使之既能满足用户需求，又能不断创新？

正如CaptionBot曾经迈入市场，为人称道的“极致工程化”，ChatGPT又一次踏上了相同路径，但这一次，何晓冬相信多模态大模型将会更进一步，不仅解决了过去的问题，还将为更多用户提供普惠价值，让产业受益而非加剧鸿沟。

相关文章

使用逐周期电流限制控制保护我们的BLDC电机驱动器探索380V电机功率一览表在自然环境中的应用

佛龛装修设计精髓解析

传感器三大组成部分力传感器的反复工作原理与作用