增强现实AR时代的守护者如何解答三个疑问迎接多模态大模型的崛起

在对话中，何晓冬回顾了多模态大模型的发展历程，并提出了三个关键问题，以回答这些问题，我们才能真正走向多模态大模型的未来。首先是确定在哪个层次融合信息。何晓冬认为，在语义层次的对齐和融合是关键。

其次，是技术创新如何推动这一过程。在七年前，当何晓冬与微软雷德蒙德研究院深度学习技术中心的团队一起工作时，他们就已经开始探索这个方向。那时候，他们开发了CaptionBot，这是一个AI应用产品，它能够给全球用户提供实时图像描述服务，仅在微软Build大会上亮相后，就吸引了百万用户。

然而，尽管CaptionBot取得了一定的成功，但它并没有成为今天ChatGPT的大师级别产品。这让何晓冬感到遗憾。但现在，他相信随着技术进步，大模型将带来人工智能普惠，而不是加剧数字鸿沟。当大模型具备信息压缩、知识网络构建、逻辑判断与推理等能力之后，它们将降低产业进入门槛，使得更多企业和供应链中的中小企业都能使用这些工具，从而产生普惠价值。

最后，是关于如何回答多模态大模型面临的问题。何晓冬指出，虽然他曾经预见到多模态趋势，但真正突破是在2014年，当微软发布MS COCO数据集时。他和他的团队利用这个数据集开发了深度结构化语义模型DSSM，并且他们参与2015年的MS COCO图像字幕生成挑战赛，最终赢得第一名。这标志着他们成功地实现跨模态理解。

因此，何晓冬强调，对于要想做出一个可用的多模态大型语言处理器，我们需要解决三个核心问题：首先是确定我们想要在哪里进行信息融合；其次是通过不断迭代我们的产品，让它们变得更加接近人类水平；最后，我们需要确保我们的系统能够适应不同的任务需求，以及如何有效地整合来自不同来源的数据流。