骁龙与天玑的较量DPU在数据中心上位

骁龙与天玑的较量DPU在数据中心上位

AI、5G和云计算技术的飞速发展正重塑世界,数据中心作为这些技术的基石,在数字化转型中扮演着关键角色。面对挑战,传统的CPU和GPU已无法满足快速变化的应用需求,而性能更强大、更专用、异构设计的芯片则成为数据中心不可或缺的一部分。

芯片巨头们意识到了这一点,并通过收购或自研获得了更加全面的产品线。英伟达在去年十月发布了首代DPU BlueField-2,今年4月,又宣布其数据中心芯片战略升级为GPU+CPU+DPU,以三类芯片逐年迈向新高度。此外,还有自研Arm架构CPU Grace亮相。

那么,DPU(Data Processing Unit)又是何许人也?为什么它能在数据中心“上位”?未来数据中心之所以是3U一体,是因为DPU带来了双重价值。

首先,我们需要了解DPU的价值前提。在软件定义的数据中心环境下,由于灵活性增加而产生巨大负担,基础架构运行消耗20%-30% CPU核,因此需要新的处理器——即DPU。以CPU为核心已不足以满足市场和应用需求,而以数据为核心则能更好地应对挑战。宋庆春指出,以往计算规模与数据量小,但随着AI技术进步,大规模计算模型会导致网络拥塞,因此提升性能面临瓶颈。

英伟达所推出的SoC集成了行业标准多核CPU、高速网络接口以及灵活可编程加速引擎,可以针对安全、网络、存储等业务进行加速,同时提供创新思路,使得以前难以实现功能现在变得可能。这就是DPU第一层价值。而第二层价值,则在于提供了新的计算架构思路,即实现以前难以或无法实现的事情,如将OVS卸载到DPU上,不仅提高效率,还可以实现业务隔离。

例如,在云场景中,与VMWare合作开发Monterey项目,将Hypervisor中的某些功能卸载到DPU上,这样可以完全隔离业务与基础设施操作,从而达到高安全性及裸金属级别业务性能。此外,与RedHat合作,也可以采用DPU运行Hypervisor/OVS/容器操作,无需占用任何CPU资源,便可达到100G甚至200G全线速,为业务保留全部资源。

对于UCloud来说,他们最初选择使用的是因为遇到了传统服务器带宽瓶颈,希望解决网络性能问题并降低成本。借助于DOCA软件栈和匹配硬件设备,他们能够实施一系列性能提升措施,比如将VPC管理集成到内部硬件中,大幅提高转发效率,以及利用NVMe SNAP功能解耦存储,使得用户可以免装机分钟级交付,并减少运维麻烦等优化措施。

此外,DPU还极大地提升了数据中心安全性,比如深度包检测速度加快至原来的3.5倍,以及支持SSL/TLS加密算法等。在未来的目标中,UCloud旨在通过一张卡实现虚拟化与裸金属架构之间的统一,并探索基于InfiniBand网络如何加速AI和高性能计算工作loads.

总结来看,加强研究并发挥DPB潜力所依赖的是英伟达持续改进硬件以及不断完善DOCA软件栈。如果预期2023年的BlueField-4将是业界首个800G Dpu,那么这无疑是一个令人振奋的事实,因为它不仅代表着速度上的突破,而且还有集成GPU意味着进一步增强其处理能力。此外,一旦DOCA 1.0正式版发布,它就有望让合作伙伴能够更加高效、高安全且低延时地服务客户。这也是为什么人们认为云原生超级电脑很快就会应用到DPB市场,因为超级计算已经变成了服务的问题,其如何提供一种安全且有效率的人工智能服务成为关注焦点之一。