千亿芯片大骗局DPU在数据中心的上位之战

千亿芯片大骗局DPU在数据中心的上位之战

AI、5G和云计算技术的飞速发展正改变着世界,数据中心作为这些技术的支撑者,在数字化转型中扮演了关键角色。然而,面对快速变化的应用需求,传统CPU和GPU已无法满足。于是,芯片巨头们紧跟趋势,不断推出更强大的、更加专用、异构化芯片,以满足数据中心日益增长的需求。

英伟达率先发布了BlueField-2 DPU,并宣布其数据中心芯片战略升级为GPU+CPU+DPU三合一。这不仅提升了性能,还引入了自研Arm架构CPU Grace。DPU(Data Processing Unit),一个不被广泛认识但价值深远的芯片类型,它如何在数据中心“上位”?它如何塑造未来?

DPU双重价值

理解DPU之前,我们首先需解释为什么需要它。当下的数据中心是由软件定义,这使得它们更加灵活,但也带来了巨大的负担。黄仁勋曾指出,当今计算规模和数据量大到一定程度时,冯诺依曼架构就不能再满足需求。而以数据为中心则能更好地满足市场和应用要求。

以宋庆春的话来说:“以前计算规模和数据量没那么大,而AI技术发展迅猛,使得传统计算模型会造成网络拥塞。”因此,以数据为中心新架构解决了网络传输中的瓶颈问题或丢包问题,有10倍性能提升。

英伟达DPU是一种SoC,其集成了三个关键要素:

行业标准、高性能及软件可编程多核CPU,与SoC组件密切配合。

高性能网络接口,可以以线速或网络中的可用速度解析处理并高效地将数据传输到GPU和CPU。

许多灵活与可编程加速引擎,可以卸载AI机器学习安全电信存储等应用,并提升性能。

这使得DPU能够针对安全、网络、存储等业务进行加速,为以 数据为核心 的新架构提供创新思路实现以前难以或无法实现功能。在过去所有操作都由CPU完成,不仅需要很多内核,而且效率低下。如果将一些操作比如OVS卸载到DPU上运行,就能提高效率减少CPU利用率同时实现业务隔离。

例如VMWare与英伟达合作开发Monterey项目,将VMWareHypervisor里的某些功能卸载到DPUSong庆春强调:“这是VMWare第一次把他源代码开放给合作伙伴共同开发基于VMWare企业级云解决方案。”

同样RedHat与英伟达合作使用100G甚至200G全线速运行Hypervisor/OVS/容器操作,而不消耗任何CPU资源全部提供给业务。

马彦青表示,“我们最开始选择DPUs,是因为遇到了服务器带宽瓶颈,我们想解决网络性能瓶颈的问题,也想降低成本。”

借助于DOCA软件栈UCloud实现了一系列的优化改进,如VPC集群管理集成至DPUInternal包含OVS包转发以及GRE封装都可以通过硬件实现,大幅提高转发效率原来10G网卡升级25G后表现显著提升。此外还包括存储方面利用NVMe SNAP功能来解耦计算与存储,从而获得用户分钟级交付运维减少机型磁盘按需使用快速故障迁移三副本增强安全性。

最后,由于其持续硬件更新以及不断完善DOCA软件栈平台预计2023年发布下一代800GB Dpu Bluefield4将会成为行业首个800GB Dpu也是集成GPU标志着未来更多探索机会随之而来。