天玑9200威力超越骁龙DPU在数据中心霸主位

天玑9200威力超越骁龙DPU在数据中心霸主位

AI、5G和云计算技术的飞速发展正重塑世界,数据中心作为这些技术的基石,在数字化转型中扮演着关键角色。面对挑战,传统的CPU和GPU已无法满足快速变化的应用需求,而性能更强大、更专用、异构设计的芯片则成为数据中心不可或缺的一部分。

芯片巨头们意识到了这一点,并通过收购或自研获得了更加全面的产品线。英伟达在去年十月发布了首代DPU BlueField-2,今年4月,又宣布其数据中心芯片战略升级为GPU+CPU+DPU,以三类芯片逐年迈向新高度。此外,还有自研Arm架构CPU Grace亮相。

那么,我们来探索一下DPU是什么,它为什么能在数据中心“上位”,以及未来它将如何改变我们的工作方式?

DPU(Data Processing Unit)的双重价值

理解DPU之前,让我们先解释为什么需要它。在发布时,黄仁勋表示,当下的数据中心是由软件定义,这使得它们变得更加灵活,但也带来了巨大的负担。因此,我们需要一种新的处理器,即DPU。这就是以数据为中心而不是以计算为中心的问题所在,因为前者能够更好地满足市场和应用需求。

英伟达网络事业部亚太区市场开发高级总监宋庆春提到:“以前计算规模和数据量没那么大,因此冯诺依曼架构就很好地解决了提高计算性能的问题。但随着数据量越来越大,以及AI技术的发展,传统模型会造成网络拥塞,再提升性能就会遇到挑战。”

以数据为中心意味着可以根据需要进行处理,而不必考虑物理位置。这就解决了网络传输中的瓶颈问题或者丢包问题,使通信延时从30-40微秒降低到3-4秒,有10倍提升。

具体来说,英伟达DPU是一种SoC,其集成了三个关键要素:

行业标准、高性能及可编程多核CPU,与其SoC组件紧密结合。

高性能网络接口,可以以线速或网络中的速度解析并处理数据,将其高效地传输给GPU和CPU。

可编程加速引擎,可以卸载AI、机器学习、安全等应用,并显著提升性能。

这就是第一层价值。而第二层价值在于提供了一种创新思路,为以数据为核心的架构提供支持,使得以前难以实现的事情现在变得可能。

如果将一些操作,如Open vSwitch卸载到DPU上运行,不仅能提升效率减少CPU利用率,还能实现业务隔离。例如,在云场景中,与VMWare合作开发Monterey项目,把Hypervisor里的某些功能卸载到DPU上,这样可以完全隔离业务与基础设施操作,从而实现高安全性同时保持裸金属业务性能。

另一例子是与RedHat合作。如果使用所有CPU核运行虚拟化或容器,也无法达到100G线速,而采用DPU运行Hypervisor/OVS/容器操作,就可以在不消耗任何CPU的情况下实现100G甚至200G全线速,同时把所有资源都分配给业务。

那么,DPU又能带来多少提升?

UCloud技术专家马彦青说:“我们选择使用DPUS,是因为遇到了传统服务器带宽瓶颈,我们想解决这个问题,也想降低成本。”借助DPUs及其匹配软件栈DOCA,他们实现了一系列重要的增强措施:

将VPC管理集成至内部,对OVS包转发及GRE封装进行硬件优化,大幅提高转发效率。

升级网卡至25G后,大幅提升表现。

解耦存储,使用户免安装机箱,可分钟级交付,无需维护磁盘,可快速故障迁移且增加安全性。

提供深度包检测加速以及SSL/TLS加解密能力,更有效利用算力并释放出更多资源用于业务处理。

UCloud最终目标是在一张卡上实现虚拟化与裸金属架构的一致性,他们还正在基于InfiniBand网络上的DPUs探索如何加快AI与高性能计算过程。

为了充分发挥DPUs潜力,最重要的是不断完善英伟达硬件与DOCA软件栈。此外,预计2023年的下一代BlueField-4将是行业首个800G DPN,并且集成GPU;DOCA通过软件定义调用硬件引擎,为各种服务提供极大的优势;目前已经推出了DOCA 1.0正式版。