芯片深度DPU在数据中心的上位战略
AI、5G和云计算技术的迅猛发展正改变世界,数据中心作为这些技术的重要载体,面临着诸多挑战。这其中,传统CPU和GPU无法完全满足快速变化的应用需求。为了应对这一问题,芯片巨头们通过收购或自研获得了更全面的芯片类型。
英伟达首席执行官黄仁勋宣布英伟达数据中心芯片战略升级为GPU+CPU+DPU,这三类芯片逐年飞跃,并推出了自研Arm架构CPU Grace。DPU(Data Processing Unit)作为一个不被大众所熟知的新兴芯片,其价值何在?为什么DPU能在数据中心“上位”?
了解DPU之前,我们需要解释为什么需要它。当下的数据中心是由软件定义,这使得它们更加灵活,但也产生了巨大的负担。因此,出现了一种新的处理器——DPU。
或者说,以CPU为中心的数据中心架构已经不能满足需求,以数据为中心才能更好地满足市场和应用需求。英伟达网络事业部亚太区市场开发高级总监宋庆春表示:“以前计算规模和数据量没那么大,冯诺依曼架构很好地解决了提高计算性能的问题,但随着AI技术的发展,以及不断增长的大型数据库,大规模分布式系统等,对于传统计算模型来说会造成网络拥塞。”
以数据为中心意味着可以根据需要进行计算,而不是所有操作都必须集中到一个地方。在这种新的架构下,可以解决网络传输中的瓶颈问题或丢包问题,从而实现通信延时从30-40微秒降低到3-4秒,有10倍性能提升。
更具体地说,英伟达DPU是一种SoC,它集成了三个关键要素:
行业标准、最高性能及软件可编程多核CPU,与其SoC组件紧密配合;
高性能网络接口,可以以线速或网络中的可用速度解析、处理并高效地将数据传输到GPU和CPU;
各种灵活且可编程加速引擎,可卸载AI、机器学习、安全、电信和存储等应用,并提升性能。
这使得DPU能够针对安全、高带宽交换、大容量存储以及其他业务进行加速,是其第一层价值。而第二层价值则在于提供了创新的思路,使得以前难以实现的事情现在变得可能。
例如,在云场景中,与VMWare合作开发Monterey项目,将一些功能卸载到DPU上运行,不仅可以提升效率,还能实现业务与基础设施之间绝对隔离。
另一个例子是与RedHat合作,在不消耗任何CPU的情况下,以100G甚至200G全线速运行Hypervisor/OVS/容器操作,将全部资源提供给业务。
UCloud利用DOCA软件栈结合使用老旧网卡升级至25G后,大幅提升转发效率,同时减少维护成本。此外,由于采用RSSD云盘作为后端存储机群,并基于NVMe SNAP功能实现计算与存储解耦,也极大提高了整体运维效率。
此外,DPU还显著提升了安全性,比如借助BlueField-2测试显示相比软件Hyperscan有3.5倍加速,加密方面也可以硬件化处理SSL/TLS及IPSec算法,从而释放出更多CPU资源用于其他任务。
总之,DPU让虚拟化与裸金属服务同时支持成为可能,为UCloud探索如何通过InfiniBand网络加快AI及高性能计算提供前所未有的可能性。
然而,为何说这些都是关于“上位”的策略?
首先,是因为英伟达持续更新其硬件产品,如BlueField系列,以及不断完善DOCA软件栈,使得它成为了行业内不可忽视的一员。英国华尔街日报称,“对于那些追求最佳价格优势的人来说,一些入门级别服务器选项仍然具有吸引力。但对于寻求最终用户最大化利润潜力的企业来说,那些拥有专用硬件特征,如NVIDIA DPA(Datacenter Platform Architecture)的系统似乎正在变得越来越受欢迎。”
第二点是关于智能设计理念,即一种旨在优化每个单一部分以增强整个系统表现能力,而非简单堆砌不同部分一起工作的情形。在这个过程中,每个部分都应该尽可能地协同作用,最终达到最佳结果,就像我们常说的团队协作一样,每个人做自己擅长的事物,让整体工作起来更加流畅无阻。但这并不容易,因为不同的部件往往有各自不同的生命周期,这就要求我们必须考虑如何平衡创新和稳定性,更确保我们的决策不会导致短期内大量投资却无法见实质回报,而且还要保证长远计划顺利实施,没有任何阻碍。如果成功的话,那么这样的策略就是非常有效的一个案例,因为它不仅能够帮助企业保持竞争力,还能激励消费者去购买他们认为值得投入资本的地方——即那些看似未来必备但目前尚未普遍采用的设备或服务。