芯片深度DPU在数据中心的上位战略

AI、5G和云计算技术的迅猛发展正改变世界，数据中心作为这些技术的重要载体，面临着诸多挑战。这其中，传统CPU和GPU无法完全满足快速变化的应用需求。为了应对这一问题，芯片巨头们通过收购或自研获得了更全面的芯片类型。

英伟达首席执行官黄仁勋宣布英伟达数据中心芯片战略升级为GPU+CPU+DPU，这三类芯片逐年飞跃，并推出了自研Arm架构CPU Grace。DPU（Data Processing Unit）作为一个不被大众所熟知的新兴芯片，其价值何在？为什么DPU能在数据中心“上位”？

了解DPU之前，我们需要解释为什么需要它。当下的数据中心是由软件定义，这使得它们更加灵活，但也产生了巨大的负担。因此，出现了一种新的处理器——DPU。

或者说，以CPU为中心的数据中心架构已经不能满足需求，以数据为中心才能更好地满足市场和应用需求。英伟达网络事业部亚太区市场开发高级总监宋庆春表示：“以前计算规模和数据量没那么大，冯诺依曼架构很好地解决了提高计算性能的问题，但随着AI技术的发展，以及不断增长的大型数据库，大规模分布式系统等，对于传统计算模型来说会造成网络拥塞。”

以数据为中心意味着可以根据需要进行计算，而不是所有操作都必须集中到一个地方。在这种新的架构下，可以解决网络传输中的瓶颈问题或丢包问题，从而实现通信延时从30-40微秒降低到3-4秒，有10倍性能提升。

更具体地说，英伟达DPU是一种SoC，它集成了三个关键要素：

行业标准、最高性能及软件可编程多核CPU，与其SoC组件紧密配合；

高性能网络接口，可以以线速或网络中的可用速度解析、处理并高效地将数据传输到GPU和CPU；

各种灵活且可编程加速引擎，可卸载AI、机器学习、安全、电信和存储等应用，并提升性能。

这使得DPU能够针对安全、高带宽交换、大容量存储以及其他业务进行加速，是其第一层价值。而第二层价值则在于提供了创新的思路，使得以前难以实现的事情现在变得可能。

例如，在云场景中，与VMWare合作开发Monterey项目，将一些功能卸载到DPU上运行，不仅可以提升效率，还能实现业务与基础设施之间绝对隔离。

另一个例子是与RedHat合作，在不消耗任何CPU的情况下，以100G甚至200G全线速运行Hypervisor/OVS/容器操作，将全部资源提供给业务。

UCloud利用DOCA软件栈结合使用老旧网卡升级至25G后，大幅提升转发效率，同时减少维护成本。此外，由于采用RSSD云盘作为后端存储机群，并基于NVMe SNAP功能实现计算与存储解耦，也极大提高了整体运维效率。

此外,DPU还显著提升了安全性，比如借助BlueField-2测试显示相比软件Hyperscan有3.5倍加速，加密方面也可以硬件化处理SSL/TLS及IPSec算法，从而释放出更多CPU资源用于其他任务。

总之,DPU让虚拟化与裸金属服务同时支持成为可能，为UCloud探索如何通过InfiniBand网络加快AI及高性能计算提供前所未有的可能性。

然而，为何说这些都是关于“上位”的策略？

首先，是因为英伟达持续更新其硬件产品，如BlueField系列，以及不断完善DOCA软件栈，使得它成为了行业内不可忽视的一员。英国华尔街日报称，“对于那些追求最佳价格优势的人来说，一些入门级别服务器选项仍然具有吸引力。但对于寻求最终用户最大化利润潜力的企业来说，那些拥有专用硬件特征，如NVIDIA DPA（Datacenter Platform Architecture）的系统似乎正在变得越来越受欢迎。”

第二点是关于智能设计理念，即一种旨在优化每个单一部分以增强整个系统表现能力，而非简单堆砌不同部分一起工作的情形。在这个过程中，每个部分都应该尽可能地协同作用，最终达到最佳结果，就像我们常说的团队协作一样，每个人做自己擅长的事物，让整体工作起来更加流畅无阻。但这并不容易，因为不同的部件往往有各自不同的生命周期，这就要求我们必须考虑如何平衡创新和稳定性，更确保我们的决策不会导致短期内大量投资却无法见实质回报，而且还要保证长远计划顺利实施，没有任何阻碍。如果成功的话，那么这样的策略就是非常有效的一个案例，因为它不仅能够帮助企业保持竞争力，还能激励消费者去购买他们认为值得投入资本的地方——即那些看似未来必备但目前尚未普遍采用的设备或服务。

相关文章

嵌入式开发与软件开发的区别-深度探究硬件交互与应用场景

触摸屏工控机从无感到有趣的智能革命

微控制器系统设计与开发专业证书