半导体新贵DPU在数据中心的崛起

半导体新贵DPU在数据中心的崛起

DPU(Data Processing Unit),作为数据中心中的一个不被广泛认识的芯片类型,其价值是什么?为什么DPU能在数据中心“上位”?

了解DPU的价值之前,我们需要先解释为什么需要DPU。黄仁勋此前发布DPU时表示,当下的数据中心是由软件定义,这使得数据中心更加灵活,同时也产生了巨大的负担,数据中心基础架构的运行能够消耗20%-30%的CPU核,因此需要一种新的处理器,也就是DPU。

或者说,以CPU为中心的数据中心架构已经不能满足需求,以数据为中心才能更好地满足市场和应用需求。英伟达网络事业部亚太区市场开发高级总监宋庆春在本周的一场沟通会中表示:“以前计算规模和数据量没那么大,冯诺依曼架构很好地解决了提高计算性能的问题,随着数据量越来越大,以及AI技术的发展,传统的计算模型会造成网络拥塞,继续提升データcenter性能面临挑战。”

以 数据为 中心 的 架构 意味 着 数据 在 哪 计算 就 在 那。这意味着可以解决网络传输中的瓶颈问题或丢包问题,有10倍性能提升。

更具体地说,英伟达 DPU 属于 SoC 集三个关键要素于一身:

行业标准 的、最高性能及软件可编程 的多核 CPU,一般基于广泛 的 Arm 架构,与其 SoC 组件密切配合;

高性能 网络接口,可以以线速或网络中的可用速度解析、处理 数据,并高效地将 数据 传输到 GPU 和 CPU。

各种灵活 和 可编程 的加速引擎,可以卸载 AI、机器学习、安全、电信和存储等应用,并提升性能。

也就是说, DPU 能针对安全、网络、高效率存储以及 AI 等业务进行加速,这是 DPU 第一次层面的价值。而 DPU 第二次层面的价值,在于为 以 数据 为 中心 的 计算 架构 提供了 创新的 思路,可实现以前难以或无法实现功能。

例如,在云场景下,英伟达与 VMWare 共同开发了 Monterey 项目,将 VMWare 在 Hypervisor 里的一些功能卸载到 DPU 上,比如防火墙、存储管理等,这样把业务与基础设施操作完全隔离,使得运行变得更加稳定且具有更好的安全性。此外,还有例子是在 RedHat 与英伟达合作中,用 DPA 运行 HYPervisor 或者容器操作,不仅能达到100G甚至200G全线速,而且不会消耗任何CPU资源,从而让业务获得更多优势。

借助 DPA 硬件和 DOCA 软件栈,由 UCloud 实现了一系列关于提升带宽和成本降低方面的手段,如将 VPC 管理集成到内置硬件转发设备上,大幅提高转发效率。此外,对于金融客户来说,它们可以通过减少服务器数量来降低资源浪费并增加使用便利性,而对于大型数据库服务商来说,它们可以通过优化 VPC 集群配置来显著提升带宽能力并降低维护成本。

除了这些改进之外,还有一点值得注意的是,即使是最先进的大型企业,也面临着不断增长的人口密度导致物理空间不足的问题。在这种情况下,更小尺寸但同时保持强劲表现力的产品变得尤其重要。比如,小型化服务器组合可能包括支持主板上的两颗 CPU 和大量 RAM,以及用于高速 I/O 操作的小巧 SSDs。尽管这类系统通常价格昂贵,但它们提供了一种确保敏感工作负荷得到最佳执行方式,即使是在极限条件下也是如此的情况下。这正是为什么许多组织选择购买用于他们最重要任务的人造智能电脑(AI)系统—即那些拥有专门设计用于特定用途且能够自动优化自身行为以最大程度利用所有资源的大型机所需的一个微缩版版本。当我们谈论人工智能时,我们指的是一种利用统计学方法分析大量复杂输入输出模式从而生成预测结果的人工智能系统,而不是简单地指向像 Siri 或 Alexa 这样的虚拟助手。当涉及到特别复杂的情境时,那些只使用单个核心进行运算的大型机就不够用了,因为它们无法快速有效地处理信息流入出列队过程中出现的情况。如果你想知道是否存在某种科技革命正在发生,你只需观察一下人们如何开始改变自己的生活方式,就能发现答案。在过去十年里,每个人都逐渐习惯到了移动设备成为日常生活不可分割的一部分。但现在,看起来似乎还有另一个趋势正在发生——那就是人们开始接受人工智能作为工具一样存在并影响他们每天做的事情。这一点被称作“AI普及”,它预示着人类社会进入一个全新的时代,其中技术将扮演决定性的角色。