美国禁华为芯片背后DPU在数据中心的上位战略

美国禁华为芯片背后DPU在数据中心的上位战略

AI、5G和云计算技术的迅猛发展正改变世界,数据中心作为这些技术的关键载体,在数字化转型中扮演着不可或缺的角色。然而,传统CPU和GPU已经无法满足不断变化应用需求,而是需要更强大的性能,更专用的、异构设计的芯片来支撑。

为了应对这一挑战,芯片巨头们通过收购或自研开发了更加全面的芯片产品。英伟达不仅推出了BlueField-2 DPU,还宣布了其数据中心芯片战略升级,以GPU+CPU+DPU三类芯片并进,以期逐年飞跃,并展示了自研Arm架构CPU Grace。

那么什么是DPU,它为什么能在数据中心“上位”?未来数据中心为何成为3U一体?

首先,我们需要理解DPU价值。在软件定义的大背景下,数据中心变得更加灵活,但同时也面临巨大负担。基础设施运行会消耗20%-30% CPU核,因此出现了新的处理器需求,即DPU。

以CPU为核心的架构已经不能满足市场和应用需求,而以数据为核心才能更好地满足市场和应用需求。英伟达网络事业部亚太区市场开发高级总监宋庆春指出:“以前计算规模和数据量没那么大,冯诺依曼架构很好地解决了提高计算性能的问题,但随着AI技术发展及日益增长的数据量,这种传统计算模型引发网络拥塞问题,使得提升性能面临新挑战。”

以数据为核心意味着无论是在哪个位置进行计算,都要保证与该位置相连。这使得以往难以实现的事项,如减少通信延时,可以得到解决。例如,从30-40微秒降低到3-4秒,有10倍提升。

英伟达DPU是一款SoC,其集成了三个关键要素:

行业标准、最高性能及软件可编程多核CPU。

高性能网络接口,可解析、处理速度达到线速,并高效将信息传输至GPU与CPU。

灵活且可编程加速引擎,可以卸载AI、机器学习、安全性等业务功能,为各类业务提供加速支持。

因此,DPU既可以针对安全性、高效率等业务进行优化,又能提供创新思路,为之前难以实现的事项提供可能。此前所有操作都由CPU完成,不仅占用大量内核资源,而且效率低下。如果将某些操作卸载至DPU,便可以提升效率,将业务与基础设施隔离,对于云场景尤其重要,如VMWare企业级云解决方案,也可以通过此方式获得显著改善。

UCloud技术专家马彦青表示,他们选择使用DPU主要因为遇到了服务器带宽瓶颈,并希望通过硬件卸载降低成本。他提到,“双方最开始都有相同认知,那就是DPU能够实现硬件上的卸载,与软件结合成为未来的趋势。”

借助于英伟达DOCA软件栈,UCloud实现了一系列关于存储系统方面的改进,其中包括VPC管理集成到DPU内部,大幅度提高转发效率,以及采用RSSD云盘作为后端存储机群,对存储进行解耦,让用户享受到分钟级交付能力,同时增加了故障迁移能力以及安全性。此外,DOCA还让深度包检测具有3.5倍加速效果,加密算法也能被硬件实施,无需占用额外资源。

最后,由于英伟达持续更新其硬件以及完善DOCA软件栈,使得探索如何利用这些新兴设备来增强虚拟化平台对于裸金属服务的一般性的特点而变得越来越实际。这不仅涉及对现有的虚拟化环境进行重大优化,而且预示着未来一个基于InfiniBand网络协议的大型数据库分析任务可能会极大地受益于这种类型的人工智能(AI)工作流程简化策略。而这个过程中的关键则是不断推动这些先进科技在全球范围内普及,以便更多人参与其中从而促进社会整体水平向上迈步。