目前中国芯片技术的新霸主DPU在数据中心上位

目前中国芯片技术的新霸主DPU在数据中心上位

AI、5G和云计算技术的飞速发展正重塑世界,数据中心作为这些技术的基石,在数字化转型中扮演着关键角色。面对挑战,传统的CPU和GPU已无法满足日益增长应用需求。于是,芯片巨头们纷纷采取行动,从收购到自研,以确保自己的产品线涵盖更多种类。

在此背景下,DPU(Data Processing Unit)这个不为人知的芯片类型,其价值何在?为什么它能在数据中心“上位”?未来的数据中心将是以3U一体架构为核心,这其中DPU扮演着至关重要的角色。

了解DPU之前,我们先来探讨其价值所在。黄仁勋曾指出当前数据中心采用软件定义,使其更加灵活,但同时也带来了巨大的负担——基础架构运行占用20%-30%CPU核,因此需要新的处理器,即DPU。而以CPU为中心的数据中心已经不能满足市场和应用需求,以数据为中心才能更好地应对挑战。

宋庆春表示:“以前计算规模和数据量没那么大,冯诺依曼架构很好地解决了提高计算性能的问题,但随着数据量增加以及AI技术进步,传统模型会造成网络拥塞继续提升性能面临瓶颈。”以数据为中心意味着可以根据需求数字进行计算,而不是固定的位置。通过这种新架构,可以解决网络传输中的瓶颈问题或丢包问题,将通信延时从30-40微秒降低至3-4秒,有10倍提升。

英伟达DPU是一款SoC,它集成了三个关键要素:

行业标准、高性能及软件可编程多核CPU,大多基于广泛使用的Arm架构,与其SoC组件紧密配合。

高性能网络接口,可以以线速或网络可用速度解析、处理并高效传输到GPU和CPU。

灵活且可编程加速引擎,可以卸载AI、机器学习、安全、电信等应用,并显著提升性能。

因此,DPU能够针对安全、网络存储等业务进行加速,这是其第一层价值。而第二层价值则在于提供了创新的思路,为以数据为中心的计算模式提供前所未有的可能性。

比如,将OVS卸载到DPU上运行,不仅能提升效率减少CPU利用,还能实现业务隔离。这对于云场景尤其重要,如英伟达与VMWare合作开发Monterey项目,以及与RedHat合作使得容器或虚拟化操作能够实现100G甚至200G全线速而不消耗任何CPU资源,为业务保留所有资源。

马彦青介绍说:“我们最初选择DPU,是因为遇到了服务器带宽瓶颈,我们想解决网络性能问题,也想降低成本。”借助DPU及其匹配软件栈DOCA,UCloud实现了一系列优化效果,如VPC管理集成到DPU内部,大幅提高转发效率。在过去10G网卡升级至25G后,其表现也有显著改善。此外,由于客户反馈良好,比如大型金融企业部署四台服务器现今只需几张卡即可替代,同时维护成本也大幅降低。

对于存储方面,过去UCloud使用本地盘存储但容易出现坏盘或者掉卡维护麻烦;现在采用RSSD云盘作为后端存储机群核心是基于NVMe SNAP功能实现了解耦优势包括免装机分钟级交付、三副本安全性增强等特点。此外,由于BlueField-2测试显示相比软件Hyperscan有3.5倍加速,加密方面也可以硬件卸载SSL/TLS/IPSec算法,对SSL/TLS进行加密/解密,对IPSec算法硬件卸载,把CPU释放出来用于其他任务。

最后,在未来目标中UCloud希望实现一张卡支持虚拟化裸金属两种模式,他们还正在基于InfiniBand网络探索如何进一步加速AI和高性能计算。总之,被誉作“智能边缘”的英伟达蓝场系统已经成为许多行业标准,并且正逐步改变全球各个领域的手段方式。在这趟旅途中,无疑被赋予力量的是那些聪明才智的人们,他们通过不断创新,使我们的世界变得更加美好的样子。一言蔽之,“科技永远不会停滞”,而我们每个人都应该积极参与这一过程,让我们的生活更加便捷健康!