揭秘:百亿美元 DPU 芯片市场的“三国杀”

全球芯片行业近年来技术、产品、市场的变革,都与摩尔定律的放缓直接相关。AI 芯片就是典型代表,当传统的 CPU、GPU 依靠摩尔定律带来的芯片性能提升不足以满足 AI、大数据的需求时,大量的 AI 芯片应运而生。

继 AI 芯片之后,DPU(Data Processing Unit)芯片又成了各大芯片巨头、互联网巨头、初创公司争相研发的新产品,也是近年来资本热衷投资的方向,所有的参与者都希望在市场爆发前抢占先机。

不同于 CPU 和 GPU,DPU 是典型的应用驱动型芯片,传统芯片巨头有丰富的芯片设计经验但对应用场景的理解不够深入,互联网巨头深刻理解自身业务需求但芯片设计经验不足,初创公司各有所长。

多位业内人士告诉雷锋网,DPU 芯片市场将在 2-3 年后爆发。在全新的 DPU 赛场,谁能脱颖而出主导市场?

1.到底是 IPU 还是 DPU?

探讨新鲜的 DPU,不妨从命名开始。DPU 的概念最早由美国一家名为 Fungible 的初创公司提出,但将 DPU 概念带入大众视野的是英伟达。在 Fungible 提出 DPU 概念的 2019 年,英伟达以 69 亿美元收购了 Mellanox,一年后的 2020 年,英伟达基于 Mellanox 的产品发布了 DPU,DPU 的概念一炮而红。

今年 6 月,英特尔公布了 IPU(Infrastructure Processing Unit,基础设施处理器)的愿景。

英特尔公司数据平台事业部首席技术官 Guido Appenzeller 对雷锋网表示,“DPU 和 IPU 在功能上没有根本性差别,只是命名不同。我个人认为,IPU 这个名称要好很多,因为 IPU 的作用就是处理基础设施功能,这是其与众不同之处。”

“IPU 和 DPU 都有其合理性,目前看将两者画等号问题不大。不过我更倾向于使用 DPU 的命名。”中科驭数 CEO 鄢贵海表示,“如果将处理器按照结构划分,可以分为以控制为中心和数据为中心两大类,DPU 是以数据为中心,强调的是吞吐量、运算的高效性等,以 DPU 命名也比较贴切。”

中科驭数是 2018 年成立于北京的 DPU 初创公司,在 7 月底宣布获得了数亿元的 A 轮融资。

2020 年刚成立,在今年 7 月宣布获得数千万元 Pre-A 轮融资的 DPU 初创公司大禹智芯也更倾向于 DPU 的命名方式。

大禹智芯 CEO 李爽说:“IPU 更多是从应用场景的角度命名,DPU 则是描述产品的功能,如果类比 CPU 和 GPU 的命名方式,我觉得 DPU 更合适。英特尔用 IPU 也很合理,毕竟这类产品还没有形成标准,大公司想要自己定一个标准,而且,IPU 中也包含 intel 的首字母。”

无论是 IPU 还是 DPU,都是全新的命名,那全新的命名代表的是全新的产品吗?李爽和 Guido Appenzeller 认为属于全新的产品。鄢贵海则认为 DPU 只能视为全新的商品,实际上 DPU 的技术已经发展了很多年。

“DPU 是一个 I/O 密集型专用处理器,早在 40 年前,IBM 也有功能类似的产品,他们叫做 I/O 控制器。因此,DPU 的技术要素之前已经存在,只不过当时的重要性没有凸显,如今是通过 DPU 这样一个产品来进行集中体现。”鄢贵海解释。

李爽提出,“我们不应该把重点放在寻找 DPU 的定义上,而应该更多关注 DPU 要解决哪些问题。”

2.为什么需要 DPU/IPU?

“DPU 诞生的背景是带宽与计算性能的增速失调。CPU 的性能从 5-10 年前每年 30% 的增幅,到三年前大概只有每年不到 3% 的性能增幅。而网络带宽每年依旧还有 35% 左右的增长。”鄢贵海指出:“处理性能和带宽增速的比例从原来的大概 1:1,变成了现在的 1:10 左右。”

“当有 10 倍以上的差距时,就需要思考新的架构。因为原来的架构没办法进行平行扩展,这时候就需要专用的系统。所以 DPU 不能简单讲是一颗芯片,它是一个系统。”李爽认为,“DPU 实际上是架构转移。”

Guido Appenzeller 从另外一个维度去解释 IPU 的诞生。“传统数据中心内只有一个主人。而在云中,工作负载和系统则分别属于租户和云系统提供商,我们看到这两种架构开始分离。”他说,“IPU 是一个新兴的架构,专门运行云服务提供商的软件,租赁这些服务器的租户的软件则在 CPU 上运行。”

用一个形象的比喻来解释传统数据中心与云服务提供商数据中心架构的不同,传统的数据中心就像是家庭场景,客厅、厨房、餐厅都在一个大的区域内,有一个明确的主人。而云服务提供商的数据中心则像是酒店,客房、餐厅是分开的,酒店客人和工作人员也同样分开。

Guido Appenzeller 认为 IPU 带来了三个显著优势,首先,加入 IPU 的架构可以清晰地区分租户区和云服务提供商区。其次,可以把基础设施功能转移到专门优化的 IPU 上,实现性能的大幅提升。最后,IPU 把数据中心变成了无磁盘架构,无需再给每台服务器配备磁盘。

根据 Facebook 给出的数据,基于微服务的现代应用占用了大量的 CPU 循环,从 31%-83% 不等,比如在 Web 应用中,83% 的 CPU 循环被用于开销,包括传输、压缩、解压缩、加密等功能。如果把这些开销从 CPU 转移到 IPU,云服务提供商就可以把整个 CPU 租给客户。

鄢贵海也表示,数据中心东西流量与南北流量大约是 4:1,东西流量统计的是数据中心节点之间流量,这表明底层基础设施之间消耗的计算资源远大于对外提供服务消耗的资源。目前来看,网络卸载能力是客户对 DPU 最刚性的需求。

接下来值得关心的问题就是这种新产品的技术路线。

3.有哪些类型的 DPU/IPU?

李爽认为,目前 DPU 有三种技术架构,一种是 Arm 多核或 MIPS 多核,一种是 CPU+FPGA 的架构,一种是 ASIC SoC 的架构。前两种已经被验证过,优劣势也比较明显。多核架构具有通用性,整个技术栈偏软件为主。

Guido Appenzeller 只将 IPU 分为两类架构,第一个是专用 ASIC IPU;第二个是基于 FPGA 的 IPU。“每一类都有自己的优势和劣势。基于 FPGA 的 IPU 能快速实施新协议,应对不断变化的要求或新协议。专用 ASIC IPU 可以实现性能和效率的最大化。

“在美国和中国,六大云服务提供商目前使用基于 FPGA 的 IPU。随着带宽变高,我们看到他们缓慢地转向专用 ASIC IPU。因为存在很多专利协议,所以不会发生快速转变。”Guido Appenzeller 指出 IPU 发展的趋势。

鄢贵海也认同这个趋势,“Arm/MIPS 多核的方式在实际的应用系统中未必能真正发挥优势,FPGA 的方式可以在接口上省去一些功夫,但重要的部分没有突破,我觉得是避重就轻。ASIC 的限制条件更少,能进行更多的定制,实现更大的差异化,差异化越大才能有更大的优势。”

“通过与客户的沟通我们发现,市场对于 DPU 的认可度非常高,但还没有一款很好的 DPU 能够满足客户需求,大家都在期待一款好的产品。”李爽指出市场都在期待一款优秀的 DPU。

这里需要强调的是,虽然目前 IPU/DPU 与智能网卡(SmartNIC)在形态和功能上有一些类似,但他们本质上是不同类别的产品。Guido Appenzeller 解释,IPU 具有本地控制平面,这意味着 IPU 可以控制 CPU,而 SmartNIC 更多的是卸载,由 CPU 管理,处于 CPU 的控制系统中。

4.一款有竞争力的 DPU/IPU 有哪些特性?

正如对于 AI 芯片的评价还没有公认的评价体系,想要评价尚在探索阶段的 DPU 也并不容易。“如果评价 AI 芯片的性能已经很困难,我觉得评价 DPU 的性能会更困难。由于 DPU 本身功能的多样性,导致我们去衡量它的时候需要的不是一个指标而是一套完整的指标。”鄢贵海指出。

比如,衡量 DPU 的网络加速功能,网络带宽是关键指标。DPU 支持虚拟化,OVS 的转发容量又是关键。考量 DPU 的数据压缩/解压缩,加密和解密性能,在非对称的性能中选择哪一个作为关键指标又是问题。

李爽指出,无论如何,DPU 的处理性能一定要大于端口的能力。

Guido Appenzeller 说:“设计一款出色的 IPU 有很多挑战。我认为最难的部分是获得加速器和流水线,因为它们负责做大部分工作,能够确保具有非常高的性能、非常低的延迟,特别是对大规模云提供商影响最大。”

当然,对于一款芯片来说,物理指标,包括性能、功耗和面积依然可以作为衡量一款 DPU 的重要维度。但更重要的衡量维度是整个 DPU 系统,因为 DPU 是典型的场景驱动芯片。

“CPU、GPU 这些传统的芯片都有标准的框架和技术定义,芯片设计公司按照定义去设计芯片,到了用户端最困难的其实是驱动和软件框架。所以最后会发现在芯片硬件性能相似的时候,比拼的是硬件和软件的衔接。”李爽进一步表示,“DPU 是一个全新的系统,没有参考设计。这时候只有充分理解客户的需求,从底层硬件架构到软件设计出一套新型的芯片系统满足客户需求是非常大的挑战。”

“要设计一款有竞争力的 DPU,一定要对场景有非常深刻的理解。”李爽强调。

对于这一点,英特尔已经用产品证明,其首款产品是一款 200G 的 ASIC IPU,是与一家顶级云服务提供商共同合作开发,实现更高的性能,包括数据包处理,安全性和隔离性等。

鄢贵海也说:“像 DPU 这样应用驱动的芯片,其性能最终要体现在应用侧。要在应用侧发挥出 DPU 领先的性能,我认为软件会成为一个重要的瓶颈。”

“这一点我们在之前已经感受到,在做网络二、三层协议卸载的时候,为了能够充分发挥性能,几乎要重构底层的 BSP 网络协议,但同时要保证 API 的不变。”鄢贵海说,“整个 DPU 系统的性能要提升,不仅要对应用层有足够深度的了解,还需要有包括网络、虚拟化、存储、高速总线协议方面的专业知识。因此需要一套非常好的设计方法和流程,将具备不同设计能力,对不同领域有深度了解的人和设计整合起来。”

“英伟达 DPU 的软件栈 DOCA 是在复制了他们在 GPU+CUDA 领域的成功。客户有学习和迁移的门槛,也是需要慎重考虑是否采用的选择。”这是李爽和鄢贵海的共识。因此大禹智芯和中科驭数都是通过在软件层面投入大量的工作,取不同客户需求的最大公约数提供相应功能,在 API 层面尽量兼容客户已有的习惯,最大化降低客户的使用门槛和迁移成本。

“目前我们还没有准备好谈论软件,今年晚些时候会有更多相关消息。”Guido Appenzeller 表示。

那么,DPU 系统的竞争,会朝着什么方向发展?

5. 2-3 年后正式开启 DPU 赛场

有意思的是,此次与雷锋网深度交流的三家 DPU 提供商,硬件路线都各有特色。英特尔是典型的传统芯片巨头的代表,他们拥有 ASIC IPU 和 FPGA IPU 两条产品线。中科驭数选择的是 ASIC IPU 的路线。大禹智芯采用 Arm、FPGA、ASIC 根据场景不同组合的路线。

ASIC 一般而言是在牺牲一定的灵活性的前提下获得高效处理能力。对于采用 ASIC IPU 路线的中科驭数,鄢贵海对灵活性的看法是,“如果分工过于细致但共享度不够,可能会损失效率,但如果有足够的共享程度,分工带来的潜在灵活性损失会被极大弥补,这一点我倒不是特别担心。而过分追求灵活性,也可能丧失 DPU 异构计算的潜力。”

大禹智芯坚持 DPU 的通用性。李爽解释:“我们的目标是构建面向云计算市场的通用 DPU。所以在软件可以复用,硬件采用多种方案。这实际也是降低风险的方式,先配合上层应用定义好软件,在这个过程中不断提取对硬件的定义,减少因为对场景理解不够透彻可能导致的芯片设计偏差。”

据悉,大禹智芯会使用 Arm 的 IP 以及第三方的 FPGA,ASIC 则是自己的芯片团队设计。

至于最终的落地情况,中科驭数 FPGA 版本的 DPU 已经与上交所、华泰证券、中泰证券、国泰君安等十余家头部客户建立合作,其产品的性能、稳定性已经在实际应用场景中验证。即将推出的下一代产品会向数据中心、5G 边缘计算等领域扩展。

大禹智芯首要的目标市场与英特尔一样都是云服务提供商。李爽说,“我们的目标客户是那些对于 DPU 的需求量不小,但又不够支撑其自研的公司。这样对于客户和我们试错成本都比较低。我们的策略是不做定制,要做 DPU 产品服务提供商。”

大禹智芯、中科驭数都把自己定位为中立的 DPU 供应商提供领域通用的芯片,核心的原因还是看到了这一市场未来的前景。头豹研究院预测,中国 DPU 市场规模预计将在 2025 年达到 37.4 亿美元。全球 DPU 市场规模 2025 年预计将达到 135.7 亿美元。

中国 DPU 市场规模,2020-2025 年预测,来源:头豹研究院

报告同时指出,数通市场是 DPU 最大的应用市场,其中裸金属服务其对 DPU 存在刚需。DPU 在电信市场的应用主要为边缘计算场景,渗透率不足 5%。针对智能驾驶领域的 DPU 仍在探索阶段,预计在 2023 年 DPU 才有望布局在智能驾驶领域。

Guido Appenzeller 认为“从根本上来说,运营模式类似云就非常适合采用 IPU。”

“未来 2-3 年市场会爆发,因为现在各家公司的 DPU 从今年开始设计,硬件系统大概需要 2-3 年的时间。我认为近三年大家都没有竞争关系,是在比赛谁先把产品推向市场。”李爽表示。

鄢贵海同样认为,“2-3 年后市场陆续会有 DPU 产品推出,那时候 DPU 的竞争会更强调先进制程、先进封装。我认为未来 DPU 的竞争一定是异构系统的竞争。”

Guido Appenzeller 对于当下 DPU 市场的态度是,“有几家初创公司正在开发 DPU,而且拥有许多有趣的技术和产品,这对所有厂商来说都是非常有益的。从长远来看,我认为云端的几乎每个服务器都会有类似 IPU 的东西,这显然是一个很大的市场。渐渐地,这不再是一个初创市场,而是由大公司主导的市场。”

但除了传统的芯片巨头和初创公司,头部的云厂商们也在自研 DPU 产品。亚马逊云科技(AWS)2013 年开始就开始研究将网络、存储等之前由 CPU 处理的任务卸载到网卡上,并推出了相应的产品。阿里云也在其神龙服务器核心组件中应用了专用芯片,统一支持网络、I/O、存储和外设的虚拟化。

此时,DPU 的性能和成本优势都是竞争的关键。李爽预估,云服务提供商采用 DPU 后可以带来十倍的性能提升,TCO(总体拥有成本)能下降超过 10%。鄢贵海在有很多限制条件下做出的预估更加乐观,TCO 下降可以达到 30%。

让人更加期待的是,当 IPU/DPU 让云服务提供商拥有更强的能力之后,未来可能创造的新产品和新应用。

资本在加持,玩家在增加,传统芯片巨头、初创公司、自研 DPU 的头部云服务提供商,谁会成为最终统治市场的 2-3 家 DPU 提供商?