互联网资讯 / 手机数码 · 2024年2月19日

GPU禁运:仍然存在的“缺口”问题

英伟达和AMD的高端通用GPU禁运事件再次敲响了警钟,国内超算、东数西算、云计算、自动驾驶等行业已明显感到“寒意”。但正如硬币的两面,这一禁令无疑也为国产GPU厂商创造了新的补位机会。

但从GPU市场来看,仍上演着巨大的“落差”情节。在集成GPU市场,英特尔、英伟达、AMD三分天下;独立GPU领域,基本是英伟达和AMD的天下,前者市场份额甚至超出2/3;在GPGPU领域,英伟达更是一骑绝尘。当英特尔、英伟达、AMD通过并购或整合,在GPU+CPU+DPU时代全面布局并掌控话语权的当下,国内GPU厂商仍需奋起直追。

要在GPU领域形成突围之势,国产GPU的性能、生态、应用等均是一环接一环的考验。要在性能层面率先通关,IP的力量不容小觑。在生态层面,是借助CUDA占位还是自建生态,仍是个两难的选择。

风起云涌

GPU的重要性从其市场规模可见一斑。

在多重因素交织影响下,GPU已然完成华丽“蜕变”,从最早用于2D/3D图形的计算和处理,到近年来凭借并行处理和通用计算的优势成为数据中心、5G、AIoT、自动驾驶领域的关键算力的基础设施,GPU市场亦迎来了高速大发展。

据Gartner预测,截至2023年,AIoT、5G应用等将快速拉升全球商用GPU市场,规模有望达到250亿美元,包括PC在内的民用GPU市场也将提升至150亿美元。

在这一风雷激荡的市场,不仅成就了英伟达、AMD等的高歌猛进,也为无数的新进入者提供了逐鹿的舞台。受市场需求以及政策、资本的推动,GPU在国内受到疯狂追捧,国内GPU初创企业如雨后春笋冒出,融资纪录不断刷出新高,多方出击,呈现“星星之火,可以燎原”之势。

要指出的是,GPU随着技术的进阶以及应用的拓展,体系也日益庞杂,按接入类型可分为集成GPU和独立GPU,以应用来区分则有PC GPU、移动GPU和服务器GPU三类;按功能划分,可分为侧重图形图像的渲染GPU和侧重通用计算的GPGPU。

国内初创GPU公司结合自己的优势和阶段性定位,分别采取了不同的切入路线,有的以GPGPU为重,有的直指渲染GPU,也有先期立足GPGPU而后切入渲染GPU或并行推进的,涉及壁仞、沐曦、登临、天数智芯、摩尔线程、励算、深流微、瀚博、芯瞳、格兰菲等等。

作为此次禁运事件的主角,英伟达的A100、H100均是数据中心加速卡,A100拥有540亿晶体管,采用台积电7nM工艺制程,支持FP16、FP32和FP64浮点运算。而H100作为英伟达最新一代数据中心GPU,集成了800亿晶体管,最高1.8万个CUDA核心,采用台积电定制的4nM工艺,已全面投产,合作伙伴50多款基于H100的服务器将在年底前上市。

虽然国内还有一年的缓冲期可以继续备货英伟达的产品(如果可以通过报备和审核),但一年以后很可能还将面临无法拿到最先进产品的可能,不同应用端对此的感受或“冷暖自知”。

应用掣肘

“相对于超算、互联网等应用场景来说,正在飞速发展的自动驾驶汽车领域才是这次训练卡禁售风波的最大受害者。”集微咨询直接断言。

集微咨询进一步指出,因超算中的核心算力还是以CPU为主,且可以用协处理器来配合核心CPU来进行工作,GPGPU的影响在短期内不会对超算应用产生太大的影响。

此外,虽然互联网应用的智能推荐、图像识别等算法也需要大量训练,但集微咨询分析,庆幸的是我国互联网产业已经经历了蓬勃发展时期,目前处于稳定期,算法迭代和应用落地相对比较成熟,目前互联网巨头手中训练资源相对比较平衡,而且各家也都针对自己的业务需求特点开始自研训练芯片,英伟达训练卡的禁售看似对互联网产业影响大,但实际情况比想象得要好一些。

相较之下,自动驾驶端体会的“寒意”或更为明显。

“虽然英伟达没有直接禁售自动驾驶芯片,但自动驾驶算法的训练还是无法绕开云端GPGPU的。国内智能汽车或自动驾驶汽车的产品迭代快速,新车发布周期在缩短,硬件堆叠也在不断增加,摄像头视觉传感器、雷达等硬件模块的单车配置在快速上升,高级别自动驾驶等级的迭代与渗透也在快速发展。从而导致自动驾驶算法迭代也要跟上步伐,算法的迭代必然以训练为前提,训练量的增加必定会反馈在对训练卡性能和需求的提升。” 集微咨询详细解读说。

“更值得注意的是,自动驾驶信息涉及到的数据,大多涉及保密级较高的内容,这部分内容大概率是无法依靠租赁云服务商的训练服务器来解决的。” 集微咨询揭示了国内自动驾驶汽车热闹背后的隐忧。

IP难关

国内GPU初创企业而言,长期、持续的利润支撑才是GPU跨代发展的强劲驱动力,在英伟达、ADM等巨头构筑的高壁垒面前,瞄准目标应用大量的验证及出货是国产GPU必然要越过的难关。

而GPU作为高性能高复杂度的大芯片,想在短期内快速推出相关产品,必然依赖外部IP。而且,近段时间以来,国内GPU厂商以接二连三的点亮和商用来探索发展之道。但除却生态、落地挑战之外,据一位业内人士分析,国内GPU核心基础技术的投入还是不太够,虽然目前研发GPU的公司很多,但绝大部分是license IP模式,而且同质化较为明显。

提及GPU IP,主要有数字和模拟两大IP,每一大IP体系有不同的分类。从模拟IP来看,分为三部分,一是PCIe;二是MeMoRy,涉及DDR5/4、LPDDR5/4等;三是重要的显示IP,即DISPlaypoRt和 HDMI。从数字IP来看,涉及最核心的GPU IP,还有基于RISC-V或ARM的微控制器IP;以及Video编解码如H.264等IP。要注意的是,在GPGPU层面,核心IP大都为厂商自研,也有厂商采用IMagination等训练或推理的IP,且GPGPU不需显示IP。

从理论上来说,自研IP越多,GPU的差异化更明显,但相对而言资金、人员、时间上的成本投入也更高。一家从事GPGPU研发的企业代表告知,GPU IP自研需要36-48个月以及200个工程师,而采用外购IP的方式,可以减少12-18个月开发周期。

不得不说,因设计GPU IP的问题非常复杂,许多最优的解决方案已经获得专利保护,使得GPU 核心IP市场成为少数玩家的阵地。

在PC和服务器GPU领域,核心的GPU IP厂商主要是IMagination、芯原、格兰菲;在移动GPU领域,主要有ARM Mali、IMagination PoweRVR系列,芯原在前几年收购美国嵌入式GPU设计商图芯之后亦有不少授权用户,以及高通的AdREno。高通AdREno从AMD买入,且不对外销售。作为GPU的老牌巨头,英伟达、AMD均有自己的强大GPU IP,英特尔也购买了AMD的GPU IP要在独立GPU市场卷土重来。

整体而言,国内GPGPU企业与国际大厂技术差距约3年,渲染GPU与国际大厂差距约10年左右。要想弥补这一差距,不止要在生态层面发力,提升国内核心IP能力显然是必然要做的功课。

对此业内人士也指出,从GPU IP 供应商来看,国内本土研发存在投入不足、竞争力偏弱、市场窄、技术研发的后续力不明朗等问题。国内想发展GPU,是要想办法让GPU技术链条各个环节上,真金白银投入技术研发的公司生存并慢慢滚动发展。

值得关注的是,尽管火热的ChIPlet开启了 IP的新型复用模式,也为IP 厂商的经营模式带来全新变革,国内GPU IP厂商芯原等也在加速实现以ChIPlet形式的IP芯片化。但集微咨询认为,这除对商业模式带来挑战之外,还要解决设计、die到die接口挑战、封装和制造等层面的难关,难以实现弯道超车。

生态之忧

尽管A100和H100的禁售成为国内GPGPU发展的新催化剂,可以说造就了难得的机会窗口,但要成功“补位”,除了性能差距之外,生态过关显得尤为迫切。

“很多客户用英伟达的训练加速卡已用得非常顺手了,一方面是其性能优异,通用性强,另一方面则是生态,CUDA的运算平台适合各类模型,客户基于此可高效训练或改进自己的算法。”集微咨询表示,“国内在芯片设计上的能力与头部品牌还存在不小的差距,再考虑到软件和生态层面,差距就又会进一步拉大。”

正如一家GPGPU厂商代表所言,GPGPU的生态非常复杂,要求一路打通到应用层,提供面向所有应用的全面支持,甚至要自主开发以支持一个新的应用领域。

尽管禁运有一年的缓冲期,但一年以后呢?很可能还将面临无法拿到最先进产品的可能。虽然英伟达也放话说可提供一些相对低端的性能不及A100的产品让客户通过堆叠等来实现相应的算力,但这仍将大幅影响训练的成本和效率。

因而,集微咨询认为,虽然国内在GPGPU领域实现了一些国产替代,但在性能上要达到A100水平,短期内还不现实。此外,更大的阻力来自生态,虽然众多国产GPGPU公司芯片都支持兼容CUDA,但兼容度和兼容水平无法量化,各家的产品水平标准也不统一,这必定会增加算法工程师的使用和学习成本。

因而集微咨询分析,兼容是捷径,但不是终点,从长远来说一定要建立自己的生态。国内GPGPU厂商还应风物长宜放眼量。

无疑,美对我国芯片行业的全面围剿将形成一道新的半导体“铁幕”,也将不断加速国产芯片自主化的进程,但要从弱到强,从低端到高端,显然是一场以数年为计的长征之路。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册