互联网资讯 · 2024年4月25日 0

【算力先锋】并行科技董事长陈健:用户需求决定大模型的超算架构和算力调度

激烈的百模大战伴随着科技同行对GPU算力的哄抢,大模型竞争的焦点竟不在大模型本身,而在算力。

积极建设算力基础设施确是一条看得见也做得到的突破路径,这引爆了从资本对算力概念股的热情。北京并行科技股份有限公司去年11月于北交所上市,作为国内领先的超算云服务和算力运营服务提供商,并行科技对算力这一路径看得更早、更清晰。

算力短缺的解法是什么?算力调度的难点在哪?AI大模型的计算成本如此高,有哪些方法能够降低成本?国产算力如何加速国产替代?

算力豹邀请并行科技董事长、总经理陈健博士接受专访,在近一个小时的交谈中,细致拆解上述问题。

【算力先锋】并行科技董事长陈健:用户需求决定大模型的超算架构和算力调度

一、大模型训练底层为超级计算机,超算算力熟练上车

为获得AI大模型算力的及时雨,人们竭力榨干了GPU的每一滴算力,事实上,超级计算机也可以用于支持大模型训练。本月初,微软和OpenAI的StaRgate(星际之门)秘密计划被The information曝光,双方准备花费1000亿美金建设超级计算机,在陈健博士看来,这一举动是在向全世界宣布:大模型训练的底层是超级计算机。

【算力先锋】并行科技董事长陈健:用户需求决定大模型的超算架构和算力调度

诚然,大模型从训练到推理的技术链条都依赖于云计算中心,国内外不少科技巨头都横跨了云基础设施与大模型,尽可能地腾挪手中算力资源以满足大模型训练刚需。在陈健博士看来,超大规模的训练必须使用超级计算机,他还指出一个现象,云计算及其服务商正在积极学习超级计算机的逻辑、超算业务的运营方式,对计算中心在进行改造。

大模型训练需要的是一个明确的超级计算机,它的调度也是有利于推理的。陈健博士说道。具体来说,超级计算的服务器之间的计算带宽配比更大,是云计算的计算网络带宽的数十倍,数据传输效率要求更高。在应对计算挑战方面,超算架构通过高速互联网络把GPU服务器紧耦合在一起,以并行计算技术实现单一大模型训练应用的高性能计算(HPC);而云计算架构主要对海量并发任务实现高通量计算(HTC),并不适合处理单一大规模计算任务。

伴随着我国超算的稳健发展,并行科技深耕超算算力服务十余年,并在大模型到来的这一刻交互出新的弧光。并行科技从2015年开始从事超级计算机大集群调度,从超算算力开始展开算力服务的版图,目前旗下超算云已成为中国科研用户首选的计算资源平台。根据弗若斯特沙利文,从收入规模角度,2021年并行科技通用超算云收入约1.3亿元,对应市场份额为20.3%,行业排名第一。

【算力先锋】并行科技董事长陈健:用户需求决定大模型的超算架构和算力调度

超算云竞争格局分析;资料来源:沙利文

算力服务是一种经营,算力服务即将算力资源整包下来再寻找用户进行匹配。他透露,公司算力服务当前在总业务所占比例越来越大,去年公司收入接近5亿。

以算力网络为依托,以利用率为核心,并行科技的主要服务包括并行通用超算云、并行行业云、并行AI云以及设计仿真云等。根据用户需求,并行科技如今业务主要朝两个方向着力,一是聚集已采购的算力资源来服务用户,据了解,并行科技现已与广州、无锡、长沙、济南和深圳等地的各类超算中心建立稳定合作关系;二是在当前国产智算算力陆续上线的背景下,服务国产GPU所需的智算算力。

【算力先锋】并行科技董事长陈健:用户需求决定大模型的超算架构和算力调度

【算力先锋】并行科技董事长陈健:用户需求决定大模型的超算架构和算力调度

2023年,并行科技先后与宁夏联通、广东联通、上海联通等达成算力合作

目前,并行科技拥有约65万个超算云计算核心,具备成熟且强大的技术服务能力,与阿里云、华为云等头部企业处在同一梯队。陈健博士强调,此处提到的云计算指得是超算/智算的算力云服务,其底层架构是超级计算机,而不是传统认识中的云计算虚拟机。

二、大模型带飞AI云业务增260%,智算中心项目有序推进

大模型的加速迭代与应用落地,推动了智能算力需求的激增,大模型的链式反应也传导到智算中心。

【算力先锋】并行科技董事长陈健:用户需求决定大模型的超算架构和算力调度

AI训练量的增长趋势和中国智算算力市场预估

对于智算中心,计算能力是大模型对其的基本要求,运行稳定和高性能是核心需求。陈健博士分析说,超算算力和智算算力的基础架构一致,涉及的超级计算只需从使用CPU转变成使用GPU。无论是计算架构的相似性,还是大模型对于计算过程的性能要求,都契合了并行科技于2020年左右开启的AI云业务。

【算力先锋】并行科技董事长陈健:用户需求决定大模型的超算架构和算力调度

阿姆达尔定律揭示的核心数和加速比图例

在国产替代的征途上,并行科技真枪实弹上阵,以最精装的团队支撑最前沿的国产GPU。据陈健博士介绍,并行科技的应用部凝聚百余位技术与研发人员,同时设立了国产算力事业部,为国产算力服务,支持国产算力上在原有CPU和GPU上的程序移植测试优化,所支持的国产GPU平台目前已基本趋于成熟。

【算力先锋】并行科技董事长陈健:用户需求决定大模型的超算架构和算力调度

PAC全国并行应用挑战赛

综合来看,并行科技公司在业务规模、技术能力、行业人才培养等方面均保持较高水平。据报道,并行科技在2023年上市之际谈道,公司将提供包括超算中心选型配置、超算中心运营、超算云服务等在内的全链路算力资源运营服务。

结语:发力算力租赁和国产替代,助力国产算力挑大梁

无论是下游百模大炼钢铁,还是上游抢建智算中心,都显露出行业在日新月异的AI竞赛里算力焦虑。在采访过程中,陈健博士妙语连珠、深入浅出地从技术、应用和市场方面洞悉问题本质,给出算力租赁和国产替代等多种路径,展示了并行科技的算力资源整合与调度能力优势,以及其作为一家算力服务商在行业中的实践示范。