互联网资讯 · 2024年4月25日

【算力先锋】并行科技董事长陈健:用户需求决定大模型的超算架构和算力调度

激烈的百模大战伴随着科技同行对GPU算力的哄抢,大模型竞争的焦点竟不在大模型本身,而在算力。

积极建设算力基础设施确是一条看得见也做得到的突破路径,这引爆了从资本对算力概念股的热情。北京并行科技股份有限公司去年11月于北交所上市,作为国内领先的超算云服务和算力运营服务提供商,并行科技对算力这一路径看得更早、更清晰。

算力短缺的解法是什么?算力调度的难点在哪?AI大模型的计算成本如此高,有哪些方法能够降低成本?国产算力如何加速国产替代?

算力豹邀请并行科技董事长、总经理陈健博士接受专访,在近一个小时的交谈中,细致拆解上述问题。

算力先锋

一、大模型训练底层为超级计算机,超算算力熟练上车

为获得AI大模型算力的及时雨,人们竭力榨干了GPU的每一滴算力,事实上,超级计算机也可以用于支持大模型训练。本月初,微软和OpenAI的StaRgate(星际之门)秘密计划被The information曝光,双方准备花费1000亿美金建设超级计算机,在陈健博士看来,这一举动是在向全世界宣布:大模型训练的底层是超级计算机。

算力先锋

诚然,大模型从训练到推理的技术链条都依赖于云计算中心,国内外不少科技巨头都横跨了云基础设施与大模型,尽可能地腾挪手中算力资源以满足大模型训练刚需。在陈健博士看来,超大规模的训练必须使用超级计算机,他还指出一个现象,云计算及其服务商正在积极学习超级计算机的逻辑、超算业务的运营方式,对计算中心在进行改造。

大模型训练需要的是一个明确的超级计算机,它的调度也是有利于推理的。陈健博士说道。具体来说,超级计算的服务器之间的计算带宽配比更大,是云计算的计算网络带宽的数十倍,数据传输效率要求更高。在应对计算挑战方面,超算架构通过高速互联网络把GPU服务器紧耦合在一起,以并行计算技术实现单一大模型训练应用的高性能计算(HPC);而云计算架构主要对海量并发任务实现高通量计算(HTC),并不适合处理单一大规模计算任务。

伴随着我国超算的稳健发展,并行科技深耕超算算力服务十余年,并在大模型到来的这一刻交互出新的弧光。并行科技从2015年开始从事超级计算机大集群调度,从超算算力开始展开算力服务的版图,目前旗下超算云已成为中国科研用户首选的计算资源平台。根据弗若斯特沙利文,从收入规模角度,2021年并行科技通用超算云收入约1.3亿元,对应市场份额为20.3%,行业排名第一。

算力先锋

超算云竞争格局分析;资料来源:沙利文

算力服务是一种经营,算力服务即将算力资源整包下来再寻找用户进行匹配。他透露,公司算力服务当前在总业务所占比例越来越大,去年公司收入接近5亿。

以算力网络为依托,以利用率为核心,并行科技的主要服务包括并行通用超算云、并行行业云、并行AI云以及设计仿真云等。根据用户需求,并行科技如今业务主要朝两个方向着力,一是聚集已采购的算力资源来服务用户,据了解,并行科技现已与广州、无锡、长沙、济南和深圳等地的各类超算中心建立稳定合作关系;二是在当前国产智算算力陆续上线的背景下,服务国产GPU所需的智算算力。

算力先锋

算力先锋

2023年,并行科技先后与宁夏联通、广东联通、上海联通等达成算力合作

目前,并行科技拥有约65万个超算云计算核心,具备成熟且强大的技术服务能力,与阿里云、华为云等头部企业处在同一梯队。陈健博士强调,此处提到的云计算指得是超算/智算的算力云服务,其底层架构是超级计算机,而不是传统认识中的云计算虚拟机。

二、大模型带飞AI云业务增260%,智算中心项目有序推进

大模型的加速迭代与应用落地,推动了智能算力需求的激增,大模型的链式反应也传导到智算中心。

算力先锋

AI训练量的增长趋势和中国智算算力市场预估

对于智算中心,计算能力是大模型对其的基本要求,运行稳定和高性能是核心需求。陈健博士分析说,超算算力和智算算力的基础架构一致,涉及的超级计算只需从使用CPU转变成使用GPU。无论是计算架构的相似性,还是大模型对于计算过程的性能要求,都契合了并行科技于2020年左右开启的AI云业务。

算力先锋

阿姆达尔定律揭示的核心数和加速比图例

在国产替代的征途上,并行科技真枪实弹上阵,以最精装的团队支撑最前沿的国产GPU。据陈健博士介绍,并行科技的应用部凝聚百余位技术与研发人员,同时设立了国产算力事业部,为国产算力服务,支持国产算力上在原有CPU和GPU上的程序移植测试优化,所支持的国产GPU平台目前已基本趋于成熟。

算力先锋

PAC全国并行应用挑战赛

综合来看,并行科技公司在业务规模、技术能力、行业人才培养等方面均保持较高水平。据报道,并行科技在2023年上市之际谈道,公司将提供包括超算中心选型配置、超算中心运营、超算云服务等在内的全链路算力资源运营服务。

结语:发力算力租赁和国产替代,助力国产算力挑大梁

无论是下游百模大炼钢铁,还是上游抢建智算中心,都显露出行业在日新月异的AI竞赛里算力焦虑。在采访过程中,陈健博士妙语连珠、深入浅出地从技术、应用和市场方面洞悉问题本质,给出算力租赁和国产替代等多种路径,展示了并行科技的算力资源整合与调度能力优势,以及其作为一家算力服务商在行业中的实践示范。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册