人工智能 · 2024年2月1日

探秘万亿规模的浪潮AI市场攻略

“我宣布这款旗舰机的AI Benchmark测试得分为50926!继续霸榜!”

“今天发布的这款旗舰机型,安兔兔测试中获得超过50万的跑分!”

如果经常观看智能手机旗舰产品的发布会,想必你一定对这些宣布“跑分”结果的热烈场面耳熟能详。对于普通消费者而言,各方跑分的由来或许难以理解,但是分数的高低与一款智能手机性能强弱的关系,都是无比清晰。

与那些面向C端市场的科技产品不同,如今炙手可热的人工智能领域,也有自己的“跑分竞赛”。这其中最受关注的就是MLPerf,作为目前全球最具影响力的AI计算基准评测组织,MLPerf由图灵奖得主大卫·帕特森联合谷歌、斯坦福、哈佛大学等单位共同成立,每年组织全球AI训练和AI推理性能测试并发布排行榜。

在前不久MLPerf公布的2020年推理测试榜单中,一家中国科技企业的产品一举创造了18项全球性能纪录,并且在数据中心AI推理性能上遥遥领先于其他厂商产品。这一消息不仅在AI领域引起了业内人士的重视,也在国内人工智能应用及落地的进程中,受到了更多行业用户的关注。

如果将各方的声音总结一下,可以大致总结为这三点:

1.为何它能在MLPerf测试中一路领跑?

2.对于国内AI领域的整体影响几何?

3.对于产业AI化是否会产生更广泛的联动效应?

起因:向更远处多看一眼

对于这些问题,浪潮AI&HPC总经理刘军心里或许早就有了答案。

如果将MLPerf比喻为一场AI领域的小型奥运会,浪潮NF5488在众多“参赛选手”——全球23家顶尖科技企业和机构中可谓脱颖而出:在数据中心AI性能测试中,全部参与机构提交了507项性能测试数据,浪潮NF5488创造了22个赛项中的13项性能纪录,领先优势明显;在面向深度学习的NVIDIA DGX系统测试中,取得了5项数据中心性能纪录;在Resnet50推理任务测试中,获得54.9万/每秒的全球服务器最好成绩,同比19年纪录提升3倍。

可以说,本次参与测试的浪潮NF5488堪称硕果累累。而从技术创新的角度来看,这些骄人成绩是“果”,但种下果实的“因”,则是在十年以前。

彼时,浪潮服务器的研发人员还不清楚自己琢磨的这个领域和后来火爆的人工智能是否有关联,或许也没有想到智慧计算乃至智算中心会成为产业趋势。

实际上,2007年GPU加速计算理念提出时,在产业界是饱受质疑的。这种同时采用图形处理单元 (GPU) 和 CPU的计算方式,与“摩尔定律”是殊途且不可能同归。

“当时我们意识到,摩尔定律已经有了衰退迹象,即便是从原来的主频增长变成核数增长,持续下去也会对包括超算在内的很多领域产生很大的制约。我们认为异构加速计算,会作为未来产业战略性的方向,一定要在这方面进行投入。”刘军回忆道。

现在如果评价浪潮服务器的技术创新,可以用前瞻性去定义,但是在几年前,这条路浪潮走得不仅寂寞,而且痛苦。刘军表示,在2016年前的那几年,笃定异构加速计算需要不断投入,而且这种投入短期内又见不到回报,压力可想而知。“毕竟当时它的应用主要集中在高性能计算领域,这一块市场比较狭窄,商业回报也不高,在这个领域里去推进异构加速计算的战略,的确有很多的痛苦经历。”

但是,当时浪潮服务器研发团队不是在“赌”,而是基于多年来对于计算力发展趋势的把握。这种预判,从2010年浪潮发布云计算1.0战略,全面拥抱云计算和大数据就开始凸显。与此同时,浪潮服务器还开启了与互联网公司共同研发和设计产品的JDM模式,积极拥抱互联网。

此后几年,通过与CSP大客户建立面向未来应用的联合定制开发与合作形态,浪潮在多节点服务器这一细分市场异军突起。与此同时,研发团队对于“异构加速计算”的长期技术储备和积累也开始彰显。

彼时,在全球服务器大厂对英伟达研发的NVLink计算系统仍抱有怀疑态度的时候,浪潮却在全球率先全力投入研发基于NVLink的高速AI服务器,当时的浪潮NF5288M5(AGX-2)是全球首款在2U空间内高速互联集成8颗最高性能GPU加速器的服务器产品,而且率先支持部署8块NVLink接口的P100 GPU,包括支持NVLink 2.0。

一个业内共识是,这样一个系统从立项到产品面世需要十几个月的开发周期。当其他大厂发现这个趋势并启动立项时,浪潮的领跑优势开始凸显,“我们这款机器出来的时候,整个客户市场的受欢迎程度非常热烈,别人很难想象这样一个(巨大的)客户需求判断,是在十几个月前做出的。”刘军坦言。

显然,这种预判不是赌也不是靠占卜算命,而是浪潮笃定了这一产业趋势,相信AI就是改变未来计算世界核心的技术创新力。

如果观察近几年浪潮服务器的变化,还有一个特点就是在AI领域的“软硬兼施”。外界对于浪潮服务器的品牌印象一直是“偏硬”,实际上其研发团队在AI计算领域很早就在探索软件和生态的支撑环境。从几年前开始专注异构加速,浪潮就拥有了国内唯一一个强大的GPU硬件软件移植优化团队,并且开始从系统架构层面入手,针对硬件、软件和应用等多个维度的优化和创新。

“实话讲,这个特点和对计算本质的认识,确实对浪潮服务器起了非常关键性的作用。”刘军表示,在GPU加速进入到深度学习领域时,研发团队敏锐发掘并开始应用深度学习AI。当时包括很多大型互联网公司也不具备在GPU加速方面的经验,浪潮与业界领先的AI公司在GPU加速和框架优化方面进行了深入合作,进一步对互联网企业在AI计算方面的软件平台、软件框架方面需求进行挖掘和分析,针对客户的痛点进行深入创新。

研发团队当时开发并开源发布了集群版Caffe(Caffe-MPI),此后成功实现了全球首个并行集成版本的UPI,同时还带来了业界最好的扩展性能;此外在自动机器学习领域,浪潮AutoML Suite已经可以实现企业级一站式模型自动构建,支持本地化和云端部署、并行高效模型搜索等能力;在AI算法创新层面,最新研发的AI大模型计算框架LMS,可将NLP智能语言模型参数规模突破73亿,相比业界主流水平提升20倍以上。“另外,我们最早把计算资源管理和调度技术带入到了AI计算领域中,就是现在大家看到的浪潮AI开发平台AIStation,已经成为国内AI客户应用最广泛的AI资源调度平台。”

通过浪潮在服务器产品创新、算力平台创新、算法优化,架构优化等方面的实力展现,外界可以看到其在智慧计算方面的前瞻性和创新能力,这也是本次浪潮AI服务器MLPerf测试中拿下18项全球性能纪录的直接原因。但是如果仅从技术创新角度这一个点去分析,似乎并不能洞悉浪潮服务器在全球市场持续领先的完整内因。

换言之,浪潮的领跑有着自己的内在逻辑,即在AI大势中形成了内部、外部相融合的正向循环,由聚焦新赛道——技术领先——掌握客户需求——市场头部效应——生态建设,再将资源和能力投入到新的赛道和技术领域,周而复始。

所以,在技术创新的背后,这一正循环的形成包括了用户需求和技术积累的积淀,继而才会有市场引领的状态,以及推进生态建设的长远规划布局。

结果:头部效应和护城河

刘军也强调,正是因为在AI领域的提前布局,浪潮服务器才能够在快速兴起的人工智能浪潮里获得了最大的市场份额,最优质的客户。这里面的关键点,正是“最具趋势性和代表性的用户需求”。

在异构计算领域的研发和投入,并不是浪潮维系自身技术领先的保障,近年来正是基于和BAT等互联网巨头的合作,浪潮才会不断了解到这些行业客户的实际需求,并且在解决用户痛点的同时,积累和沉淀了最有价值的创新能力。这种能力在AI应用市场不断成熟的同时,也帮助浪潮自身实现了全栈AI的布局能力。

说到全栈AI布局,目前在数据中心端,浪潮NF5488M5可以提供适用于图像视频、语音识别、金融分析、智能客服等典型AI应用场景的计算能力;在边缘计算方面,浪潮NE5250M5和NE5260M5边缘计算AI服务器,可以胜任各类边缘侧AI应用,适用于AI训练和推理。

在软件平台方面,浪潮开发的AIStation管理套件可以对计算、存储、网络等基础资源进行管理和调度,同时还集成了主流的AI开源框架和深度学习模型,可以向行业用户提供完整的AI开发工作流服务;在应用框架上,浪潮的Caffe-MPI提供多种优化手段,同时面向高性能计算系统保留良好的并行扩展性。

包括前面提到的AutoML Suite、LMS,这些覆盖计算平台、管理套件、框架优化、应用加速的全栈AI整体能力,并不是浪潮关上门“砸”研发投入“砸”出来的,而是和最先应用到AI技术的行业头部客户,在边磨合边迭代的过程中“推敲”出

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册