人工智能 · 2024年1月26日

华为AI超算在爆发前夜将引领什么?

超算和AI一直是两个并驾齐驱的赛道。一直以来超算重视硬件算力,一般用于国防、模拟、生物、天文科学研究等领域,比如我国的天河、神威,美国阿贡国家实验室和劳伦斯·利弗莫尔国家实验的米拉和泰坦。

而AI领域,在早期阶段各团队强调在算法和调参上不断优化,而且当时的计算机架构并不适合做卷积神经网络的训练,在CPU上训练出一个模型可能达数年之久。

直到从深度学习的开山鼻祖Geoff Hinton的学生Alex Krizhevsky在GPU上成功训练出突破性的深度神经网络之后,专用于AI硬件的概念才被各界所看重。

对于AI来说,算力与硬件架构同等重要,也就是在这种理念指导下,超算能力在AI的应用开始显得分外重要。

不论从目前国际产业竞争形势亦或是产业自身革新,AI超算背后的硬件和框架如何发展,将会是国内AI下一轮爆发关键基础。在国内AI赛道,华为作为全球顶尖的ICT基础设施和智能终端供应商,已经携“昇腾”处理器给出了完整的AI超算解决方案。

这对于国内AI的研发和应用效率的提升,毫无疑问是一场及时雨。

近日华为出席ISC(高性能计算大会)后,全球AI赛道产业链上下游给予了高度关注。

关键领域没有岁月静好,超算融合AI已风起云涌

国运之争的核心是产业实力的综合竞争,而AI已经成为国运之争中的一环。

国内三十年岁月静好的改革开放红利已经到了战略博弈的临界点,像AI这种尖端产业正在成为大国博弈的桥头堡。

硬件是AI算法迭代的基础,没有技术之上的硬件自主权,就如同只有施工图纸而没有钢筋水泥,难以摆脱被控制的窒息感。

2018年美国公布了超算“Summit”,这台超级计算机是由IBM在英伟达帮助下开发,它的峰值计算能力可以达到每秒20亿亿次。

更重要的,Summit是史上第一台既支持传统计算,也支持运行人工智能应用程序的超级计算机,机器学习和神经网络等运行都可以在其上实现。

今年6月23日,全球超级计算机500强榜单更新,中国以226台部署量位列第一,美国一114台名列第二,日本以30台位居第三。但是在TOP500的榜单系统,有333套采用了英伟达的技术。

我国的AI超算解决方案直到华为的达芬奇架构公布后才有系统的解决方案,中国在AI超算领域的研发和应用,还需要点一把火,加一把劲。

框架和硬件“两开花”,研发标准统一才是“战斗力”

华为在2018年7月创新推出针对AI计算的达芬奇架构,在项目下公布了“昇腾”AI处理器+AI开源计算框架“MindSpore”。

由于华为给出了从硬件到框架一整套的解决方案,特别契合当下AI超算硬件成为新基建的公共特性。

这将会对AI业态造成三个方面的显著正面影响:AI全行业渗透、提升开发效率以及降低算力成本。

1.全栈高算力平台,带动AI全行业渗透

在以往的AI开发中,架构、API、生态和运维都需要专门人才进行支持和管理,开发环境复杂,人才数量少,全球的AI人才供需比只有1%,只有三万核心专家。从行业上看,中国市场含有AI的应用仅有10%,全行业AI渗透率只有4%。

国内AI的研究很火热,2019年斯坦福人工智能索引报告显示中国的人工智能论文数量超过欧盟,但是行业应用有限。

要实现全面超越,形成产业聚集优势,亟需AI超算的基础设施,带动全行业的AI应用和转型。

华为的AI超算解决方案从硬件标准、运算集群和运维管理上都为应用者提供了统一方案。

在硬件标准上,“昇腾”的Da Vinci架构架构中含有Cube、Vector、Scalar三种计算单元,平均算力是业界算力的两倍。

基于“昇腾”处理器的Atlas集群在全球最快AI训练集群的基础上,部署了普惠性的AI开发平台ModelArts和CANN开发工具。

尤其是ModelArts,作为一个“一站式”的开发平台,让AI开发的各个环节,包括数据处理、算法开发、模型训练、模型部署都可以在ModelArts上完成。

这极大地降低了AI开发的门槛。这样一个专供AI的基础性商业超算系统已经成型。

基于这个系统,使用者可以极大减少资源调度成本,降低开发成本,最主要的是降低算力成本。

由于AI正在成为通用目的技术,使用场景会越来越广,同时也意味着后入场的行业引入AI的门票费会越来越高,华为的超算架构让更多场景与AI融合降低了门槛,促进了AI向全行业渗透。

2.自主框架MindSpore,开发态和运行态双重提速

由于华为配合“昇腾”处理器的自主计算框架MindSpore的全场景特性,“开发态”和“运行态”都有优势。

所谓“开发态”是指计算框架非常友好,显著减少模型训练时间和成本。而且能够适应不同的场景,包括端、边缘和云。

“运行态”友好是指能够让整个模型能够用最少的资源产出最高的效能。

MindSpore天然匹配昇腾全场景系列产品,能够让不同类型的算法都可以轻松接入,这无疑降低了研发人员的调试和让代码适应场景的成本。

而且这个计算框架能够实现自动并行,这对与模型的效率则有很大影响,开发者无需投入过多的时间再去修改并行代码,能够更好的专注于模型质量。

以上两点就是计算框架的开发态以及运营态的优势。

更重要的是因为框架针对华为“昇腾”处理器有专门的优化,所以在应用效率上可以更高。

AI+超算处于爆发前夜,行业拐点也如约而至

超算和AI领域的融合,国内很多企业在做相关探索,但大多是有心无力。

为什么是华为率先引领?笔者认为有以下三个因素:

1、 华为拥有技术实力。华为2019研发投入达到1317亿元,研发占比15.3%,拥有85000+专利授权。

2、 华为拥有用户接受度。华为客户国家覆盖170以上,国家级备件中心122家以上,服务伙伴3900个以上。

3、 华为拥有行业高度。华为已经成为民族企业代表,在AI超算领域构建基础框架,不仅有商业价值,也与国内新基建下的AI战略相一致。

华为凭借自身在硬件领域的多年积累和行业前瞻,以创新的达芬奇架构为开端,为国内AI+超算这个关键领域填补了空白。

总而言之,昇腾是SOC、计算平台和产业生态,目前国内基于华为“昇腾”处理器已经有鹏城实验室、上海天文台等多个成功项目。从项目内容上看,既有国家重大项目,又有在天文学这类的尖端学科应用。

本次全球超算大会结束后,“昇腾”受到了各界广泛的关注,在新基建的的热潮中,将为全行业的AI化提供算力加持。

更重要的是,我们很有可能看到国内各界全面拥抱AI超算,同时拥抱华为昇腾AI的局面。

这将成为国内AI转型的关键节点。

此内容为【智能相对论】原创,仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

文|编程浪子

来源|智能相对论(aixdlun)

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册