借助其定制的InfeRentia芯片,AMazon的云计算服务部门AMazon Web SeRvice(AWS)减少了对以前使用的NVIDIA图形处理器的依赖。亚马逊周四表示,它已将大部分处理工作从其个人助理Alexa转移到了自己定制设计的专用集成电路(ASiC)芯片上,目的是使所有工作更快,更便宜,然后改善计算机的性能。语音助手。
亚马逊开发人员Sebastien STorMacq在博客文章中写道,将AWS InfeRentia用于某些Alexa技能可将延迟时间缩短25%,成本估计便宜30%。
今天,我们宣布,AMazon Alexa团队已将其基于GPU的机器学习推理工作量的绝大部分迁移到了AMazon Elastic CoMpute Cloud(EC2)Inf1实例,该实例由AWS InfeRentia。与Alexa文本到语音工作负载的基于GPU的实例相比,这导致端到端延迟降低了25%,成本降低了30%。减少的延迟使Alexa工程师可以通过更复杂的算法进行创新,并为我们的客户改善Alexa的整体体验。
STorMacq对InfeRentia的硬件设计进行了如下描述: AWS InfeRentia是由AWS构建的定制芯片,用于加速机器学习推理工作负载并优化其成本。每个AWS InfeRentia芯片均包含四个NeuRonCoRe。每个NeuRonCoRe都实现了一个高性能的脉动矩阵乘法引擎,该引擎大大加快了典型的深度学习操作的速度,例如卷积和转换器。NeuRonCoRes还配备了大容量的片上缓存,从而减少了对外部存储器的访问,从而显着减少了延迟并提高了吞吐量。
Alexa是亚马逊基于云的语音服务,可为AMazon Echo设备和超过14万种型号的智能扬声器,灯光,插座,电视和摄像机提供动力。据该公司称,今天,客户每天将超过1亿台设备连接到Alexa。但是,如果将这些设备安装在办公室或家庭中,那么Alexa的大脑就会部署在AWS上,这样,当拥有Echo或Echo点的人使用私人助手Alexa时,处理是在设备本身上执行的。
当诸如AMazon的Echo系列智能扬声器之类的设备的用户向语音助手询问问题时,该设备会使用其自身的机载处理程序来检测唤醒词(Alexa),然后发送请求。到亚马逊数据中心。然后,Echo将请求发送回AMazon的一个数据中心,以执行多个处理步骤。当AMazon的计算机确定响应时,该响应为文本形式,必须将其翻译成语音助手的可听语言。
但是现在Alexa将使用AMazon开发的第一款芯片AWS AWS InfeRencia,该芯片专门用于加速深度学习计算。亚马逊回忆说: AWS InfeRentia旨在在云中提供较高的推理性能,降低推理的总成本,并允许开发人员轻松地将机器学习与其业务应用程序的功能集成在一起。在他的博客文章中。由于这些芯片是专为这些任务而设计的,因此在完成任务时,它们甚至比GPU更为高效。
于2018年首次宣布,亚马逊的芯片是定制设计的,可加快大量机器学习任务的速度,例如文本到语音翻译或图像识别。诸如亚马逊,微软和Alpahbet Inc.的Google之类的云计算客户已经成为计算机芯片的最大买家,从而导致英特尔,英伟达等公司与数据中心相关的销售激增。
但是,渴望减少对两家行业巨头NVIDIA和Intel的依赖的大型科技公司,正越来越多地放弃传统的芯片厂商来设计自己的定制芯片。苹果本周推出了首批三台Mac电脑(MacBook AIR,内部设计了自己的基于ARM架构的中央处理器。苹果甚至表示,计划在未来两年内将其所有Mac切换到其自己的处理器,而不再使用英特尔芯片。
个人助理Alexa并非唯一一个从InfeRentia处理器中受益的人:该芯片为AMazon的AWS Inf1实例提供动力,该实例可被公众访问并与由GPU提供动力的AMazon G4实例竞争。根据STorMacq的说法,亚马逊的AWS NeuRon SDK使机器学习开发人员可以将InfeRentia用作流行的FRaMeWoRks的目标,其中包括TensoRFlow,PyToRch和MXNet。
除了Alexa,Seb StoMaRcq还指定亚马逊的基于云的面部识别系统RekognITion也将配备该组织的芯片。在他的文章中,他列举了一些使用InfeRentia的外部客户。其中,Snap Inc.用于其SnaPChat应用程序或CondéNast组。保险公司AntheM也使用该芯片。
看到所有这些公司如何用自己的芯片””一无所获””,让自己摆脱被既有芯片公司控制的可能性(如本例中的NVIDIA),真是令人惊讶和激动。也许这最终将滴入常规的PC和其他设备(例如Pi的设备)中。