企业向虚拟助手投入巨资
音频和语音对于人工智能的消费者体验至关重要,以至于苹果Siri、亚马逊Alexa等虚拟助手通常被描述为人工智能。这些消费者应用程序的相对成功、演示它们的内在便利性以及为现有电子商务服务创建一个新的销售接触点的可能性,都促使企业对这类人工智能应用程序进行大量投资。
Omdia《企业人工智能合同追踪报告》(Omdia Enterprise AI Contracts Tracker)通过IT服务渠道监控企业在人工智能上的支出,发现31%的合同涉及语言处理,是全部合同中的第二大类。科技、媒体及电信(TMT)和消费电子等行业往往专注于智能手机和数码相机的计算机视觉。相比之下,企业IT行业对数据分析和语言处理更感兴趣。
图1:2020年上半年,在企业人工智能交易中,语言处理位居第二位
Source: Omdia
2020年上半年,虚拟助理是企业人工智能合同数量最大的用例。这种趋势的一个主要驱动力是联系中心和客户服务功能的自动化。前五名中的另外两个用例 ─ “IT工作流自动化”和“网络和IT监视和管理” ─ 也常常包括虚拟助手。特别是网络供应商,一直在积极推广这些作为现有软件定义网络/软件定义广域网(SDN/SD-WAN)解决方案的人工智能附加功能,很多时候是作为通过电信服务提供商提供的白标产品。
图2:按合同划分,虚拟助理是企业人工智能产品的顶级类别
Source: Omdia
另外值得注意的是,过去三个季度,与“视觉”和“分析”相比,Omdia《企业人工智能合同追踪报告》中的“语言”高级类别(包括自然语言处理(NLP)、语音和虚拟助理)一直在强劲增长。
图3:语言处理正在强劲增长
Source: Omdia
企业喜欢虚拟助理,因为它们适合云计算,但现在它们正在向边缘移动
一个虚拟的“助手”有一个名字,并鼓励用户进行个性化的命名,这是用户体验(UX)设计的一个技巧,以推动用户的参与度。更深入地看,虚拟助手往往更多地是单个语音接口后面的多个人工智能应用程序的集合,它们之间存在相当大的脱钩。
首先,在检测所谓的“唤醒词”(比如“嘿,Siri!”或“好的,Google”)以提示应用程序监听命令方面,具有挑战性。第二,低水平的媒体处理,被用于过滤背景噪音和优化下一步的流入音频。第三,需要将语音转换为文本,然后运行NLP算法从用户的言论中提取命令动词及其参数。然后将这些信息发送给后端服务进行操作。这里可能也有人工智能(例如,在搜索或产品推荐应用程序中),也可能是更简单的机器人流程自动化解决方案、在线事务处理应用程序或将服务连接到底层API的中间件。
早期虚拟助理成功的一个重要驱动因素是,它们可以在纯客户机–服务器体系结构中实现,在客户机设备上捕获音频并通过互联网发送到后端服务。这意味着计算密集型处理可以在数据中心进行,对客户端的需求保持在最低限度,并且可以集中管理服务的人工智能元素,从而促进高效的机器学习操作(MLOps)过程。尤其是企业,更喜欢这种选择,因为它提供了独立于设备和平台供应商品牌助手的功能。这种方案应用了标准的云–本地、微服务和服务可靠性工程实践。
然而,随着时间、经验和竞争的不同,这种情况正在发生变化。与任何的用户体验设计挑战一样,响应性很重要,它优先考虑低延迟处理。响应唤醒词的时间被广泛视为一个关键的性能指标,正如第一个内容的响应时间是web应用程序的关键一样。因此,各大厂商都利用其设备芯片系统(SoC)中构建的AI/ML硬件加速,带来更多的设备级的虚拟助手体验。一个例子是苹果在iOS 14中导入了设备级语音转文本功能。
这里还有一个商业要务。平台供应商热衷于将虚拟助手转移到设备上,希望能将企业带到平台上。如果使用平台的设备级人工智能的虚拟助手体验明显更好,供应商希望企业能够选择与平台集成(就像Alexa的技能一样)。因此,无论是在粘性还是收入分享方面,与平台集成的企业将为供应商的生态系统贡献价值。随着时间的推移,供应商可能还希望获得该企业更多的特定应用程序的设备级人工智能处理,从而获得更多的价值。
不仅仅是智能手机吞噬世界的又一个案例
不过,转移到设备上处理并不一定意味着处理将完全转移到智能手机衍生的SoC上。值得注意的是,ARM公司特别热衷于在其高性能图形处理器(GPU)中推广设备级人工智能 ─ 英伟达收购ARM只会加剧这一趋势 ─ 而人工智能的规模将缩小到低端硅。更复杂的以音频为中心的体验,比如苹果在iPhone12和HomePod Mini之间展示的体验,往往需要非常低的延迟来同步设备之间的音频效果,需要在等待状态下非常低的功耗,以及用于语音识别和合成的显著的神经网络加速。
例如,GreenWaves Technologies的GAP处理器设计最初是为超低功耗物联网传感器设计的,通常与LoRA低功耗广域无线网络结合使用。然而,最新的GAP9也有望使用一种新的架构来执行推理,该架构将I/O、电源和资源管理功能从RISC-V核心的计算集群中分离出来。GreenWaves认为这种芯片的主要用途是为所谓的“可听见的”或以音频为中心的设备提供音频。更广泛地说,在媒体处理和噪声消除等音频应用中,人工智能正在得到广泛采用。虽然并不迷人,但这些应用程序的部署非常广泛,并且在这个COVID-19社交距离的时代,这些程序与用户休戚相关。
尽管智能手机衍生的SoC似乎经常吞噬所有其他类别的处理器,但能效的挑战意味着GreenWaves瞄准的市场规模相当大。专用音频设备需要每天充电,这是一件痛苦的事,而且主要移动设备上增加的功率消耗是不可接受的。因此,很可能会有大量的需求将听力和语音处理转移到超低功耗的核心上,即使是在更注重性能的设备中也是如此。