互联网资讯 / 人工智能 · 2023年12月9日

「蝙蝠感知」AI让智能手机实现声音生成3D图像

英国科学家现在找到了一种方法,可以让智能手机和笔记本等日常物品具备类似蝙蝠的环境感知能力,像超胆侠一样厉害。

格拉斯哥大学的计算机科学家和物理学家在《物理评论快报》杂志上发表的一篇论文中概述了这项研究,它可以应用于安全和医疗保健领域。

超胆侠来了!「蝙蝠感知」AI让智能手机听声生成3D图像

这项技术的核心是一种复杂的机器学习算法,它利用反射回声来生成图像,类似于蝠使用回声定位进行导航和狩猎的方式。

研究人员提出的算法能够测量扬声器发出的声音片段或小天线发出的无线电波脉冲在室内空间内发射并返回到传感器所需的时间。

通过巧妙地分析结果,该算法可以推断出一个房间的形状、大小和布局,以及挑选出存在的物体或人。

结果以视频形式显示,将回声数据转化为三维视觉。

超胆侠来了!「蝙蝠感知」AI让智能手机听声生成3D图像

这一研究成果与蝙蝠的回声定位之间的一个关键区别是,蝙蝠有两只耳朵来帮助它们导航,而该算法被调整为与从单点收集的数据一起工作,如麦克风或无线电天线。

超胆侠来了!「蝙蝠感知」AI让智能手机听声生成3D图像

研究人员表示,「该技术可用于通过潜在的任何配备有麦克风和扬声器或无线电天线的设备来生成图像。」

超胆侠来了!「蝙蝠感知」AI让智能手机听声生成3D图像

TuRpin博士表示,动物的回声定位是一种了不起的能力,科学已经成功地以多种不同的方式重新创造了从反射回声中生成三维图像的能力,如RADAR和LiDAR。

这项研究与其他系统的不同之处在于:

首先,它只需要来自单一输入的数据、麦克风或天线就能创建三维图像。

其次,算法可以将任何具有这两件装备中的任何一件的设备变成回声定位设备。

超胆侠来了!「蝙蝠感知」AI让智能手机听声生成3D图像

这意味着这种三维成像的成本可以大大降低,开辟许多新的应用。

比如,通过接收入侵者反射的信号,可以在没有摄像机的情况下保证建筑物的安全。

同样的方法也可以用来追踪养老院中虚弱病人的行动。

甚至可以将系统用于跟踪医疗机构中病人胸部的起伏,提醒工作人员注意他们的呼吸变化。

超胆侠来了!「蝙蝠感知」AI让智能手机听声生成3D图像

该论文概述了研究人员如何使用笔记本电脑的扬声器和麦克风来产生和接收千赫兹范围内的声波。

他们还使用天线对千兆赫兹范围内的无线电频率声音进行了同样的处理。

在每次试验中,研究人员都收集了一个人在房间里走动时对声波的反射的数据。

同时,他们还使用一个特殊的相机记录了房间的数据,该相机使用一个被称为飞行时间的过程来测量房间的尺寸并提供一个低分辨率的图像。

超胆侠来了!「蝙蝠感知」AI让智能手机听声生成3D图像

通过结合来自麦克风的回声数据和来自飞行时间相机的图像数据,研究小组在数百次的重复中训练了他们的机器学习算法,将回声中的特定延迟与图像联系起来。

最终,该算法已经学会了仅从回声数据中生成它自己的高度准确的房间及其内容的图像,使它具有感知周围环境的蝙蝠式能力。

这项研究建立在英国这一研究团队以前的工作基础上,训练了一种神经网络算法,通过使用单像素检测器测量闪光的反射来建立三维图像。

TuRpin博士补充道,「我们现在已经能够利用光和声音证明这种算法机器学习技术的有效性,这非常令人激动。很明显,这里有很多以新方式感知世界的潜力,我们渴望继续探索未来生成更多高分辨率图像的可能性。」

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.