互联网资讯 · 2026年5月12日 0

苹果发布三项AI研究,推动空间计算与头显技术发展

5月1日消息,科技媒体报道,苹果公司近日发布了三项新的研究,继续推动空间计算与Vision Pro头显技术的发展。

4月援引媒体报道称,苹果内部已暂停新款Vision Pro的研发,团队重心转向智能眼镜和相关技术。

然而,根据最新公布的研究论文,苹果并未放弃Vision Pro项目。此次发布的三项研究涵盖了多模态大模型的空间推理评测、美式手语视频标注以及3D头部重建等领域。

其中,最直接的研究成果是苹果在机器学习博客上发布的《From What They Are to What They Do: Benchmarking Spatial-Functional Intelligence for Multi-Modal LLMs》。这篇论文介绍了SFI-Bench基准,旨在测试多模态大模型的空间理解能力,评估其在理解物体功能方面的表现。

原文提到,该基准包含134段室内视频,并整理出1555条专家标注的问题。

SFI-Bench不仅询问模型“这是啥、在哪里”,还会追问“它怎么用、出了故障怎么处理”。例如,模型可能需要从柜子里找到同品牌最多的一组瓶子,理解洗衣机当前程序如何取消,或者判断电视遥控器的用途。这种方法更接近日常家庭场景,也更贴近未来空间助手需要处理的真实任务。

测试结果显示,Google的Gemini 3.1 Pro总分最高,OpenAI的GPT-5.4-High排名第二,Gemini-3.1-Flash-Lite排名第三。

不过,论文也指出一个共同短板:几乎所有模型都不擅长“带条件的全局计数”,在空间记忆、功能知识整合方面,还有明显的限制。

手语论文《BootsTrap PING Sign Language Annotations with Sign Language Models》尝试利用AI自动生成标注,减少数百小时的人工标注成本。

原文称,团队建立了近500条人工英文词汇到术语标注,并扩展到超过300小时的ASL STE Wiki和7.5小时的FLEURS-ASL数据。其手指拼写模型在FSBOA上达到6.7%的CER,在ASL Citizen数据集上达到74%的top-1准确率。

第三项研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction》聚焦于3D头像重建。

苹果提出HeadsUp方法,能够从大规模多摄像头集中重建高质量3D Gaussian头部模型。测试使用了超过10000名受试者的内部数据集,规模比现有多视角数据集高出一个数量级。这可能与Vision Pro的Persona或visionOS中更自然的人脸捕捉与表情渲染有关。

苹果公司全球营销副总裁格雷格·乔斯维亚克曾表示,Vision Pro展现了未来世界与物理世界融合的必然性。当被问及具体时间表时,他坦言无法预测“空间计算”何时能成为主流,但坚信这一方向不可逆转。