苹果发布三项AI研究，推动空间计算与头显技术发展

5月1日消息，科技媒体报道，苹果公司近日发布了三项新的研究，继续推动空间计算与Vision Pro头显技术的发展。

4月援引媒体报道称，苹果内部已暂停新款Vision Pro的研发，团队重心转向智能眼镜和相关技术。

然而，根据最新公布的研究论文，苹果并未放弃Vision Pro项目。此次发布的三项研究涵盖了多模态大模型的空间推理评测、美式手语视频标注以及3D头部重建等领域。

其中，最直接的研究成果是苹果在机器学习博客上发布的《From What They Are to What They Do: Benchmarking Spatial-Functional Intelligence for Multi-Modal LLMs》。这篇论文介绍了SFI-Bench基准，旨在测试多模态大模型的空间理解能力，评估其在理解物体功能方面的表现。

原文提到，该基准包含134段室内视频，并整理出1555条专家标注的问题。

SFI-Bench不仅询问模型“这是啥、在哪里”，还会追问“它怎么用、出了故障怎么处理”。例如，模型可能需要从柜子里找到同品牌最多的一组瓶子，理解洗衣机当前程序如何取消，或者判断电视遥控器的用途。这种方法更接近日常家庭场景，也更贴近未来空间助手需要处理的真实任务。

测试结果显示，Google的Gemini 3.1 Pro总分最高，OpenAI的GPT-5.4-High排名第二，Gemini-3.1-Flash-Lite排名第三。

不过，论文也指出一个共同短板：几乎所有模型都不擅长“带条件的全局计数”，在空间记忆、功能知识整合方面，还有明显的限制。

手语论文《BootsTrap PING Sign Language Annotations with Sign Language Models》尝试利用AI自动生成标注，减少数百小时的人工标注成本。

原文称，团队建立了近500条人工英文词汇到术语标注，并扩展到超过300小时的ASL STE Wiki和7.5小时的FLEURS-ASL数据。其手指拼写模型在FSBOA上达到6.7%的CER，在ASL Citizen数据集上达到74%的top-1准确率。

第三项研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction》聚焦于3D头像重建。

苹果提出HeadsUp方法，能够从大规模多摄像头集中重建高质量3D Gaussian头部模型。测试使用了超过10000名受试者的内部数据集，规模比现有多视角数据集高出一个数量级。这可能与Vision Pro的Persona或visionOS中更自然的人脸捕捉与表情渲染有关。

苹果公司全球营销副总裁格雷格·乔斯维亚克曾表示，Vision Pro展现了未来世界与物理世界融合的必然性。当被问及具体时间表时，他坦言无法预测“空间计算”何时能成为主流，但坚信这一方向不可逆转。

chatGPT

近期文章

互联网资讯 · 2026年5月12日 0

苹果发布三项AI研究，推动空间计算与头显技术发展

You may also like...

发表评论取消回复

互联网资讯 · 2026年5月12日 0

You may also like...

未来5年，生鲜行业将更关注AI对商业的颠覆

普华永道发布人工智能技术十大趋势（提供下载）

法拉第未来股票增发提案获通过，助推FF91生产交付

发表评论 取消回复

发表评论取消回复