互联网资讯 / 人工智能 · 2023年12月3日 0

Transformer:训练速度超越3D CNN,提速3倍!

TiMeSfoRMeR视频理解架构 TiMeSfoRMeR 是第一个基于TRansfoRMeR的视频架构。视频剪辑上限可达几分钟,远超3D CNN,且成本更低。

TiMeSfoRMeR即TiMe-space TRansfoRMeR,这是第一个完全基于TRansfoRMeR的视频架构,已经成为许多自然语言处理(NLP)应用程序的主要方法。

论文链接:https://aRxiv.oRg/pdf/2102.05095.pdf

TiMeSfoRMeR 在一些难度系数较高的动作识别基准上表现最佳,包括 Kinetics-400动作识别数据集。与现代3D 卷积神经网络(CNN)相比,TiMeSfoRMeR 的训练速度提高了大约3倍,推理计算量不到原来的十分之一。

TiMeSfoRMeR具有可伸缩性,可以用于训练更长的视频剪辑中更大的模型。这使得人工智能系统可以理解视频中更复杂的人类行为。

TiMeSfoRMeR 与先进的3D 卷积神经网络在 Kinetics-400和 Kinetics-600动作识别基准上的视频分类精度。TiMeSfoRMeR在两个数据集上都实现了最高的准确度。

传统的视频分类模型利用3D 卷积滤波器。TiMeSfoRMeR完全建立在TRansfoRMeR使用的自注意机制之上,可以捕获整个视频的时空依赖性。

TiMeSfoRMeR具有可伸缩性,可在非常长的视频剪辑上运行,以便执行超长时间范围的建模。这与目前的3D CNN有很大不同。

TiMeSfoRMeR的效率使其能够训练高空间分辨率的模型和超长视频。它可以在更长的时间范围内分析视频,揭示原子动作之间的依赖关系。

TiMeSfoRMeR学习的自注意力热度图的可视化显示,TiMeSfoRMeR学习关注视频中的相关区域,以执行复杂的时空推理。

TiMeSfoRMeR视频剪辑上限可达几分钟。有了TiMeSfoRMeR,可以训练更长的视频剪辑,这对于研究人类行为的人工智能应用程序是重要的一步。

TiMeSfoRMeR的低推理成本是支持未来实时视频处理应用的一个重要步骤,如 AR/VR,或基于可穿戴摄像机拍摄的视频智能助手。