在数字信息飞速发展的今天,视频数据的规模呈爆发式增长,长视频的高效处理与理解成为亟待解决的难题。近期,蚂蚁集团和中国人民大学联合推出的视觉语言模型 ViLAMP(VIdeo-LAnguage Model with Mixed Precision),为这一问题带来了创新性的解决方案。

ViLAMP:高效处理长视频的视觉语言模型
独具匠心的混合精度策略
ViLAMP 的核心亮点在于其独特的混合精度策略。该策略借鉴了人类观看视频的行为习惯,即重点关注关键场景,而对过渡时空信息快速扫描。在处理视频时,对关键帧保持高精度分析,确保重要信息的完整捕捉;而对于非关键帧,则进行强力压缩,去除冗余信息,从而显著降低计算成本,提高处理效率。
针对长视频的关键技术突破
-
差分关键帧选择 :基于贪心算法,最大化与用户 Query 的相关性,同时通过差分机制降低帧间冗余,确保选中的关键帧既重要又多样化,能够从时间和内容维度准确捕捉视频的关键信息。
-
差分特征合并 :对于非关键帧,采用差分加权池化,将每个非关键帧的多个 patch 合并为单个 token,赋予与用户 Query 相关且具有独特性的 patch 更高的权重,同时降低与关键帧重复的 patch 的权重,在减少计算量的同时保留关键信息。
卓越的性能表现
ViLAMP 在多个视频理解基准测试中展现出色性能,在单张 A100 GPU 上能处理长达 1 万帧(约 3 小时)的视频,同时保持稳定的理解准确率。在 Video-MME 等五个主流视频理解基准上全面超越现有方案,尤其在长视频子集上,相比此前最佳模型提升 4.8%。其提出的 VideoNIAH 任务中,处理 10K 帧视频时仍能达到 58.15% 的准确率,超越基线模型 12.82%。
广泛的应用前景
ViLAMP 的高效视频处理能力使其在众多领域具有巨大的应用潜力。在在线教育领域,可快速分析教学视频中的重点内容,为学生提供精准的学习推荐;在视频监控中,能高效识别异常行为并及时预警;在直播分析方面,可实时理解直播内容,实现精准的广告投放和内容推荐。
开源推动技术发展
蚂蚁和人大开源了 ViLAMP-7B,为研究者提供了实验平台和创新基础,有助于推动长视频理解技术的进一步发展和应用,让更多人享受到技术创新带来的便利。
ViLAMP 的出现,标志着长视频理解领域迈出了重要一步。随着技术的不断完善和优化,未来必将在更多场景中发挥重要作用,为人们的生活和工作带来更多的可能性。