Paper:《Video-LLaMA : An Instruction-tuned Audio-Visual Language Model for Video Understanding》
Authors: Hang Zhang, Xin Li, Lidong Bing;
Affiliation: The Alibaba DAMO Academy;
Keywords: Multimodal Large Language Models, Cross-modal training.
研发背景
大型语言模型 (LLM)在遵循用户意图和指示上表现出了卓越的理解和理解能力,通常,LLM的用户请求和相应的响应都是文本形式的,然而,由于现实世界的信息通常是多模态的,仅文本人机交互对于许多应用场景来说是不够的。为了进一步开发LLM的潜力,许多研究人员试图赋予LLM理解多模态内容的能力。但大多数方法致力于附加一种模态(即图像或音频),与文本对齐,这对于视频理解来说并不令人满意。
Video-LLaMA利用多模态(图像和音频)增强对视频内容理解。
如下图,Video-LLaMA具有理解静态图片,无音视频和音频的能力。

主要工作:
研究了支持视频输入并允许用户围绕用户上传的视频与计算机聊天的多模态LLM的可能性,该视频通常有多个视频帧和音频。提出了一种多分支跨模态训练模型,将冻结的大预言模型和冻结的图形/音频编码器链接起来,以实现视觉-语言与音频-语言对齐。
如下图所示,设计了两个分支,即视觉语言分支(Vision-Language Branch)和音频语言分支(Audio-Language Branch),分别将视频帧和音频信号转换为与LLM的文本输入兼容的查询表示。

Vision-Language Branch
视觉语言分支旨在使LLM能够理解视觉输入。如图 2 左侧所示,它由一个用于从视频帧中提取特征的冻结预训练图像编码器、一个用于将时间信息注入视频帧的位置嵌入层、一个用于聚合帧级的视频 Q-former 以及一个线性层将输出的视频表示投影到与 LLM 的文本嵌入相同的维度。给定一个视频由 N 帧组成,图像编码器将首先将每个帧/图像映射到 K f K_f Kf图像嵌入向量,产生视频帧表示 V = [ v 1 , v 2 , . . . , v N v_1, v_2, ..., v_N v1,v2,...,

本文介绍了一种名为Video-LLaMA的模型,它是一种基于多模态(图像和音频)的大型语言模型,增强了对视频内容的理解。通过跨模态训练,模型能够在理解和执行用户指令方面表现出色,尤其在处理静态图片、无音视频和音频的视频理解任务上。然而,文章也指出了模型的局限性,如感知能力受限于数据质量和规模,处理长视频的能力以及可能存在的幻觉问题。
836

被折叠的 条评论
为什么被折叠?



