StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架-六六导航站

StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架

2025-05-15 16:46:27 小编：六六导航站

StreamBridge是什么

StreamBridge 是苹果公司与复旦大学联合推出的端侧视频大语言模型（Video-LLMs）框架，能帮助 AI 实时理解直播流视频。框架基于内存缓冲区和轮次衰减压缩策略支持长上下文交互，引入轻量级激活模型实现主动响应功能。研究团队推出包含约 60 万个样本的 Stream-IT 数据集，提升流式视频理解能力。在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上的测试显示，StreamBridge 显著提升模型在多轮实时理解和主动响应方面的能力，在流式视频理解领域展现出强大潜力。

StreamBridge的主要功能

多轮实时理解：支持长上下文的多轮交互，在处理最新视频片段时保留历史视觉和对话上下文。主动响应：模型能像人类一样主动监控视频流，在无明确指令的情况下及时输出反馈。灵活集成：支持无缝集成到现有的视频大语言模型中，无需对基础模型进行大规模修改。数据支持：提供大规模的流式视频理解数据集Stream-IT，包含约60万个样本，支持多样化的指令格式，用在训练和优化模型。

StreamBridge的技术原理

记忆缓冲区：存储和检索视频帧的嵌入信息，支持多轮交互。每个新视频帧被独立编码追加到缓冲区中。当接收到用户查询时，缓冲区中的内容被扁平化为一个单一的输入嵌入序列，送入语言模型进行响应生成。轮次衰减压缩策略：在每次响应生成之前，如果输入嵌入的长度超过预定义的最大长度，模型从最早的对话轮次开始，逐帧合并视觉标记，直到总长度低于最大长度。合并操作基于平均池化实现，确保最近的视觉上下文被保留。轻量级激活模型：激活模型是独立的轻量级多模态大语言模型（MLLM），与主视频大语言模型并行运行。激活模型接收当前帧（及用户查询和可选的前几帧）作为输入，输出一个二进制信号，指示主模型是否生成响应。激活模型用一个得分头进行二分类（是否响应），在训练时引入一个可学习的激活标记，监督激活时机。Stream-IT数据集：基于从大规模视频字幕语料库中筛选语义相关的短片段，生成多轮问答序列，模拟真实的实时用户交互。数据集包含约60万个样本，支持多种任务格式，如密集视频字幕、顺序步骤识别、基于视频的问题回答等。