StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
2025-05-15 16:46:27 小编:六六导航站
StreamBridge是什么
StreamBridge 是苹果公司与复旦大学联合推出的端侧视频大语言模型(Video-LLMs)框架,能帮助 AI 实时理解直播流视频。框架基于内存缓冲区和轮次衰减压缩策略支持长上下文交互,引入轻量级激活模型实现主动响应功能。研究团队推出包含约 60 万个样本的 Stream-IT 数据集,提升流式视频理解能力。在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上的测试显示,StreamBridge 显著提升模型在多轮实时理解和主动响应方面的能力,在流式视频理解领域展现出强大潜力。

StreamBridge的主要功能
多轮实时理解:支持长上下文的多轮交互,在处理最新视频片段时保留历史视觉和对话上下文。主动响应:模型能像人类一样主动监控视频流,在无明确指令的情况下及时输出反馈。灵活集成:支持无缝集成到现有的视频大语言模型中,无需对基础模型进行大规模修改。数据支持:提供大规模的流式视频理解数据集Stream-IT,包含约60万个样本,支持多样化的指令格式,用在训练和优化模型。StreamBridge的技术原理
记忆缓冲区:存储和检索视频帧的嵌入信息,支持多轮交互。每个新视频帧被独立编码追加到缓冲区中。当接收到用户查询时,缓冲区中的内容被扁平化为一个单一的输入嵌入序列,送入语言模型进行响应生成。轮次衰减压缩策略:在每次响应生成之前,如果输入嵌入的长度超过预定义的最大长度,模型从最早的对话轮次开始,逐帧合并视觉标记,直到总长度低于最大长度。合并操作基于平均池化实现,确保最近的视觉上下文被保留。轻量级激活模型:激活模型是独立的轻量级多模态大语言模型(MLLM),与主视频大语言模型并行运行。激活模型接收当前帧(及用户查询和可选的前几帧)作为输入,输出一个二进制信号,指示主模型是否生成响应。激活模型用一个得分头进行二分类(是否响应),在训练时引入一个可学习的激活标记StreamBridge的项目地址
arXiv技术论文:https://arxiv.org/pdf/2505.05467StreamBridge的应用场景
实时视频交互:提升视频会议、在线教育等场景的实时互动体验。自动驾驶辅助:实时处理路况视频,辅助自动驾驶决策。智能监控:实时分析监控视频,快速发现异常行为。机器人视觉:助力机器人实时理解环境,实现自然交互。内容创作:辅助视频创作和编辑,提供实时内容分析。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
- Step1X-3D – 阶跃星辰联合LightIllusions开源的3D资产生成框架
- OpenVision – 加州大学开源的视觉编码器家族
- FLUX-Text – 阿里推出的多语言场景文本编辑框架
- MCA-Ctrl – 中科院和中科大推出的图像定制生成框架
- AgentCPM-GUI – 清华联合面壁智能开源的端侧GUI智能体模型
- AG-UI – AI Agent与前端应用交互的开源协议
- DreamFit – 字节联合清华和中山大学推出的虚拟试衣框架
- Minion Agent – 开源的多功能 AI Agent 框架
- Being-M0 – 北大联合人民大学推出的人形机器人通用动作生成模型
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Soundraw2025-02-24提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
Epagestore.ai2025-02-05法律助手
-
ChatMindAI2025-01-27提示指令