LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型
2025-04-30 14:02:13 小编:六六导航站
LiveCC是什么
LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视频内容,同步生成自然流畅的语音或文字解说。LiveCC 推出 Live-CC-5M 数据集用在预训练,和 Live-WhisperX-526K 数据集用在高质量的监督微调。LiveCC 设计了 LiveSports-3K 基准测试,用在评估模型的实时视频评论能力。实验表明,LiveCC 在实时视频评论和视频问答任务上表现出色,展现出低延迟和高质量的生成能力。

LiveCC的主要功能
实时视频评论:根据视频内容生成连续的、与人类类似的实时评论,适用于体育赛事、新闻播报、教学视频等多种场景。视频问答:回答与视频内容相关的问题,帮助用户更好地理解视频中的事件和细节。低延迟处理:用极低的延迟(每帧小于0.5秒)处理视频流,支持实时应用。多场景适应:适用于多种视频类型,包括体育、新闻、教育、娱乐等。LiveCC的技术原理
流式训练方法:将自动语音识别(ASR)的单词与视频帧按照时间戳密集交错,让模型学习到时间对齐的视觉-语言关系。模拟人类观看视频时的实时感知过程,让模型生成与视频内容紧密相关的评论。大规模数据集:从YouTube视频中提取的ASR字幕构建两个数据集:Live-CC-5M(用在预训练)和Live-WhisperX-526K(用在高质量监督微调)。数据集为模型提供丰富的训练素材。模型架构:基于Qwen2-VL模型架构,结合视觉编码器和语言模型,处理视频帧和文本信息。模型基于自回归的方式预测文本令牌,将视频令牌作为非预测输入。实时推理:在推理阶段,LiveCC模型逐帧处理输入视频,生成实时评论。为提高效率,模型缓存之前的提示、视觉帧和生成的文本,加速语言解码。评估方法:基于LiveSports-3K基准测试评估模型的实时评论能力,用LLM-as-a-judge框架比较不同模型生成的评论质量。LiveCC的项目地址
项目官网:https://showlab.github.io/livecc/GitHub仓库:https://github.com/showlab/liveccHuggingFace模型库:https://huggingface.co/collections/chenjoya/liveccarXiv技术论文:https://arxiv.org/pdf/2504.16030在线体验Demo:https://huggingface.co/spaces/chenjoya/LiveCCLiveCC的应用场景
体育赛事:提供实时评论和赛事分析,增强观众体验。新闻报道:辅助实时新闻解读,提升报道的深度和专业性。教育领域:为教学视频生成讲解,辅助技能培训。娱乐媒体:为影视内容提供实时剧情解读,增加互动性。智能助手:结合视频内容提供实时信息,提升交互体验。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型
- OpenMath-Nemotron – 英伟达开源的数学推理系列模型
- Kimi-Audio – Moonshot AI 开源的音频基础模型
- Firefly Image Model 4 – Adobe 推出的图像生成模型
- Step1X-Edit – 阶跃星辰开源的通用图像编辑框架
- WebSSL – Meta联合纽约大学等机构推出的视觉自监督学习系列模型
- Paper2Code – AI论文自动转为代码的多智能体框架
- EmaFusion – AI初创公司 Ema 推出的多模型融合技术
- Lyria 2 – DeepMind 推出的 AI 音乐生成模型
- Concept Lancet – 宾夕法尼亚大学推出的图像编辑框架
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Soundraw2025-02-24提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
Epagestore.ai2025-02-05法律助手
-
ChatMindAI2025-01-27提示指令