Infinity-MM – 智源推出的千万级多模态指令数据集
2025-01-26 17:56:05 小编:六六导航站
Infinity-MM是什么
Infinity-MM是智源研究院推出的千万级多模态指令数据集,包含4300万条样本,数据量达10TB。数据集经过质量过滤和去重,确保高质量和多样性,能提升开源视觉-语言模型(VLMs)的性能。智源推出基于开源VLMs的合成数据生成方法,进一步扩充数据集规模和多样性。基于Infinity-MM,智源成功训练20亿参数的多模态模型Aquila-VL-2B,在同规模模型中取得最先进的性能。

Infinity-MM的主要功能
提升开源模型性能:Infinity-MM基于提供大规模和高质量的指令数据,提高开源视觉-语言模型(VLMs)的性能,接近或达到闭源模型的水平。数据集构建:包含4300万条经过严格筛选和去重的多模态样本,覆盖视觉问答、文字识别、文档分析和数学推理等多种类型。合成数据生成:基于开源VLMs和详细的图像注释,生成与图像内容紧密相关的多样化指令,扩充数据集规模和提升数据多样性。模型训练与评估:Infinity-MM数据集用在训练一个20亿参数的VLM,Aquila-VL-2B,模型在多个基准测试中显示出卓越的性能。推动多模态研究:基于提供大规模的高质量数据集,促进多模态AI领域的研究和应用发展。Infinity-MM的技术原理
数据收集与预处理:Infinity-MM的数据来源于多个公开数据集,经过去重和质量过滤,确保数据集的高质量和多样性。合成数据生成方法:图像和指令标记系统:用开源的识别模型(如RAM++)对图片进行自动打标,提取关键信息,形成图像的语义基础。指令标签体系:设计一个三级指令标签体系,涵盖不同层次和种类的指令。图片与指令标签对应关系建立:统计图片标签与指令标签之间的对应关系,快速检索匹配的指令任务标签。问题生成与过滤:指示模型根据图片和指令类型生成具体问题,进行合理性判断。答案生成与过滤:生成问题后,进一步生成相应的指令回答,进行严格过滤,确保与图片内容或任务的匹配性。分阶段训练策略:Aquila-VL-2B模型基于分阶段训练方法,逐步提升模型对视觉信息的理解和处理能力。多模态架构:Aquila-VL-2B模型基于LLaVA-OneVision架构,结合文本塔(Qwen2.5-1.5B-instruct)和视觉塔(Siglip400m)。训练效率提升:智源自研的FlagScale框架对模型训练进行适配,提高训练效率,是原版基于DeepSpeed训练代码的1.7倍。Infinity-MM的项目地址
HuggingFace模型库:https://huggingface.co/datasets/BAAI/Infinity-MMarXiv技术论文:https://arxiv.org/pdf/2410.18558Infinity-MM的应用场景
视觉问答(Visual Question Answering, VQA):基于图像和相关问题的配对数据,训练模型理解和回答关于图像内容的问题。图像字幕生成(Image Captioning):为图片生成描述性的文本,在社交媒体、内容管理和图像检索等领域有广泛应用。文档理解和分析(Document Understanding and Analysis):提取和理解文档中的视觉和文本信息,适用于自动化办公、智能文档处理和信息提取。数学和逻辑推理(Mathematical and Logical Reasoning):训练模型解决数学问题和逻辑推理任务,对于教育技术、自动化测试和智能辅导系统非常有用。多模态交互系统(Multimodal Interaction Systems):结合视觉和语言信息,提升人机交互的自然性和效率,适用于智能助手和客户服务机器人。- 猜你喜欢
-
词魂提示指令
-
ChatGPT Shortcut提示指令
-
Learning Prompt提示指令
-
-
PromptVine提示指令
-
-
-
MJ Prompt Tool提示指令
-
绘AI提示指令
- 相关AI应用
-
AIPRM提示指令
-
Snack Prompt提示指令
-
PublicPrompts提示指令
-
Generrated提示指令
-
LangGPT提示指令
-
AI Short提示指令
-
-
ClickPrompt提示指令
-
PromptHero提示指令
- 推荐AI教程资讯
- Infinity-MM – 智源推出的千万级多模态指令数据集
- FabricDiffusion – 谷歌联合卡内基梅隆大学推出的高保真度3D服装生成技术
- HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集
- App Intents – 苹果推出的集成Siri和Apple Intelligence新框架
- DimensionX – 港科大、清华和生数科技共同推出的单图像生成复杂3D、4D场景框架
- SeedEdit – 字节豆包团队推出的AI图像编辑模型
- HK-O1aw – HKGAI团队联合北大团队推出的慢思考范式法律推理大模型
- AnimePro FLUX – 动漫风格图像生成模型,基于Flux.1 Shnell模型微调
- VideoChat – 开源的实时数字人对话系统,首包延迟低至3秒
- TableGPT2 – 浙大推出整合与处理表格数据的多模态大模型
- 精选推荐
-
词魂2025-01-02提示指令
-
法智2025-01-02法律助手
-
Awesome ChatGPT Prompts2025-01-02提示指令
-
PromptPerfect2024-12-31提示指令
-
ChatGPT Prompt Genius2025-01-02提示指令
-
MJ Prompt Tool2025-01-02提示指令