Nexus-Gen – 魔搭联合华东师范等机构开源的全模态图像生成模型-六六导航站

Nexus-Gen – 魔搭联合华东师范等机构开源的全模态图像生成模型

2025-05-15 17:10:28 小编：六六导航站

Nexus-Gen是什么

Nexus-Gen 是魔搭团队、华东师范大学等机构推出的开源全能图像生成模型，支持同时完成图像理解、生成和编辑任务。Nexus-Gen融合强大的语言模型与扩散模型的能力，基于预填充自回归策略解决传统方法中图像嵌入误差累积的问题。模型在图像质量和编辑能力上达到与 GPT-4o 相当的水平，推动全模态模型领域的发展。

Nexus-Gen的主要功能

图像理解：分析图像内容，生成描述性文本，回答与图像相关的问题。图像生成：根据文本描述生成高质量图像，支持复杂场景和风格的生成。图像编辑：提供多种编辑功能，包括颜色调整、对象添加/删除、风格转换等。

Nexus-Gen的技术原理

架构设计：将输入的文本和图像基于文本 Tokenizer 和视觉编码器（Vision Encoder）转化为嵌入向量，输入到自回归 Transformer 中生成输出的文本 Token 和图像嵌入。图像嵌入用视觉投影器（Vision Projector）对齐到与输入相同的特征空间，基于扩散模型（Vision Decoder）解码为像素级图像。预填充自回归策略：引入预填充自回归策略。在训练阶段，模型用可学习的特殊 Token 填充图像嵌入位置。在推理阶段，模型基于预测图像起始 Token（BOI）后直接预填充特殊 Token，统一训练和推理行为，避免误差累积。统一任务表示：基于统一的任务表示格式，将图像理解、生成和编辑任务整合到一个框架中。所有任务的数据都用类似的消息格式组织，模型学习不同任务之间的协同作用，提升多模态任务的处理能力。双阶段对齐训练自回归 Transformer 训练：基于三阶段训练逐步赋予模型图像生成和编辑能力，最终用高质量数据提升生成质量。扩散模型训练：基于单阶段训练，将输入条件从文本调整为图像嵌入，实现高质量图像重建。

Nexus-Gen的项目地址

GitHub仓库：https://github.com/modelscope/Nexus-GenHuggingFace模型库：https://huggingface.co/modelscope/Nexus-GenarXiv技术论文：https://arxiv.org/pdf/2504.21356

Nexus-Gen的应用场景

创意设计：快速生成艺术作品、插画或概念图，支持风格转换，提升创作效率。内容创作：生成文章配图、视频素材，编辑图像匹配内容主题。广告营销：制作符合品牌风格的广告素材，快速生成产品展示图。教育学习：生成历史、科学或文学场景的图像，增强学习直观性。游戏开发：快速生成游戏场景、角色和道具，支持虚拟现实（VR）和增强现实（AR）应用。