Nexus-Gen – 魔搭联合华东师范等机构开源的全模态图像生成模型
2025-05-15 17:10:28 小编:六六导航站
Nexus-Gen是什么
Nexus-Gen 是魔搭团队、华东师范大学等机构推出的开源全能图像生成模型,支持同时完成图像理解、生成和编辑任务。Nexus-Gen融合强大的语言模型与扩散模型的能力,基于预填充自回归策略解决传统方法中图像嵌入误差累积的问题。模型在图像质量和编辑能力上达到与 GPT-4o 相当的水平,推动全模态模型领域的发展。

Nexus-Gen的主要功能
图像理解:分析图像内容,生成描述性文本,回答与图像相关的问题。图像生成:根据文本描述生成高质量图像,支持复杂场景和风格的生成。图像编辑:提供多种编辑功能,包括颜色调整、对象添加/删除、风格转换等。Nexus-Gen的技术原理
架构设计:将输入的文本和图像基于文本 Tokenizer 和视觉编码器(Vision Encoder)转化为嵌入向量,输入到自回归 Transformer 中生成输出的文本 Token 和图像嵌入。图像嵌入用视觉投影器(Vision Projector)对齐到与输入相同的特征空间,基于扩散模型(Vision Decoder)解码为像素级图像。预填充自回归策略:引入预填充自回归策略。在训练阶段,模型用可学习的特殊 Token 填充图像嵌入位置。在推理阶段,模型基于预测图像起始 Token(BOI)后直接预填充特殊 Token,统一训练和推理行为,避免误差累积。统一任务表示:基于统一的任务表示格式,将图像理解、生成和编辑任务整合到一个框架中。所有任务的数据都用类似的消息格式组织,模型学习不同任务之间的协同作用,提升多模态任务的处理能力。双阶段对齐训练自回归 Transformer 训练:基于三阶段训练逐步赋予模型图像生成和编辑能力,最终用高质量数据提升生成质量。扩散模型训练:基于单阶段训练,将输入条件从文本调整为图像嵌入,实现高质量图像重建。Nexus-Gen的项目地址
GitHub仓库:https://github.com/modelscope/Nexus-GenHuggingFace模型库:https://huggingface.co/modelscope/Nexus-GenarXiv技术论文:https://arxiv.org/pdf/2504.21356Nexus-Gen的应用场景
创意设计:快速生成艺术作品、插画或概念图,支持风格转换,提升创作效率。内容创作:生成文章配图、视频素材,编辑图像匹配内容主题。广告营销:制作符合品牌风格的广告素材,快速生成产品展示图。教育学习:生成历史、科学或文学场景的图像,增强学习直观性。游戏开发:快速生成游戏场景、角色和道具,支持虚拟现实(VR)和增强现实(AR)应用。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- Nexus-Gen – 魔搭联合华东师范等机构开源的全模态图像生成模型
- StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
- Step1X-3D – 阶跃星辰联合LightIllusions开源的3D资产生成框架
- OpenVision – 加州大学开源的视觉编码器家族
- FLUX-Text – 阿里推出的多语言场景文本编辑框架
- MCA-Ctrl – 中科院和中科大推出的图像定制生成框架
- AgentCPM-GUI – 清华联合面壁智能开源的端侧GUI智能体模型
- AG-UI – AI Agent与前端应用交互的开源协议
- DreamFit – 字节联合清华和中山大学推出的虚拟试衣框架
- Minion Agent – 开源的多功能 AI Agent 框架
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Soundraw2025-02-24提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
Epagestore.ai2025-02-05法律助手
-
ChatMindAI2025-01-27提示指令