GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器
2025-05-01 16:06:48 小编:六六导航站
GigaTok是什么
GigaTok 是用于自回归图像生成的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜在空间复杂度,解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。GigaTok 采用了一维分词器架构以提高可扩展性,优先扩展解码器以高效分配计算资源,引入熵损失来稳定大规模模型的训练。

GigaTok的主要功能
高质量图像重建:GigaTok 成功地将视觉分词器扩展到 30 亿参数规模,显著提升了图像重建质量。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,在扩展过程中防止潜在空间复杂度过高。提升下游生成性能:GigaTok 在下游自回归生成任务中表现出色,解决了传统方法中重建质量与生成质量之间的矛盾。通过语义正则化和优化扩展策略,GigaTok 在生成任务中实现了更高的质量和更好的泛化能力。优化表示学习:GigaTok 通过扩展视觉分词器规模并结合语义正则化,显著提升了下游自回归模型的表示学习质量。实验表明,使用 GigaTok 训练的模型在线性探测准确率方面取得了显著提升。创新的扩展策略:GigaTok 提出了一维分词器架构,相比传统的二维分词器具有更好的可扩展性。优先扩展解码器,引入熵损失来稳定大规模模型的训练。GigaTok的技术原理
混合架构设计:GigaTok 采用结合 CNN 和 Transformer 的混合架构,实现高效的特征提取和潜在空间编码。编码器部分通过 CNN 块逐步下采样图像,然后通过 Transformer 层和向量量化器生成离散的潜在编码。解码器则通过 Transformer 层和 CNN 解码器将潜在编码重建为图像。支持一维(1D)和二维(2D)分词器,其中 1D 分词器在扩展性上表现更优。语义正则化:为解决分词器扩展时潜在空间复杂度过高的问题,GigaTok 引入了语义正则化技术。通过将分词器的特征与预训练视觉编码器(如 DINOv2)的语义一致特征对齐,约束潜在空间的复杂度。具体而言,通过对比学习框架,强制分词器的中间特征与预训练模型的语义空间对齐,在扩展模型规模时保持生成质量。非对称扩展策略:GigaTok 在扩展编码器和解码器时,优先扩展解码器。能更高效地分配计算资源,同时避免因编码器过度复杂而导致的潜在空间失控。熵损失:GigaTok 引入熵损失来稳定大规模分词器的训练。熵损失通过鼓励更高的码本使用率,确保模型在训练过程中保持稳定,避免因复杂度增加而导致的训练崩溃。GigaTok的项目地址
项目官网:https://silentview.github.io/GigaTok/Github仓库:https://github.com/SilentView/GigaTokarXiv技术论文:https://arxiv.org/pdf/2504.08736GigaTok的应用场景
图像生成与合成:GigaTok 在自回归图像生成方面表现出色,能生成高质量的图像。可以用于艺术创作、游戏开发、虚拟现实等领域,帮助用户快速生成符合需求的图像内容。图像编辑与增强:GigaTok 可以用于图像编辑任务,例如将前景物体无缝融入背景图像中。数据增强与预训练:GigaTok 通过高效的图像分词和重建能力,可以为机器学习模型提供高质量的预训练数据。多模态学习:GigaTok 的语义正则化技术使其能与文本生成模型结合,实现文本到图像的生成。多模态能力可以应用于智能创作、虚拟助手等领域。医学图像处理:GigaTok 的高保真图像重建能力可以应用于医学图像生成和处理,例如生成高质量的医学影像用于诊断或研究。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器
- SkyReels-V2 – 昆仑万维开源的无限时长电影生成模型
- OpenUtau – 开源的AI歌声合成工具,自动适配系统语言
- Gemma 3 QAT – 谷歌推出的最新开源模型,Gemma 3 量化版
- ImagePulse – 魔搭社区开源的图像理解和生成模型数据集
- SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型
- Aether – 上海 AI Lab 开源的生成式世界模型
- Infinite Mobility – 上海 AI Lab 推出的可交互物体生成模型
- ChatTS-14B – 字节开源的时间序列理解和推理大模型
- MAGI-1 – Sand AI 开源的首个自回归视频生成模型
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
ChatMindAI2025-01-27提示指令
-
Epagestore.ai2025-02-05法律助手
-
Soundraw2025-02-24提示指令