ParGo – 字节与中山大学联合推出的多模态大模型连接器
2025-03-28 14:46:14 小编:六六导航站
ParGo是什么
ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部token和全局token,使用精心设计的注意力掩码分别提取局部和全局信息,在控制token数量的同时增强了局部区域之间的关系建模,考虑图像的细节与全局视角,克服了传统方法中忽视细节的问题。

ParGo的主要功能
高效连接视觉与语言模态:ParGo采用全局+局部视角联合的方式,通过Partial-Global Perception Block(PGP)和Cascaded Partial Perception Block(CPP)两个关键模块,将视觉特征映射为Partial token和Global token,分别提取图像的局部和全局信息,实现了视觉特征和大语言模型(LLM)的高效连接,克服了传统方法对显著区域的过度聚焦问题。提升多模态大语言模型效果:在多个MLLM基准测试中表现出色,如在MME基准测试中相比传统的Q-Former投影器提升了259.96。特别是在强调细节感知能力的任务中,ParGo显著优于其他投影器,能够更准确地进行文字识别、更好地描述图像细节以及更有效地识别局部元素。自监督学习增强上下文理解:在训练阶段引入自监督学习策略,通过预测遮挡部分的内容来增强模型对上下文的理解能力,提高了模型的泛化性能,减少了对大规模标注数据的依赖。ParGo的技术原理
全局+局部视角联合:ParGo采用两种类型的可学习token,基于attention机制,同时从局部和全局视角将视觉特征映射到大语言模型(LLM)中。Partial-Global Perception Block (PGP):在ParGo中,视觉编码器的特征被映射为两种不同类型的token:Partial token和Global token,能够分别提取图像的局部和全局信息。Partial tokens:每个token仅与部分视觉特征进行交互,专注于图像的局部信息。Global tokens:全局token则与所有视觉特征进行交互,捕捉图像的全局信息。Cascaded Partial Perception Block (CPP):ParGo在Partial-Global Perception模块之前引入了Cascaded Partial Perception (CPP)模块。CPP模块的核心是带有特殊设计掩码的自注意力机制,随着层数的增加,每个Partial token能访问到更多的相邻token,逐步扩展其感知范围。自监督学习策略:在训练阶段,ParGo引入了自监督学习策略,即通过预测遮挡部分的内容来增强模型对上下文的理解能力。ParGo的项目地址
Github仓库:https://github.com/bytedance/ParGoarXiv技术论文:https://arxiv.org/pdf/2408.12928ParGo的应用场景
视觉问答系统:ParGo能理解图像中的视觉线索,解析文本中的语义信息,在视觉问答任务中表现出色。图像字幕生成:ParGo在COCO Caption等任务上表现尤为突出,能生成高质量的图像字幕。能描述图像的全局信息,还能捕捉到图像中的局部细节,生成更加准确和丰富的字幕。跨模态检索:ParGo可以用于跨模态检索任务,帮助用户通过文本查询找到相关的图像,或者通过图像查询找到相关的文本。情感分析:ParGo能理解图像和文本中的情感信息,在情感分析任务中提供更准确的结果。 图像内容理解:ParGo可以用于图像内容理解任务,帮助系统更好地理解图像中的细节和全局信息。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- ParGo – 字节与中山大学联合推出的多模态大模型连接器
- MatterGen – 微软推出的无机材料生成模型
- 华人团队迷你GPT-4抢跑看图聊天:OpenAI有的它都有,服务器已被挤爆
- XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架
- Seaweed APT – 字节跳动推出的单步图像和视频生成项目
- “三项能力超过ChatGPT”,科大讯飞星火大模型现场接受观众挑战,写稿制表PPT通通拿下
- OmAgent – Om AI联合浙大开源的多模态语言代理框架
- T2A-01-HD – 海螺AI海外版推出新的语音模型
- Uni-AdaFocus – 清华大学推出通用的高效视频理解框架
- Claude加速上新:基础版数学编程双提升,「幻觉」也更少,CEO:两三年内AI将成高知人类
- 精选推荐
-
元典智库2024-12-31法律助手
-
Noise Eraser2025-02-18提示指令
-
通义千问2025-01-30提示指令
-
Copypage2025-02-19法律助手
-
Content Writer Tools2025-01-30法律助手
-
Guide.AI2025-02-21提示指令