CogVLM2 – 智谱AI推出的新一代多模态大模型
2025-05-07 11:56:51 小编:六六导航站
CogVLM2是什么
CogVLM2是由智谱AI推出的新一代多模态大模型,在视觉和语言理解方面实现了显著的性能提升,支持高达8K的文本长度和1344*1344分辨率的图像输入,具备强大的文档图像理解能力。该模型采用50亿参数的视觉编码器与70亿参数的视觉专家模块,通过深度融合策略,优化了视觉与语言模态的交互,确保了在增强视觉理解的同时,语言处理能力也得到保持。CogVLM2的开源版本支持中英文双语,模型大小为19亿参数,但实际推理时激活的参数量约为120亿,展现了在多模态任务中的高效性能。

CogVLM2的改进点
CogVLM2模型相比前代的改进点主要包括以下几个方面:
性能提升:在OCRbench和TextVQA等多个关键基准测试上,CogVLM2的性能有了显著提升,例如在OCRbench上性能提升了32%,在TextVQA上性能提升了21.9%。文档图像理解:CogVLM2增强了对文档图像的理解和问答能力,特别是在DocVQA基准测试中表现出色。支持高分辨率图像:模型支持高达1344*1344像素的图像分辨率,能够处理更高清晰度的图像。支持长文本:CogVLM2支持长达8K的文本输入,这使得模型能够处理更长的文档和更复杂的语言任务。双语支持:CogVLM2提供了支持中英文双语的开源模型版本,增强了模型的多语言能力。CogVLM2的模型信息
CogVLM2开源了两款以Meta-Llama-3-8B-Instruct为语言基座模型的CogVLM2,分别是cogvlm2-llama3-chat-19B和cogvlm2-llama3-chinese-chat-19B,感兴趣的用户可以前往GitHub、Hugging Face或魔搭社区进行下载或在线体验。
模型名称- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- CogVLM2 – 智谱AI推出的新一代多模态大模型
- GPT-4.1 – OpenAI 推出新一代语言模型,支持百万 token 上下文
- Agent Development Kit – 谷歌开源的 AI Agent 开发与部署框架
- MiniMax MCP Server – MiniMax 推出基于 MCP 的多模态生成服务器
- BiliNote – 开源 AI 视频笔记工具,自动提取视频内容生成Markdown格式
- 可灵2.0 – 快手推出的新一代AI视频生成模型
- MedReason – 美国加州联合南洋理工等机构推出的医学推理框架
- Seaweed-7B – 字节推出的视频生成模型
- 交交 – 上海交大推出的口语对话情感大模型
- GLM-Z1-32B – 智谱开源的新一代推理模型
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
ChatMindAI2025-01-27提示指令
-
Epagestore.ai2025-02-05法律助手
-
Soundraw2025-02-24提示指令