Bolt3D – 牛津大学联合谷歌推出的 3D 场景生成技术
2025-04-24 14:37:37 小编:六六导航站
Bolt3D是什么
Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术,是潜在扩散模型,能在单个 GPU 上,仅需不到七秒的时间,直接从一张或多张图像中采样出 3D 场景表示。在英伟达 H100 图形处理单元上,Bolt3D 仅需 6.25 秒能将照片处理成完整的三维场景。

Bolt3D的主要功能
快速生成 3D 场景:Bolt3D 是一种前馈式生成方法,能直接从一张或多张输入图像中采样出 3D 场景表示,生成速度极快,在单个 GPU 上仅需 6.25 秒即可完成。多视角输入与泛化能力:支持不同数量的输入图像,从单视图到多视图均可处理,能生成未被观测区域的内容,具备良好的泛化能力。高保真 3D 场景表示:基于高斯溅射(Gaussian Splatting)技术来存储数据,通过布置在二维网格中的三维高斯函数来构建三维场景,每个函数都记录着位置、颜色、透明度和空间信息,生成的 3D 场景质量高。实时交互与应用:用户可以在浏览器中实时查看和渲染生成的 3D 场景,具有广泛的应用前景,如游戏开发、虚拟现实、增强现实、建筑设计、影视制作等领域。Bolt3D的技术原理
几何多视角潜在扩散模型:训练了多视图潜在扩散模型,用于联合建模图像和 3D 点图。模型将一张或多张图像及其相机位姿作为输入,学习捕捉目标图像、目标点图和源视图点图的联合分布。几何 VAE:训练了几何 VAE,将一个视图的点图和相机射线图联合编码为一个几何潜在特征。模型通过最小化标准 VAE 目标和特定几何损失的组合进行优化,能以高精度压缩点图。高斯头部模型:给定相机以及生成的图像和点图,训练多视图前馈高斯头部模型,输出存储在散点图像中的 3D 高斯的细化颜色、不透明度和协方差矩阵。大规模多视图一致数据集:为了训练 Bolt3D,创建了大规模的多视图一致的 3D 几何和外观数据集,通过对现有的多视图图像数据集应用最先进的密集重建技术来生成。三阶段训练过程:采用三阶段训练过程,首先训练几何变分自编码器(Geometry VAE),然后训练高斯头部模型,最后训练潜在扩散模型。Bolt3D的项目地址
项目官网:https://szymanowiczs.github.io/bolt3darXiv技术论文:https://arxiv.org/pdf/2503.14445Bolt3D的应用场景
游戏开发:快速生成游戏中的 3D 场景,减少开发时间和成本。虚拟现实与增强现实:为 VR 和 AR 应用提供实时的 3D 场景生成,提升用户体验。建筑设计:快速生成建筑的 3D 模型,便于设计和展示。影视制作:用于电影和电视剧中的特效制作,快速生成复杂的 3D 场景。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- Bolt3D – 牛津大学联合谷歌推出的 3D 场景生成技术
- Piece it Together – Bria AI等机构推出的图像生成框架
- TripoSR – Stability AI 联合 VAST 开源的 3D 生成模型
- ModelEngine – 华为开源的全流程 AI 开发工具链
- BizGen – 清华大学联合微软推出的AI信息图生成工具
- Ideogram 3.0 – Ideogram推出的 AI 图像生成模型
- QVQ-Max – 阿里通义推出的视觉推理模型
- TxGemma – 谷歌推出的通用医学治疗大模型
- TripoSG – VAST AI 开源的高保真 3D 形状合成技术
- TripoSF – VAST AI 开源的新一代 3D 基础模型
- 精选推荐
-
元典智库2024-12-31法律助手
-
Supertone2025-02-21提示指令
-
Pheeds Prompt Silo2025-02-07提示指令
-
TextCortex AI2025-02-05法律助手
-
Loudly2025-02-26提示指令
-
Audio Strip2025-02-17提示指令