LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术-六六导航站

LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

2025-01-07 16:12:04 小编：六六导航站

LeviTor是什么

LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术，结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据集进行训练，有效捕捉复杂场景中的物体运动和交互，基于用户友好的推理流程简化3D轨迹输入，让视频生成技术更加先进和易用。LeviTor的引入为3D物体轨迹控制铺平道路，拓宽创意应用范围，适用于更广泛的用户群体。

LeviTor的主要功能

精确操控物体运动：在从静态图像生成视频时，精确控制物体的运动轨迹。增强创意应用：基于3D轨迹控制，拓宽视频合成的创意应用范围。简化用户输入：用户用简单的2D图像上的绘制和深度调整输入3D轨迹，降低技术门槛。自动提取深度信息和物体掩码：系统自动从图像中提取深度信息和物体掩码，减少用户操作。交互式轨迹绘制：用户交互式地绘制物体轨迹，系统将其解释为3D路径。

LeviTor的技术原理

K-means聚类：对视频对象掩码（mask）的像素进行K-means聚类，得到一组代表性的控制点。深度信息融合：深度估计网络DepthAnythingV2预测相对深度图，并在每个控制点采样深度，为控制点增添深度信息。控制信号构建：结合2D坐标和估计的深度值，构建控制轨迹，轨迹作为视频扩散模型的控制信号。视频扩散模型：将控制信号输入到视频扩散模型中，生成与3D轨迹对齐的视频。用户友好的推理流程：设计用户友好的交互系统，用户用点击和调整深度值输入3D轨迹。

LeviTor的项目地址

项目官网：ppetrichor.github.io/levitorGitHub仓库：https://github.com/qiuyu96/LeviTorHuggingFace模型库：https://huggingface.co/hlwang06/LeviTorarXiv技术论文：https://arxiv.org/pdf/2412.15214

LeviTor的应用场景

电影特效制作：生成逼真的特效场景，减少实地拍摄成本，提高制作效率。游戏动画生成：在游戏开发中，创造动态的游戏背景和角色动画，增强游戏的沉浸感。虚拟现实体验：在VR应用中合成逼真的虚拟环境，为用户提供更加真实的沉浸式体验。增强现实展示：在AR领域将虚拟信息与现实世界无缝结合，用在教育、导航等场景。广告视频制作：制作动态广告视频，吸引观众注意力，提升品牌形象和产品吸引力。