ColorFlow – 清华和腾讯共同推出的图像序列着色模型-六六导航站

ColorFlow – 清华和腾讯共同推出的图像序列着色模型

2025-01-08 18:09:28 小编：六六导航站

ColorFlow是什么

ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型，能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技术，ColorFlow确保黑白图像序列着色与参考图像颜色一致性，适用于漫画、动画制作等工业应用。ColorFlow在图像序列着色领域基于提升CLIP-IS、降低FID、增加PSNR和SSIM得分及提高AS，展现超越现有技术的卓越性能，为艺术行业提供新的着色标准。

ColorFlow的主要功能

检索增强管道（Retrieval-Augmented Pipeline, RAP）：从参考图像池中提取与输入黑白图像最相关的彩色图像块，指导着色过程。上下文着色管道（In-context Colorization Pipeline, ICP）：基于强大的上下文学习来准确检索颜色身份，采用双分支设计进行着色。引导超分辨率管道（Guided Super-Resolution Pipeline, GSRP）：上采样低分辨率的着色输出，产生高分辨率的彩色图像，增强细节恢复并提高输出质量。

ColorFlow的技术原理

检索增强（Retrieval-Augmented）：基于预训练的CLIP图像编码器生成输入图像和参考图像的嵌入，计算余弦相似度识别最相似的参考图像块，用在后续的着色训练。上下文着色（In-context Colorization）：引入辅助分支“Colorization Guider”整合条件信息，基于U-Net扩散模型逐步整合特征，实现像素级的条件嵌入。用轻量级LoRA（Low-Rank Adaptation）方法对预训练的扩散模型进行微调，保留其着色能力。超分辨率增强（Super-Resolution）：处理着色过程中的下采样问题，减少结构失真。将高分辨率黑白图像与低分辨率彩色输出结合，增强细节恢复，提升输出质量。自我注意力机制（Self-Attention）：在扩散模型中用自我注意力机制，将参考图像和灰度图像放在同一个画布上，提取特征，逐层输入到扩散模型中进行着色。时间步采样策略（Timestep Shifted Sampling）：调整采样策略，强调在更高时间步长上的采样，增强着色过程的效果。屏幕风格增强（Screenstyle Augmentation）：对灰度图像和ScreenVAE输出进行随机线性插值，增强输入图像的风格适应性，提升着色性能。

ColorFlow的项目地址

项目官网：zhuang2002.github.io/ColorFlowGitHub仓库：https://github.com/TencentARC/ColorFlowHuggingFace模型库：https://huggingface.co/TencentARC/ColorFlowarXiv技术论文：https://arxiv.org/pdf/2412.11815在线体验Demo：https://huggingface.co/spaces/TencentARC/ColorFlow

ColorFlow的应用场景

漫画和卡通着色：将黑白漫画或卡通图像转换为彩色版本，适合漫画家和动画制作者在创作过程中快速给线稿上色。老照片修复：为历史上的黑白照片提供颜色，帮助恢复旧时代的照片原貌，增加历史图片的观赏价值。电影和视频后期制作：用在黑白电影的彩色化，或为现代电影制作提供特定的颜色分级效果。艺术创作：艺术家为黑白艺术作品添加颜色，或在创作过程中探索不同的颜色方案。教育和学习：在教育领域，作为工具帮助学生理解颜色对图像的影响，及学习图像处理和计算机视觉的基本概念。