MVDiffusion:实现高质量多视角图像生成与精确复刻场景材质


逼真的图像生成在虚拟现实、增强现实、视频游戏和电影制作等领域有广泛应用。

随着近两年来扩散模型的快速发展,图像生成领域取得了重大突破。从Stable Diffusion衍生出的一系列根据文本描述生成图像的开源或商业模型,已经对设计、游戏等领域产生了巨大的影响

然而,如何根据给定的文本或其他条件,产生高质量的多视角图像仍然是一个挑战。已有的方法在多视图一致性方面存在明显的缺陷

目前常见的方法可以大致分为两类

第一类方法致力于生成一个场景的图片以及深度图,并得到对应的mesh,如Text2Room,SceneScape——首先用Stable Diffusion生成第一张图片,然后使用图像扭转(Image Warping)和图像补全(image inpainting)的自回归方式生成后续的图片以及深度图。

但是,这样的方案容易导致错误在多张图片的生成过程中逐渐累积,并且通常存在闭环问题(比如在相机旋转一圈回到起始位置附近时,生成的内容与第一张图片并不完全一致),导致其在场景规模较大或图片间视角变化较大时的效果欠佳。

第二类方法通过扩展扩散模型的生成算法,同时生成多张图片,以产生比单张图片更丰富的内容(例如生成360度全景图,或将一张图片的内容向两侧无限外推),例如MultiDiffusion和DiffCollage。然而,由于没有考虑相机模型,这类方法生成的结果并不是真正的全景图

MVDiffusion的目标是生成符合给定相机模型的多视角图片,这些图片在内容上严格一致且具有全局语义统一。该方法的核心思想是同时去噪和学习图片之间的对应关系以保持一致性

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

请点击以下链接查看论文:https://arxiv.org/abs/2307.01097

请访问项目网站:https://mvdiffusion.github.io/

Demo: https://huggingface.co/spaces/tangshitao/MVDiffusion

代码:https://github.com/Tangshitao/MVDiffusion

会议发表:NeurIPS(重点)

MVDiffusion的目标是通过同步去噪和基于图片之间对应关系的全局意识,产生内容高度一致且全局语义统一的多视角图片

具体地,研究人员对已有的文本-图片扩散模型(如Stable Diffusion)进行拓展,首先让其并行地处理多张图片,并进一步在原本的UNet中加入额外的「Correspondence-aware Attention」机制来学习多视角间的一致性和全局的统一性。

通过在少量的多视角图片训练数据上进行微调,最后得到的模型能够同步生成内容高度一致的多视角图片。

MVDiffusion在三个不同的应用场景中已经取得了很好的效果:

根据文字生成多视图,然后拼接以获得全景图

2. 将透视图像外推(outpainting)得到完整的360度全景图;

3. 为场景生成材质(texture)。

应用场景展示

应用1:全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用(根据文字)

以生*景图为例,输入一段描述场景的文字,MVDIffusion可以生成一个场景的多视角图片

输入以下内容可以获得8张多视角图片:“这个厨房是乡村与现代的迷人融合,拥有一个大型的回收木岛台带有大理石台面,一个被橱柜环绕的水槽。岛台的左边是一台高大的不锈钢冰箱。水槽的右边是涂有柔和色彩的内置木制橱柜。”

这8张图片能够拼接成一张全景图:

MVDiffusion也支持为每张图片提供不同的文字描述,但是这些描述之间需要保持语义上的一致性。

应用2:全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用(根据一张透视图像)

MVDiffusion能够将一张透视图像外推(outpainting)成完整的360度全景图。

举个例子,假设我们输入下面这张透视图:

MVDiffusion能进一步生成下面的全景图:

可以看到,生成的全景图在语义上对输入图片进行了扩展,而且最左和最右的内容是相连的(没有闭环问题)。

应用3:生成场景材质

使用MVDiffusion可以为给定的无材质场景网格生成材质(纹理)

具体地,我们首先通过渲染mesh得到多视角的深度图(depth map),通过相机位姿(pose)以及深度图,我们可以获得多视角图片的像素之间的对应关系。

接着,MVDiffusion以多视角depth map作为条件,同步生成一致的多视角RGB图片。

因为生成的多视角图片能保持内容的高度一致,将它们再投回mesh,即可以得到高质量的带材质的mesh(textured mesh)。

以下是更多的效果示例:

全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用




在这个应用场景中,需要特别提到的是,虽然在训练MVDiffusion时使用的多视角图片数据都来自于室内场景的全景图,而且风格都是单一的

然而,MVDiffusion并没有改变原始的稳定扩散参数,而只是对新加入的Correspondence-aware Attention进行了训练

最后,模型依然能根据给定的文本产生各种不同风格的多视角图片(如室外,卡通等)。

需要进行改写的内容是:单视图外推



场景材质生成

我们将首先介绍MVDiffusion在三个不同任务中的具体图片生成流程,最后再介绍方法的核心部分,即「Correspondence-aware Attention」模块。图1展示了MVDiffusion的概览

1. 全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用(根据文字)

MVDiffusion同步生成8张带有重叠的图片(perspective image),然后再将这8中图片缝合(stitch)*景图。在这8张透视图中,每两张图之间由一个3x3单应矩阵(homographic matrix)确定其像素对应关系。

在具体的生成过程中,MVDiffusion首先使用高斯随机初始化来生成8个视角的图片

然后,将这8张图片输入到一个具有多分支的Stable Diffusion预训练Unet网络中,进行同步去噪(denoising)得到生成结果。

其中UNet网络中加入了新的「Correspondence-aware Attention」模块(上图中淡蓝色部分),用于学习跨视角之间的几何一致性,使得这8张图片可以被拼接成一张一致的全景图。

2. 全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用(根据一张透视图片)

MVDiffusion也可以将单张透视图补全*景图。与全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用相同,MVDiffusion将随机初始化的8个视角图片(包括透视图对应的视角)输入到多分支的Stable Diffusion Inpainting预训练的UNet网络中。

在Stable Diffusion Inpainting模型中,与之不同的是,UNet通过使用额外的输入掩码(mask)来区分作为条件的图片和将要生成的图片

透视图对应的视角,掩码设为1,该分支的UNet将直接恢复透视图。而其他视角,掩码设为0,对应分支的UNet将生成新的透视图

同样地,MVDiffusion使用「Correspondence-aware Attention」模块来学习生成图片与条件图片之间的几何一致性与语义统一性。

3. 场景材质生成

MVDiffusion首先基于深度图以及相机位姿生成一条轨迹上的RGB图片,然后使用TSDF fusion将生成的RGB图片与给定的深度图合成mesh。

RGB图片的像素对应关系可以通过深度图和相机位姿得到。

与全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用一样,我们使用多分支UNet,并插入「Correspondence-aware Attention」来学习跨视角之间的几何一致性。

4. Correspondence-aware Attention机制

「Correspondence-aware Attention」(CAA),是MVDiffusion的核心,用于学习多视图之间的几何一致性和语义统一性。

MVDiffusion在Stable Diffusion UNet中的每个UNet block之后插入「Correspondence-aware Attention」block。CAA通过考虑源特征图和N个目标特征图来工作。

对于源特征图中的一个位置,我们基于目标特征图中的对应像素及其邻域来计算注意力输出。

具体来说,对于每个目标像素t^l,MVDiffusion会通过在(x/y)坐标上添加整数位移(dx/dy)来考虑一个K x K的邻域,其中|dx|表示在x方向上的位移大小,|dy|表示在y方向上的位移大小

在实际应用中,MVDiffusion算法使用K=3,并选择9点邻域来提高全景图的质量。然而,在生成受几何条件限制的多视图图像时,为了提高运行效率,选择使用K=1

CAA模块的计算遵循标准的注意力机制,如上图的公式所示,其中W_Q、W_K和W_V是query、key和value矩阵的可学习权重;目标特征不位于整数位置,而是通过双线性插值获得的。

关键的区别是基于源图像中的对应位置s^l与s之间的2D位移(全景)或1D深度误差(几何)向目标特征添加了位置编码。

在全景生成中(应用1和应用2),这个位移提供了本地邻域中的相对位置。

而在深度到图像生成中(应用3),视差提供了关于深度不连续或遮挡的线索,这对于高保真图像生成非常重要。

请注意,位移是一个包含2D(位移)或1D(深度误差)向量的概念。MVDiffusion将标准频率编码应用于位移的x和y坐标


# ai  # map  # github  # 算法  # stable diffusion  # https  # 全景图  # 多张  # 涉及到  # 创建一个  # 图中  # 的是  # 是一个  # 闭环  # 设为  # 掩码 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 利用 DeepSeek 提高敏捷开发中的 Sprint 规划效率  Canva AI工具教程:动漫化图像、生成艺术与定制QR码  钉钉ai划词工具怎么使用划词查词_钉钉ai划词工具查词入口与释义查看【指南】  Depseek怎么生成员工成长总结_Depseek成长维度提取与案例整合【方法】  使用Agent AI Book Cover Creator轻松设计吸睛图书封面  n8n教程:如何用AI自动生成个性化简历  怎么用AI把你的想法变成一幅画?零绘画基础也能当艺术家  教你用AI快速制作思维导图,3步理清所有工作思路  AI面试作弊与反作弊:求职者与企业的博弈  Google AI Studio 中的提示词微调实验教程  通义千问怎样优化提示词合需求_通义千问需求契合技巧【步骤】  探索弦乐器世界:从吉他到卡曼切,乐器全解析  怎么用AI帮你解读复杂的学术论文?快速抓住核心论点和证据  探索都市传说:追寻鳄鱼飞机怪物“Bombardino Crocodilo”  百度输入法全感官ai怎么关 百度输入法全感官皮肤关闭  AI照片编辑终极指南:一键打造潮流图像  海外留学资金证明:无银行流水也能成功申请签证的秘诀  如何用AI帮你把小说改编成电影剧本?3步掌握核心技巧  千问怎么用提示词生成演讲稿_千问演讲稿提示词框架与开场【教程】  MemeGIF Studio:AI驱动的GIF生成器全面评测与使用指南  ChatGPT怎么生成短视频脚本_ChatGPT脚本生成方法【指南】  标准渣打银行电子账单下载完全指南:轻松管理财务  在线歌曲歌词生成器:创意歌词轻松创作指南  豆包AI怎么生成员工成长总结_豆包AI成长指标提取与案例编写【方法】  稿定设计AI抠图怎样调整透明度_稿定设计AI透明度滑块与渐变设置【攻略】  AI简历生成器:提升求职效率的智能工具  Claude怎样用提示词控制输出长度_Claude输出长度设置【教程】  法国历史古迹修复:探秘 Château de Purnon 城堡的艺术与挑战  2025最佳AI效率工具:释放生产力,革新业务运营  提升阅读理解:策略、技巧和有效方法全面指南  畅游长崎:寻找宝可梦与樱花的浪漫之旅  通义千问怎么找新功能入口_通义千问新功能查找【攻略】  一键改变发型:Gemini AI 助你轻松打造时尚造型  批改网AI检测工具怎么生成评分报告_批改网AI检测工具报告生成与维度解读【指南】  Google AI 在教育领域个性化学习路径的构建  使用 Claude 4 和 n8n 实现 AI 工作流自动化  理论框架写作指南:3步构建研究基石  Midjourney怎么用一键生成海报_Midjourney海报生成教程【方法】  Z270 Mini-ITX主板全面评测:为Skylake和Kaby Lake打造迷你主机  探索孟加拉音乐魅力:高尔德普林特莎丽,节日欢歌  AI语音生成器终极指南:免费工具与逼真语音编辑  AI心理测试生成工具有哪些_一键生成趣味测评的AI工具推荐  AI如何一键生成PPT大纲_利用AI工具制作演示文稿方法【教程】  怎么用AI帮你写一份客户感谢信?维系客户关系的利器  即梦AI怎样生成产品描述_即梦AI产品描述生成与卖点提炼【实操】  Sora AI:颠覆视频创作?OpenAI最新文生视频模型深度解析  如何用AI帮你快速理解API文档?开发者必备高效技巧  OpenAI 播客精选:技术内幕、育儿经与AI未来  Filmora AI 语音增强和降噪终极指南  AI周报生成工具有哪些_一键生成工作总结的AI工具推荐 

 2023-10-04

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.