CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识


aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com  

论文第一作者为中山大学计算机学院研二硕士生陈家豪,研究方向为神经渲染和三维重建,导师为李冠彬教授。该论文是他的第一个工作。论文通讯作者为中山大学计算机学院、人机物智能融合实验室李冠彬教授,博士生导师,国家优秀青年基金获得者。团队主要研究领域为视觉感知、场景建模、理解与生成。迄今为止累计发表 CCF A 类 / 中科院一区论文 150 余篇,Google Scholar 引用超过 12000 次,曾获得吴文俊人工智能优秀青年奖等荣誉。

自被提出以来,神经辐射场(Neural Radiance Fields, NeRF)因其在新视角合成及三维重建中的出色表现而受到极大关注。

虽然大量工作都在尝试改进 NeRF 的渲染质量或运行速度,但一个现实的问题很少被人提及:如果待建模场景中出现了意想不到的瞬态干扰物,我们应该如何消除它们对 NeRF 造成的影响

本文中,来自中山大学、卡迪夫大学、宾夕法尼亚大学和思谋科技的研究人员对此展开了深入研究,并提出了一种解决该问题的新颖范式。

通过总结现有方法的优势缺陷、拓宽已有技术的应用思路,该方法不仅可以在各类场景中准确区分静瞬态元素、提高 NeRF 的渲染质量,还入围了 CVPR 2025 最佳论文候选。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

  • 论文链接:https://arxiv.org/abs/2403.17537
  • 项目链接:https://www.sysu-hcp.net/projects/cv/132.html

让我们一起来了解下这项工作。

背景介绍

新视角合成是计算机视觉和图形学的一个重要任务,算法模型需要利用给定的多视角图像及相机位姿来生成目标位姿对应的图像。NeRF 在该任务上取得了重要突破,但其有效性与静态场景的假设有关。

具体来说,NeRF 要求待建模场景在拍摄过程中保持静止、多视角图像内容必须一致。在现实中,我们很难满足这种要求,例如在户外拍摄时场景以外的车辆或路人可能会在镜头中随机出现移动,在室内拍摄时某个物体或阴影会不经意间遮挡镜头。我们把这类场景以外的表现出运动或不一致的元素称为瞬态干扰物(Transient Distractors)。如果我们不能消除它们,它们会给 NeRF 的渲染结果带来伪影。

                              瞬态干扰物(黄色方框)的存在会导致大量伪影。

目前解决瞬态干扰物问题的方法大致可分为两种。第一种方法使用语义分割等已有分割模型显式地得到与干扰物有关的掩膜,然后在训练 NeRF 时屏蔽对应像素。虽然这类方法可以得到精确的分割结果,但它们并不通用。这是因为我们需要提前得知与干扰物有关的先验知识(如物体类别、初始掩膜等)、并且模型可以识别这些干扰物。

与第一种方法不同,第二种方法在训练 NeRF 时使用启发式算法隐式地处理瞬态干扰物,不要求先验知识。虽然这类方法更加通用,但它们因设计复杂性和高度不适定性而无法准确分离瞬态干扰物和静态场景元素。例如,由于瞬态像素对应的颜色纹理在不同视角下不一致,在训练 NeRF 时该像素的预测值和真值之间的颜色残差往往大于静态像素的残差。然而,场景中的高频静态细节也会因难以拟合而有过大的残差,因此一些通过设置残差阈值来去除瞬态干扰物的方法很容易丢失高频静态细节。

现有方法与本文提出的启发式引导分割(HuGS)之间的比较。当静态场景被瞬态干扰物干扰时,(a)基于分割的方法依赖先验知识,会因无法识别意料之外的瞬态物体(例如比萨)而出现相关伪影;(b)基于启发式的方法更具通用性但不够准确(例如丢失了高频静态桌布纹理);(c)HuGS 结合了它们的优点,能够精确地分离瞬态干扰物和静态场景元素,从而显著改善 NeRF 的结果。

方法概述

基于分割模型的方法准确但不通用、基于启发式算法的方法通用但不准确,那么是否可以把它们结合起来扬长补短、做到既准确又通用呢?

因此,论文作者以「horses for courses」为动机,提出了一种名为启发式引导分割(Heuristics-Guided Segmentation, HuGS)的新颖范式。通过巧妙结合手工设计的启发式算法和由提示驱动的分割模型,HuGS 可以在没有额外先验知识的情况下准确区分场景中的瞬态干扰物和静态元素。

具体来说,HuGS 首先使用启发式算法大致区分多视角图像中的静瞬态元素并输出粗糙提示,然后使用粗糙提示引导分割模型生成更加精确的分割掩膜。在训练 NeRF 时,这些掩膜会被用来屏蔽瞬态像素、消除瞬态干扰物对 NeRF 的影响。

                              HuGS 设计思路。

在具体实现上,论文作者选用 Segment Anything Model (SAM) 作为 HuGS 的分割模型。SAM 是当前最先进的基于提示驱动的分割模型,可以接受点、框、掩膜等不同类型的提示输入并输出对应的实例分割掩膜。

至于启发式算法,作者在深入分析后提出了一种组合启发式:基于 Structure-from-Motion (SfM) 的启发式被用于捕获场景的高频静态细节,而基于颜色残差的启发式被用于捕获低频静态细节。两种启发式算法输出的粗糙静态掩膜互不相同,而它们的并集会被用来引导 SAM 得到更加准确的静态掩膜。通过无缝结合这两种启发式算法,HuGS 在面对不同纹理细节时可以稳健地识别各类静态元素。

HuGS 流程图。(a) 给定带有瞬态干扰物的静态场景下的无序多视角图像,HuGS 首先获得两种启发式信息。(b) 基于 SfM 的启发式算法通过 SfM 来获取区分静态特征点瞬态特征点,然后使用稀疏的静态特征点作为提示引导 SAM 生成稠密的静态掩膜。(c) 基于颜色残差的启发式算法依赖于部分训练(即只经过数千次迭代训练)的 NeRF。其预测图像和真实图像之间的颜色残差可以用于生成另一组静态掩膜。(d) 两种不同掩膜的结合最终引导 SAM 生成 (e) 每个图像的准确静态掩膜。

基于 SfM 的启发式算法

SfM 是一种从二维图像重建三维结构的技术。在提取图像的二维特征后,SfM 会对特征进行匹配和几何验证、重建稀疏三维点云。SfM 在 NeRF 中常被用于估计图像相机位姿,而论文作者发现 SfM 还可以被用来区分场景的静瞬态元素。设某个二维特征点的匹配数量为与其对应相同三维点云点的其他二维特征点数量,那么来自静态区域的二维特征点的匹配数量要大于来自瞬态区域的特征点匹配数量。

基于该发现,我们可以在匹配数量上设置阈值来过滤得到静态特征点,再通过 SAM 将静态特征点转换为静态掩膜。为了验证该发现的正确性,论文作者在 Kubric 数据集上进行了统计。正如下图所示,不同图像区域的特征点匹配数量有显著的差异。另一个可视化结果表明合理的阈值设置可以在去除瞬态特征点的同时保留静态特征点。

左图为来自不同图像区域的特征点在匹配数量上的数量分布直方图,其中静态区域特征点的匹配数量均匀分布在 [0,200] 区间内,而瞬态区域特征点的匹配数量趋近于 0、集中分布在 [0,10] 区间内。右图为经过过滤后不同图像区域的剩余特征点密度随阈值变化的曲线图,其中整张图像与静态区域的剩余特征点密度随着阈值上升呈线性下降,而瞬态区域的剩余特征点密度呈指数下降、并在阈值大于 0.2 后几乎为 0。
两个不同视角图像的剩余特征点随阈值上升而变化的可视化分布情况。位于瞬态区域内的剩余特征点被逐渐去除,而静态区域的大部分特征点仍被保留。

基于颜色残差的启发式算法

虽然基于 SfM 的启发式在大部分场景中表现良好,但它无法很好地捕获静态平滑纹理,这是因为平滑纹理缺乏显著特征、难以被 SfM 的特征提取算法识别。

为了能够识别低频纹理,论文作者引入了基于颜色残差的启发式算法:首先在原始多视角图像上部分训练 NeRF(即只迭代数千次)、得到欠拟合模型,然后获取渲染图像和目标图像之间的颜色残差。正如背景介绍所述,低频静态纹理区域的颜色残差要小于其他类型区域的残差,因此可以在颜色残差上设置阈值获取与低频静态纹理相关的粗糙掩膜。通过颜色残差得到的掩膜可以和通过 SfM 得到的掩膜互补,形成完整结果。

两种启发式算法的组合,其中(a)为输入的目标图像,(d)为只迭代五千次的 NeRF 渲染结果。基于 SfM 的启发式得到的静态掩膜 (b) 在捕获高频静态细节(如盒子纹理)的同时遗漏了静态平滑部分(如白色椅背)。基于颜色残差的启发式得到的静态掩膜(e)及其单独引导 SAM 得到的分割掩膜(f)取得了相反效果。它们的并集(c)在覆盖所有静态元素的同时区分了瞬态干扰物(即粉色气球)。

实验结果

可视化结果

这里展示了 HuGS 在两个不同真实场景下的可视化分割过程,以及基线模型 Mip-NeRF 360 在应用静态掩膜前后的渲染结果比较。在组合启发式算法和 SAM 的帮助下,HuGS 可以生成准确的静态掩膜,而 Mip-NeRF 360 在应用静态掩膜后消除了大量伪影,RGB 图和深度图的渲染质量有明显提升。

定性 / 定量渲染结果比较

这里展示了论文方法在三个数据集和两个基线模型上的实验结果,以及与现有方法的比较。现有方法要么无法消除瞬态干扰物带来的伪影,要么抹除掉过多的静态纹理细节。相比之下,论文方法可以在有效消除伪影的同时更好地保留静态细节。

定性 / 定量分割结果比较

论文作者同样在 Kubric 数据集上与现有分割算法进行了比较。实验结果表明,即使提供了先验知识,语义分割、视频分割等现有分割模型依然表现不佳,这是因为现有分割模型都没有针对该任务进行设计。现有基于启发式的方法虽然可以大致定位瞬态干扰物的位置,但无法得到更加精确的分割结果。与之相比,HuGS 通过结合启发式算法和分割模型,在没有额外先验知识的情况下准确分离瞬态干扰物和静态场景元素。

消融实验结果

论文作者还通过去除不同组件的方式来验证各组件对 HuGS 造成的影响。结果表明,缺少基于 SfM 的启发式的模型 (b) 无法很好地重建蓝色方框中的低频静态纹理,而缺少基于颜色残差的启发式的模型 (c) 和 (d) 丢失了黄色方框中的高频静态细节。相比之下,完整方法 (f) 的数值指标和可视化结果最佳。

全文总结

论文提出了一种新颖的启发式引导分割范式,有效解决了 NeRF 现实训练中常见的瞬时干扰问题。通过战略性地结合手工设计的启发式和最先进的分割模型的互补优势,该方法在没有任何先验知识的情况下实现了对不同场景中瞬时干扰物的高度准确分割。通过精心设计的启发式,论文方法能够稳健地捕捉到高频和低频的静态场景元素。大量实验证明了该方法的先进性。


# html  # for  # 算法  # 人工智能  # https  # 掩膜  # 两种  # 提出了  # 这类  # 景中  # 种方法  # 这是因为  # 很好  # 已有  # 宾夕法尼亚大学 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Azure AI 文本分类指南:自定义模型,提高文本分析精度  Vizeo AI视频生成器:无需技术,轻松打造营销利器  MetaGPT:AI驱动的软件开发团队,颠覆传统编码模式  3步教你用AI帮你把菜谱转换成详细的烹饪步骤视频脚本  利用AI赋能教育:学习方式的未来之路  批改网AI检测工具怎样设置检测维度_批改网AI检测工具维度勾选与权重调整【技巧】  如何通过文心一言进行地道的文言文翻译  去哪旅行ai抢票助手怎样提升抢票速度_去哪旅行ai抢票助手加速包与多通道使用【技巧】  ChatGPT 处理非结构化数据并转换为 JSON 格式  feelin聊天官方网站入口 feelinAl官方网站  C3.ai深度解析:投资者必知的关键洞察  如何用AI帮你设计调查问卷?科学提问,精准收集反馈  Midjourney怎样用参数调色彩饱和度_Midjourney饱和度调整【方法】  ChatGPT 如何助力建筑承包商?三大实用技巧解析  Foocus:免费AI图像生成器终极指南及 OnlyFans 替代方案  如何利用 ChatGPT 进行深度行业竞品分析  AI写作鱼如何一键生成情书_AI写作鱼情书生成与浪漫度调整【步骤】  理论框架写作指南:3步构建研究基石  Z170芯片组内存兼容性问题终极指南  豆包AI怎么做数据分析 豆包AI数据处理入门教程  Gacha Club反应视频解析:探索热门角色和独特剧情  Feelin网页版在线使用 Feelin官网登录入口  Beats to Rap On AI Stem Splitter:终极音乐创作工具  如何用AI自动生成Python代码 AI编程助手ChatGPT使用方法【教程】  ChatGPT 辅助自媒体博主进行选题与大纲策划  探索孟加拉音乐魅力:高尔德普林特莎丽,节日欢歌  AI自动化工作流:Zapier提升效率,优化工作流程  畅游长崎:寻找宝可梦与樱花的浪漫之旅  如何利用豆包 AI 快速查询当地生活服务资讯  千问AI赚钱指南:新手也能月入破万的实操路径解析!  途牛旅游AI怎样设置抢票提醒_途牛AI抢票提醒时间与频率设置【方法】  AI写作避坑指南:小说家应避免的AI使用与创作技巧  通义万相IP形象设计怎么用_通义万相IP形象设计使用方法详细指南【教程】  tofai最新官网入口 tofai网页版直接进入  如何让ChatGPT模仿特定文风 创意写作与品牌话术生成教程  解读诗歌中的女性视角:Shelley Puhak 的作品解析  热门科技新闻:BetterHelp、Photoshop AI、AMD CPU及NVIDIA显卡  AI CRM集成:提升客户关系管理效率的关键  讯飞星火怎么一键生成|直播|话术_讯飞星火话术生成与节奏把控【教程】  Feelin聊天网页版地址 Feelin AI官方网站首页  百度AI搜索如何开启无痕搜索_百度AI搜索无痕模式设置与隐私保护【攻略】  AI无镜头相机Paragraphica:颠覆传统摄影的新方式  使用文心一言进行中文客服话术库的逻辑优化  AI电影制作:颠覆传统,引领未来*新纪元  留学文书PS怎么写?教你用AI写出招生官眼前一亮的个人陈述  通义听悟转会议纪要怎么用_通义听悟转会议纪要使用方法详细指南【教程】  AI症状自检:最佳AI症状检查器,告别网络庸医!  AI视频播客制作终极指南:告别繁琐编辑,轻松发布!  AI绘图软件怎么用_AI绘图软件使用方法详细指南【教程】  tofai怎么调整层级顺序 tofai图层上下移动方法【步骤】 

 2024-07-10

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.