利用全景图视觉自注意力模型进行室内框架估计的方法


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一、研究背景

此方法主要关注室内框架估计(indoor estimation layout estimation)任务,任务输入2D图片,输出图片所描述场景的三维模型。考虑到直接输出三维模型的复杂性,该任务一般被拆解为输出2D图像中的墙线、天花板线、地线三种线的信息,再根据线的信息通过后处理操作重建房间的三维模型。该三维模型可在后期进一步用于室内场景复刻、VR看房等具体应用场景。区别于深度估计方法,该方法基于对室内墙线的估计来恢复空间几何结构,优势在于可使墙面的几何结构较为平整;劣势则在于无法恢复室内场景沙发、椅子等细节物品的几何信息。

根据输入图像的不同,可以将其分为基于透视图和基于全景图的方法。与透视图相比,全景图具有更大的视角和更丰富的图像信息。随着全景采集设备的普及,全景数据越来越丰富,因此目前有很多关于基于全景图进行室内框架估计的算法被广泛研究

相关算法主要包括LayoutNet、HorizonNet、HohoNet及Led2-Net等,这些方法大多基于卷积神经网络,在结构复杂的位置墙线预测效果较差,如有噪声干扰、自遮挡等位置会出现墙线不连续、墙线位置错误等预测结果。在墙线位置估计任务中,仅关注局部特征信息会导致该类错误的发生,需利用全景图中的全局信息考虑整条墙线的位置分布来估计。CNN方法在提取局部特征任务中表现更优,Transformer方法更擅长捕捉全局信息,因此可将Transformer方法应用于室内框架估计任务以提升任务表现。

由于训练数据依赖性,单独应用基于透视图预训练的Transformer估计全景图室内框架效果并不理想。PanoViT模型预先将全景图映射到的特征空间,使用Transformer学习全景图在特征空间的全局信息,同时考虑全景图的表观结构信息完成室内框架估计任务。

二、方法介绍与结果展示

1、PanoViT

网络结构框架包含4个模块,分别是Backbone,vision transformer解码器,框架预测模块,边界增强模块。Backbone模块将全景图映射至特征空间,vison transformer编码器在特征空间中学习全局关联,框架预测模块将特征转化为墙线、天花板线、地线信息,后处理可进一步得到房间的三维模型,边界增强模块突出全景图中边界信息对于室内框架估计的作用。

① Backbone模块

由于直接使用transformer提取全景图特征效果不佳,已经证明了基于CNN的方法的有效性,即CNN特征可用于预测房屋框架。因此,我们采用了CNN的backbone来提取全景图不同尺度的特征图,并在特征图中学习全景图像的全局信息。实验结果表明,在特征空间中使用transformer的效果明显优于直接在全景图上应用

② Vision transformer encoder模块

Transformer主体架构可主要分为三个模块,包括patch sampling、patch embedding和transformer的multi-head attention。输入同时考虑全景图像特征图与原始图像并针对不同输入采用不同patch sampling方法。原图使用均匀采样方法,特征图采用水平采样方法。来自HorizonNet的结论认为在墙线估计任务中水平方向特征具有更高重要性,参考此结论,embedding过程中对于特征图特征进行竖直方向压缩。采用Recurrent PE方法组合不同尺度的特征并在multi-head attention的transformer模型中进行学习,得到与原图水平方向等长的特征向量,通过不同的decoder head可获得对应的墙线分布。

随机循环位置编码(Recurrent Position Embedding)考虑到全景图沿水平方向位移不改变图像视觉信息的特征,因此每次训练时沿着水平轴方向随机选取初始位置,使得训练过程更关注不同patch之间的相对位置而非绝对位置。

③ 全景图的几何信息

全景图中几何信息的充分利用可有助于室内框架估计任务表现的提升。PanoViT模型中的边界增强模块强调如何使用全景图中的边界信息,3D Loss则帮助减少全景图畸变影响。

边界增强模块考虑到墙线检测任务中墙线的线状特征,图像中的线条信息重要性突出,因此需要突出边界信息使得网络了解图像中线的分布。使用频域中边界增强方法突出全景图边界信息,基于快速傅里叶变换得到图像频域表示,使用掩膜在频域空间中进行采样,基于傅里叶反变换变换回边界信息被突出的图像。模块核心在于掩膜设计,考虑到边界对应高频信息,掩膜首先选用高通滤波器;并根据不同线的不同走向方向采样不同的频域方向。该方法相对传统LSD方法实施简单且效率更高。

之前工作在全景图上计算像素距离作为估计误差,由于全景图畸变,图片上的像素距离并不正比于3D世界的真实距离。PanoViT使用3D损失函数,直接在3D空间中计算估计误差。

2、模型结果

使用Martroport3D、PanoContext公共数据集进行实验,采用2DIoU和3DIoU作为评价指标,并与SOTA方法进行对比。结果显示PanoViT在两个数据集上的模型评价指标基本达到最优,仅在特定指标上略逊于LED2。通过与Hohonet进行模型可视化结果的比较,可以发现PanoViT能够准确识别复杂场景中的墙线走向。通过消融实验中对比Recurrent PE、边界增强和3D Loss模块,可以验证这些模块的有效性

为了达到更好的模型数据集,收集十万多张室内全景图像自建全景图像数据集,包含各类复杂室内场景,并基于自定规则进行标注,从中选取5053张图像作为测试数据集。在自建数据集上测试panovit模型与sota模型方法表现,发现随着数据量增大,panovit模型性能提升显著。

三、如何在ModelScope中使用

  • 打开modelscope官网:https://modelscope.cn/home。
  • 搜索“全景图室内框架估计”。
  • 点击快速使用-在线环境使用-快速体验,打开notebook。
  • 输入主页示例代码,上传1024*512的全景图片,修改图片加载路径,运行输出墙线预测结果。


# 全景图  # 后处理  # 评价指标  # 掩膜  # 图上  # 更高  # 并在  # 考虑到  # 图中  # 室内  # 架构  # embedding  # vr  # https  # transformer  # cnn  # 算法  # position  # 循环 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: AI交易机器人:TradingView上无需代码即可构建AI交易机器人指南  GTA Online: 2025最新无限隐形套装防消失技巧  AI旅游攻略生成工具有哪些_一键生成行程规划的AI工具推荐  AI生成克里希纳短视频:一步步教程,快速爆款!  秀米AI智能排版怎样生成节日专题模板_秀米AI智能排版节日模板调用【技巧】  2025年最佳AI时间管理软件:Motion、Reclaim AI与Clockwise终极评测  豆包 AI 辅助进行精简版个人周报撰写技巧  老电脑焕新:i5-2400搭配FirePro V5900 打造复古游戏利器  乐高积木重现约拿的故事:圣经故事趣味解读  快速生成PPT工具怎么用_快速生成PPT工具使用方法详细指南【教程】  利用 Google AI 进行图像元数据分析与整理  夸克AI怎样搜索医疗健康_夸克AI医疗频道与症状自查【技巧】  使用 ChatGPT 构建自动化 SEO 关键词库  免费涨粉秘籍:Instagram快速提升技巧,告别粉丝流失  AGI未来展望:DeepMind CEO的深度解读与行业洞察  扣子AI怎样设置多轮对话逻辑_扣子AI逻辑树搭建与分支设计【教程】  Gemini手机端怎么发图片_Gemini手机端发图方法【步骤】  AI Sales Assistant:提升销售效率与客户互动的终极指南  n8n教程:如何用AI自动生成个性化简历  v0 Report深度测评:AI文档生成器的优缺点分析与实用指南  文本分类:生成模型与朴素贝叶斯算法的全面指南  研究学者如何利用现有资源提升学术影响力  雷小兔ai智能写作如何生成文案_雷小兔ai智能写作文案生成场景选择【攻略】  探索孟加拉音乐魅力:高尔德普林特莎丽,节日欢歌  135编辑器AI排版怎样快速上手_135编辑器AI排版新手入门与功能介绍【教程】  经济型游戏PC构建指南:30000卢比畅玩3A游戏  Depseek怎样写产品描述提示词_Depseek产品文案提示词技巧【技巧】  Tamilnad Mercantile Bank TMB:如何在线下载账户报表  OpenArt:终极AI内容创作平台,图像、视频和角色一致性  文心一言解读法律条文教程 文心一言专业领域应用  Claude怎么用新功能故事创作_Claude故事创作使用【方法】  Ifor Williams拖车终极指南:农场主的选择和省税秘诀  使用AI代码生成器轻松构建Web应用程序:Beela vs. Google AI Studio  Lovart AI设计助手:AI驱动设计,零成本开启创意新纪元  提升英语口语:地道表达周末体验,语法精讲助你流利交流  AI合同提取指南:利用智能实现高效采购和节省成本  DeepSeek网页版怎么用_DeepSeek网页版使用方法详细指南【教程】  批改网AI检测工具怎么生成评分报告_批改网AI检测工具报告生成与维度解读【指南】  豆包AI怎么关闭消息推送_通知与提醒管理设置教程  BeFunkyAI排版怎么给图片加艺术字_BefunkyAI排版艺术字添加与样式调整【指南】  ChatGPT背后的AI革命:OpenAI的崛起与Google的危机  eGain AI Knowledge Hub:助力 Specialized 成熟运营和卓越 CX  MemeGIF Studio:AI驱动的GIF生成器全面评测与使用指南  百度AI搜索怎样设置搜索偏好_百度AI搜索偏好设置与个性化推荐【技巧】  使用 DeepSeek 生成符合工业标准的 API 文档  AI视频创作终极指南:文本到视频的免费工具与技巧  MediCa AI:AI赋能的智能医疗保健平台全面解析  AI简历生成工具有哪些_一键生成专业简历的AI工具推荐  智行ai抢票能否抢下铺票_智行ai抢票下铺优先设置与成功率提升【技巧】  AI 编码助手:提升效率的 5 大工具及应用详解 

 2023-10-07

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.