CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院


循环调用clip,无需额外训练就有效分割无数概念。

包括电影动漫人物,地标,品牌,和普通类别在内的任意短语。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

牛津大学与谷歌研究院联合团队的这项新成果,已被CVPR 2025接收,并开源了代码。

团队提出名为CLIP as RNN(简称CaR)的新技术,解决了开放词汇量图像分割领域中的几个关键问题:

  • 无需训练数据:传统方法需要大量的掩膜注释或图像-文本数据集进行微调,CaR技术则无需任何额外的训练数据即可工作。
  • 开放词汇量的限制:预训练的视觉-语言模型(VLMs)在经过微调后,其处理开放词汇量的能力受到限制。CaR技术保留了VLMs的广泛词汇空间。
  • 对非图像中概念的文本查询处理:在没有微调的情况下,VLMs难以对图像中不存在的概念进行准确分割,CaR通过迭代过程逐步优化,提高了分割质量。

受RNN启发,循环调用CLIP

要理解CaR的原理,需要先回顾一下循环神经网络RNN。

RNN引入了隐藏状态(hidden state)的概念,就像是一个“记忆体”,存储了过去时间步的信息。而每个时间步共享同一组权重,可以很好地建模序列数据。

受RNN启发,CaR也设计成循环的框架,由两部分组成:

  • 掩膜提议生成器:借助CLIP为每个文本查询生成一个mask。
  • 掩膜分类器:再用一个CLIP模型,评估生成的每个mask和对应的文本查询的匹配度。如果匹配度低,就把那个文本查询剔除掉。

就这样反复迭代下去,文本查询会越来越精准,mask的质量也会越来越高。

最后当查询集合不再变化,就可以输出最终的分割结果了。

之所以要设计这个递归框架,是为了最大限度地保留CLIP预训练的”知识”。

CLIP预训练中见过的概念可是海量,涵盖了从名人、地标到动漫角色等方方面面。如果在分割数据集上微调,词汇量势必会大幅缩水。

例如“分割一切”SAM模型就只能认出一瓶可口可乐,百事可乐是一瓶也不认了。

但是直接拿CLIP做分割,效果又不尽如人意。

这是因为CLIP的预训练目标本来就不是为密集预测设计的。尤其是当图像中不存在某些文本查询时,CLIP很容易生成一些错误的mask。

CaR巧妙地通过RNN式的迭代来解决这个问题。通过反复评估、筛选查询,同时完善mask,最终实现了高质量的开放词汇分割。

最后再来跟随团队的解读,了解一下CaR框架的细节。

CaR技术细节

  • 循环神经网络框架:CaR采用了一个新颖的循环框架,通过迭代过程不断优化文本查询与图像之间的对应关系。
  • 两阶段分割器:由掩膜提议生成器和掩膜分类器组成,均基于预训练的CLIP模型构建,且权重在迭代过程中保持不变。
  • 掩膜提议生成:使用gradCAM技术,基于图像和文本特征的相似度得分来生成掩膜提议。
  • 视觉提示:应用如红圈、背景模糊等视觉提示,以增强模型对图像特定区域的关注。
  • 阈值函数:通过设置相似度阈值,筛选出与文本查询对齐程度高的掩膜提议。
  • 后处理:使用密集条件随机场(CRF)和可选的SAM模型进行掩膜细化。

通过这些技术手段,CaR技术在多个标准数据集上实现了显著的性能提升,超越了传统的零样本学习方法,并在与进行了大量数据微调的模型相比时也展现出了竞争力。如下表所示,尽管完全无需额外训练及微调,CaR在零样本语义分割的8个不同指标上表现出比之前在额外数据上进行微调过的方法更强的性能。

作者还测试了CaR在零样本Refering segmentation的效果,CaR也表现出了相较之前零样本的方法表现出更强的性能。

综上所述,CaR(CLIP as RNN)是一种创新的循环神经网络框架,能够在无需额外训练数据的情况下,有效地进行零样本语义和指代图像分割任务。它通过保留预训练视觉-语言模型的广泛词汇空间,并利用迭代过程不断优化文本查询与掩膜提议的对齐度,显著提升了分割质量。

CaR的优势在于其无需微调、处理复杂文本查询的能力和对视频领域的扩展性,为开放词汇量图像分割领域带来了突破性进展。

论文链接:https://arxiv.org/abs/2312.07661。
项目主页:https://torrvision.com/clip_as_rnn/。


# 神经网络  # 递归  # 循环  # rnn  # https  # 掩膜  # 迭代  # 出了  # 表现出  # 地标  # 更强  # 牛津大学  # 记忆体  # 中不 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 怎么用AI帮你写一份客户感谢信?维系客户关系的利器  kimi生成ppt怎么编辑文字_kimi编辑文字后怎么保存  怎么用AI帮你写一份有说服力的加薪申请?  ChatGPT打造AI助手:10倍提升效率,掌控你的生活  怎么用ai制作表情包 AI个性化动态表情包教程【方法】  壹伴AI智能排版如何自动生成文章配图_壹伴AI智能排版配图生成与版权说明【教程】  AI赋能副业:五大掘金机会,轻松开启智能创收时代  谷歌 Nano Banana:免费AI图像生成的强大工具  eBookWriter AI:无需写作也能创作专业电子书  软件测试进化史:从手动到AI,迎接测试新纪元  AI 播客脚本写作工具:提升内容创作效率的终极指南  5分钟教你用AI给黑白老照片上色,让回忆变得鲜活  轻松创建引人入胜短视频:Riverside.fm教程  AI聊天机器人:朋友还是谄媚者?深度解析与实用建议  如何用AI生成正则表达式?再也不怕复杂的文本匹配  批改网AI检测工具怎样设置检测维度_批改网AI检测工具维度勾选与权重调整【技巧】  播客成功的秘诀:打造高转化率的内容和社区  2025年QA工程师必备:五款AI自动化测试工具深度解析  n8n:零代码AI自动化平台的终极指南和免费VPS设置  百度AI搜索怎么用AI总结网页_百度AI搜索网页总结功能与调用【技巧】  利用AI赋能教育:学习方式的未来之路  豆包AI怎么优化年终总结语言_豆包AI文案润色与正式语气调整【指南】  AI旅游攻略生成工具有哪些_一键生成行程规划的AI工具推荐  tofai官网正版入口 tofai网页版免费使用  Midjourney怎么用一键生成漫画_Midjourney漫画生成方法【攻略】  通义听悟转会议纪要怎么用_通义听悟转会议纪要使用方法详细指南【教程】  利用 ChatGPT 设计高效的个人健身与饮食计划  tofai最新官网入口 tofai网页版直接进入  TopMedi AI:AI语音克隆和文本转语音终极指南  AI驱动的Web应用测试:突破QA挑战,提升用户体验  唐库AI拆书工具如何批量导出笔记_唐库AI拆书工具批量导出与格式转换【方法】  ChatGPT怎样用提示词模拟专家视角_ChatGPT专家视角设置【指南】  AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答  如何用AI帮你设计调查问卷?科学提问,精准收集反馈  夸克AI怎么用AI写作_夸克AI写作功能与模板选择【指南】  提升效率:使用AI代理自动生成视频标题的实用指南  如何用AI一键给视频自动加字幕  通义千问怎么设置常用功能快捷键_通义千问快捷键设置【步骤】  Gemini怎样写实用型提示词_Gemini实用提示词编写【攻略】  AI简历生成器:提升求职效率的智能工具  Descript音频编辑终极指南:技巧、AI工具与专业效果  Google Gemini 辅助进行 Android Studio 代码开发  利用豆包 AI 进行个性化旅行 Vlog 脚本设计  使用ChatGPT快速生成专辑封面:AI艺术创作指南  AI卡通视频制作终极指南:轻松打造百万流量  AI伴侣:连接还是孤独?真实对话揭秘AI伦理困境  Character AI终极指南:构建你的人工智能伴侣,探索无限可能  DeepSeek如何编写Shell脚本 DeepSeek自动化运维指南  轻松生成二维码:免费AI工具终极指南  2025年AI图像生成指南:Google Gemini Nano Banana教程 

 2024-06-06

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.