让大模型看图比打字管用!NeurIPS 2025新研究提出多模态查询方法,准确率提升7.8%


大模型“识图”能力都这么强了,为啥还老找错东西?

例如,把长得不太像的蝙蝠和拍子搞混,又或是认不出一些数据集中的稀有鱼类……

这是因为,我们让大模型“找东西”时,往往输入的是文本

如果描述有歧义或太偏门,像是“bat”(蝙蝠还是拍子?)或“魔鳉”(Cyprinodon diabolis),AI就会大为困惑。

这就导致用大模型做目标检测、尤其是开放世界(未知场景)目标检测任务时,效果往往没有想象中那么好。

现在,一篇被NeurIPS 2025收录的论文,终于解决了这个问题。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文提出了一种基于多模态查询的目标检测方法MQ-Det,只需要给输入加上一个图片示例,就能让大模型找东西的准确率大幅提升。

在基准检测数据集LVIS上,无需下游任务模型微调,MQ-Det平均提升主流检测大模型GLIP精度约7.8%,在13个基准小样本下游任务上,平均提高了6.3%精度。

这究竟是怎么做到的?一起来看看。

以下内容转载自论文作者、知乎博主@沁园夏:

目录

  • MQ-Det:多模态查询的开放世界目标检测大模型
  • 1.1 从文本查询到多模态查询
  • 1.2 MQ-Det 即插即用的多模态查询模型架构
  • 1.3 MQ-Det高效训练策略
  • 1.4 实验结果:Finetuning-free评估
  • 1.5 实验结果:Few-shot评估
  • 1.6 多模态查询目标检测的前景

MQ-Det:多模态查询的开放世界目标检测大模型

论文名称:Multi-modal Queried Object Detection in the Wild

论文链接:https://www./link/9c6947bd95ae487c81d4e19d3ed8cd6f

代码地址:https://www./link/2307ac1cfee5db3a5402aac9db25cc5d

1.1 从文本查询到多模态查询

一图胜千言:随着图文预训练的兴起,借助文本的开放语义,目标检测逐渐步入了开放世界感知的阶段。为此,许多检测大模型都遵循了文本查询的模式,即利用类别文本描述在目标图像中查询潜在目标。然而,这种方式往往会面临“广而不精”的问题。

例如,(1)图1中的细粒度物体(鱼种)检测,往往很难用有限的文本来描述各种细粒度的鱼种,(2)类别歧义(“bat”既可指蝙蝠又可指拍子)

然而,以上的问题均可通过图像示例来解决,相比文本,图像能够提供目标物体更丰富的特征线索,但同时文本又具备强大的泛化性

由此,如何能够有机地结合两种查询方式,成为了一个很自然的想法。

获取多模态查询能力的难点:如何得到这样一个具备多模态查询的模型,存在三个挑战:(1)直接用有限的图像示例进行微调很容易造成灾难性遗忘;(2)从头训练一个检测大模型会具备较好的泛化性但是消耗巨大,例如,单卡训练GLIP 需要利用3000万数据量训练480 天。

多模态查询目标检测:基于以上考虑,作者提出了一种简单有效的模型设计和训练策略——MQ-Det。

MQ-Det在已有冻结的文本查询检测大模型基础上插入少量门控感知模块(GCP)来接收视觉示例的输入,同时设计了视觉条件掩码语言预测训练策略高效地得到高性能多模态查询的检测器。

1.2 MQ-Det即插即用的多模态查询模型架构

△图1 MQ-Det方法架构图

门控感知模块

如图1所示,作者在已有冻结的文本查询检测大模型的文本编码器端逐层插入了门控感知模块(GCP),GCP的工作模式可以用下面公式简洁地表示:

对于第i个类别,输入视觉示例Vi,其首先和目标图像I进行交叉注意力(X-MHA)得到以增广其表示能力,而后每个类别文本ti会和对应类别的视觉示例进行交叉注意力得到,之后通过一个门控模块gate将原始文本ti和视觉增广后文本融合,得到当前层的输出。这样的简单设计遵循了三点原则:(1)类别可扩展性;(2)语义补全性;(3)抗遗忘性,具体讨论可见原文。

1.3 MQ-Det高效训练策略

基于冻结语言查询检测器的调制训练

由于目前文本查询的预训练检测大模型本身就具备较好的泛化性,论文作者认为,只需要在原先文本特征基础上用视觉细节进行轻微地调整即可。

在文章中也有具体的实验论证发现,打开原始预训练模型参数后进行微调很容易带来灾难性遗忘的问题,反而失去了开放世界检测的能力。

由此,MQ-Det在冻结文本查询的预训练检测器基础上,仅调制训练插入的GCP模块,就可以高效地将视觉信息插入到现有文本查询的检测器中。

在论文中,作者分别将MQ-Det的结构设计和训练技术应用于目前的SOTA模型GLIP和GroundingDINO ,来验证方法的通用性。

以视觉为条件的掩码语言预测训练策略

作者还提出了一种视觉为条件的掩码语言预测训练策略,来解决冻结预训练模型带来的学习惰性的问题。

所谓学习惰性,即指检测器在训练过程中倾向于保持原始文本查询的特征,从而忽视新加入的视觉查询特征。

为此,MQ-Det在训练时随机地用[MASK] token来替代文本token,迫使模型向视觉查询特征侧学习,即:

这个策略虽然简单,但是却十分有效,从实验结果来看这个策略带来了显著的性能提升。

1.4 实验结果:Finetuning-free评估

Finetuning-free:相比传统零样本(zero-shot)评估仅利用类别文本进行测试,MQ-Det提出了一种更贴近实际的评估策略:finetuning-free。其定义为:在不进行任何下游微调的条件下,用户可以利用类别文本、图像示例、或者两者结合来进行目标检测。

在finetuning-free的设定下,MQ-Det对每个类别选用了5个视觉示例,同时结合类别文本进行目标检测,而现有的其他模型不支持视觉查询,只能用纯文本描述进行目标检测。下表展示了在LVIS MiniVal和LVIS v1.0上的检测结果。可以发现,多模态查询的引入大幅度提升了开放世界目标检测能力。

△表1 各个检测模型在LVIS基准数据集下的finetuning-free表现

从表1可以看到,MQ-GLIP-L在GLIP-L基础上提升了超过7%AP,效果十分显著!

1.5 实验结果:Few-shot评估

△表2 各个模型在35个检测任务ODinW-35以及其13个子集ODinW-13中的表现

作者还进一步在下游35个检测任务ODinW-35中进行了全面的实验。由表2可以看到,MQ-Det除了强大的finetuning-free表现,还具备良好的小样本检测能力,进一步印证了多模态查询的潜力。图2也展示了MQ-Det对于GLIP的显著提升。

△图2 数据利用效率对比;横轴:训练样本数量,纵轴:OdinW-13上的平均AP

1.6 多模态查询目标检测的前景

目标检测作为一个以实际应用为基础的研究领域,非常注重算法的落地。

尽管以往的纯文本查询目标检测模型展现出了良好的泛化性,但是在实际的开放世界检测中文本很难涵盖细粒度的信息,而图像中丰富的信息粒度完美地补全了这一环。

至此我们能够发现,文本泛而不精,图像精而不泛,如果能够有效地结合两者,即多模态查询,将会推动开放世界目标检测进一步向前迈进。

MQ-Det在多模态查询上迈出了第一步尝试,其显著的性能提升也昭示着多模态查询目标检测的巨大潜力。

同时,文本描述和视觉示例的引入为用户提供了更多的选择,使得目标检测更加灵活和用户友好。


# 架构  # Object  # Token  # github  # 算法  # https  # 多模  # 门控  # 基础上  # 提出了  # 而不  # 很难  # 已有  # 只需  # 掩码  # 很容易 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 秀米AI排版如何自动生成模板_秀米AI排版模板生成入口与风格选择【攻略】  Descript vs. Wisecut:AI视频编辑工具深度测评与最佳选择  Canva AI终极指南:免费AI聊天机器人,设计、视频、网站全搞定!  Kindroid AI:打造你的专属虚拟伙伴,开启AI社交新体验  掌握写作技巧:小说情节设计的核心要素解析  AI赋能招聘:高级策略助你领先猎头行业  N8N工作流:自动化知识管理与智能问答解决方案  律师视角下的生成式AI:信息爆炸时代的法律实践与未来展望  恐怖游戏惊魂:虚拟主播带你逃离病娇女孩的魔爪  文本分类:生成模型与朴素贝叶斯算法的全面指南  教你用AI快速制作思维导图,3步理清所有工作思路  老电脑焕新:i5-2400搭配FirePro V5900 打造复古游戏利器  AI症状自检:最佳AI症状检查器,告别网络庸医!  解读诗歌中的女性视角:Shelley Puhak 的作品解析  利用Gen AI和AI Agent进行软件测试:Ollama本地LLM实践  使用AI代码生成器轻松构建Web应用程序:Beela vs. Google AI Studio  播客数据深度分析:揭秘全球听众分布及增长策略  夸克AI怎么用AI写作_夸克AI写作功能与模板选择【指南】  如何用AI帮你创作节日贺卡文案?让祝福与众不同  如何用AI帮你检查代码中的潜在安全漏洞?  百度AI搜索怎样搜索百科知识_百度AI搜索百科频道与词条跳转【技巧】  AI|直播|话术生成工具有哪些_一键生成带货话术的AI工具推荐  OpenAI DevDay 2025:开发者必知的七大AI进展  AI驱动音频优化:提升音质的终极指南  Tamilnad Mercantile Bank TMB:如何在线下载账户报表  n8n教程:如何用AI自动生成个性化简历  医疗专家如何利用课程和内容赋能女性对抗癌症  ChatGPT官方网页端入口 ChatGPT官网快速登录方法  AI照片编辑:为你的单人照添加逼真女友,告别孤单  通义千问怎样写小红书文案_通义千问文案写作步骤【步骤】  Codova AI:终极动态QR码生成器教程与功能详解  怎么用AI帮你进行头脑风暴并分类?5分钟输出结构化创意清单  文心一言如何做本地生活探店文案 文心一言内容种草指南  ChatGPT怎么用一键生成读书笔记_ChatGPT笔记生成教程【攻略】  兔展AI排版如何批量生成多尺寸图_兔展AI排版多尺寸批量生成步骤【实操】  百度ai助手怎么设置不显示 百度ai助手界面净化设置  AI驱动的合同审查:Adobe Acrobat AI助手提升效率与准确性  人工智能时代:你需要知道的真相和未来趋势  教你用AI帮你写出有说服力的众筹项目文案  tofai官方网站入口 tofai在线网页版登录  ChatGPT写论文大纲教程 辅助学术构思与资料检索操作方法  Canva AI终极指南:释放AI力量,设计触手可及  2025年度AMD处理器终极评选:年度最佳CPU推荐  农业模拟器25:AI助手与GPS终极指南  AI 播客脚本写作工具:提升内容创作效率的终极指南  PixianAI抠图怎么修复瑕疵_PixianAI瑕疵修复与手动涂抹工具【步骤】  AI复古纱丽照片编辑:用Google Gemini轻松生成时尚照片  2025年43英寸电视选购指南:最佳品牌与型号推荐  Talvix AI:AI驱动的招聘平台,提升招聘效率和质量  ChatGPT一键生成PPT怎么加动画_ChatGPTPPT动画添加【指南】 

 2023-10-23

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.