CVPR 2025论文总结!CV最热领域颁给多模态、扩散模型


一年一度的CVPR即将在6月18-22日加拿大温哥华正式开幕。

每年,来自世界各地的成千上万的CV研究人员和工程师聚集在一起参加顶会。这个久负盛名的会议可以追溯到1983年,它代表了计算机视觉发展的巅峰。

目前,CVPR的h5指数所有会议或出版物中位列第四,仅次于《自然》、《科学》和《新英格兰医学杂志》。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

前段时间,CVPR公布了论文接收结果。根据官网上统计数据,一共接受论文9155篇,录用2359篇,接受率为25.8%。

此外,还公布了12篇获奖候选论文。

那么,今年的CVPR有哪些亮点?从录用论文中我们又能看到CV领域有哪些趋势?

接下来一并揭晓。

CVPR一览

初创公司Voxel51就所有被接收论文列表中进行了分析。

先来整体看一张论文标题的汇总图,每个字的大小与数据集中出现的频率成正比。

简要说明

- 2359篇论文被接收(9155份论文提交)

- 1724篇Arxiv论文

- 68份文件提交到其他地址

每篇论文的作者

- CVPR论文的平均作者约为5.4人

- 论文当中作者最多的是: 「Why is the winner the best?」有125位作者

- 有13篇论文只有一个作者。

主要Arxiv分类

在1724篇Arxiv论文中,有1545篇,或者说接近90%的论文将cs.CV列为主要类别。

cs.LG位列第二,有101篇。eess.IV (26)和 cs.RO (16)也分得一杯羹。

CVPR 论文的其他类别包括: cs.HC,cs.CV,cs.AR,cs.DC,cs.NE,cs.SD,cs.CL,cs.IT,cs.CR,cs.AI,cs.MM,cs.GR,eess.SP,eess.AS,math.OC,math.NT,physics.data-an和stat.ML。

「Meta」数据

- 「数据集」和「模型」这2个词共同出现在567篇摘要中。「数据集」在265篇论文摘要中单独出现,而「模型」则单独出现了613次。只有16.2%的 CVPR接收论文没有包含这两个词。

- 根据CVPR论文摘要,今年最受欢迎的数据集是ImageNet(105),COCO(94),KITTI(55)和CIFAR(36)。

- 28篇论文提出了一个新的「基准」。

缩写词比比皆是

似乎没有首字母缩略词就没有机器学习项目。2359篇论文中,1487篇的标题有多个大写字母的缩略词或复合词,占比63%。

这些首字母缩略词中有一些很容易记住,甚至可以脱口而出:

- CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal PoseCLAMP

- PATS: Patch Area Transportation with Subdivision for Local Feature Matching

- CIRCLE: Capture In Rich Contextual Environments

有些则要复杂得多:

- SIEDOB: Semantic Image Editing by Disentangling Object and Background

- FJMP: Factorized Joint Multi-Agent Motion Prediction over Learned Directed Acyclic Interaction GraphsFJMP

他们中的一些人似乎在首字母缩略词构建上借鉴了别人的创意:

- scotch and soda: a transformer video shadow detection framework(荷兰流行潮牌scotch & soda)

- EXCALIBUR: Encouraging and Evaluating Embodied Exploration(Ex咖喱棒,笑)

什么最热?

除了2025年的论文标题,我们抓取了2025年所有接受的论文标题。从这两个列表中,我们计算了各种关键词的相对频率,从让大家对什么是上升趋势、什么是下降趋势有更深入的了解。

模型

2025年,扩散模型(Diffusion models)占据了主导地位。

扩散模型

随着Stable Diffusion和Midjourney等图像生成模型的走红,扩散模型发展的火热趋势也就不足为奇了。

扩散模型在去噪、图像编辑和风格转换方面也有应用。把所有这些加起来,到目前为止,它是所有类别中最大的赢家,比去年同期增长了573% 。

辐射场

神经辐射场(NERF)也越来越受欢迎,论文中使用单词「radiance」增加了80% ,「NERF」增加了39% 。NeRF已经从概念验证转向编辑、应用和训练过程优化。

Transformers

「Transformer」和「ViT」的使用率下降并不意味着Transformer模型过时,而是反映了这些模型在2025年的主导地位。2025年,「Transformer」这个词只出现在37篇论文中。2025年,这个数字飙升至201。Transformer不会很快消失。

CNN

CNN曾经是计算机视觉的宠儿,到了2025年,似乎失去了它们的优势,使用率下降了68%。许多提到 CNN 的标题也提到了其他模型。例如,这些论文提到了CNN和Transformer:

- Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth EstimationLite-Mono

- Learned Image Compression with Mixed Transformer-CNN Architectures

任务

掩码任务和掩码图像建模相结合,在CVPR中占据了主导地位。

生成

传统的判别任务,如检测、分类和分割并没有失宠,但是由于生成应用的一系列进步,它们在CV的份额正在缩小,包括「编辑」、「合成」以及「生成」的上升就证明这点。

掩码

关键字「mask」比去年同期增长了263% ,在2025年被接收的论文中出现了92次,有时在一个标题中出现了2次。

- SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance SegmentationSIM

- DynaMask: Dynamic Mask Selection for Instance SegmentationDynaMask

但大多数(64%)实际上指的是「掩码」任务,包括8个「掩码图像建模」和15个「掩码自动编码器」任务。此外,还有8篇出现「掩码」。

同样值得注意的是,3篇带有单词「mask」的论文标题实际上指的是「无掩码」任务。

零样本vs小样本

随着迁移学习、生成方法、提示和通用模型的兴起,「零样本」学习正在获得关注。与此同时,「小样本」学习比去年有所下降。然而,就原始数字而言,至少目前而言,「小样本」(45)比「零样本」(35)略有优势。

模态

2025年,多模态和跨模态应用加速发展。

边界模糊

虽然传统计算机视觉关键词如「图像」和「视频」的频率相对保持不变,但「文本」/「语言」和「音频」出现的频率更高。

即使「多模态」这个词本身没有在论文标题中出现,也很难否认计算机视觉正在走向多模态的未来。

这在视觉-语言任务中尤其明显,正如「开放」、「提示」和「词汇」的急剧上升所表明的那样。

这种情况最极端的例子是「开放词汇」这个复合词,它在2025年只出现了3次,但在2025年出现了18次。

深入挖掘CVPR 2025论文标题中的关键词

点云9

三维计算机视觉应用正在从以二维图像推断3D信息(「深度」和「立体」)转向直接在3D点云数据上进行工作的计算机视觉系统。

CV标题的创造力

如果不将ChatGPT纳入其中,2025年任何与机器学习相关的全面报道都是不完整的。我们决定让事情变得有趣,并使用ChatGPT来寻找CVPR 2025中最有创意的标题。

对于每一篇上传到Arxiv的论文,我们抓取了摘要,并要求 ChatGPT (GPT-3.5 API)为相应的CVPR论文生成一个标题。

然后,我们将这些由ChatGPT生成的标题和实际的论文标题,使用OpenAI的text-embedding-ada-002模型生成嵌入向量,并计算ChatGPT生成的标题和作者生成的标题之间的余弦相似度。

这可以告诉我们什么?ChatGPT越接近实际的论文标题,这个标题就越可预测。换句话说,ChatGPT的预测越「偏」,作者给论文命名的「创造性」就越强。

嵌入和余弦相似度为我们提供了一个有趣的,尽管远非完美的,量化方法。

我们按照这个指标对论文进行了排序。话不多说,下面是最具创造性的标题:

实际的标题:Tracking Every Thing in the Wild

预测的标题:Disentangling Classification from Tracking: Introducing TETA for Comprehensive Benchmarking of Multi-Category Multiple Object Tracking

实际的标题:Learning to Bootstrap for Combating Label Noise

预测的标题:Learnable Loss Objective for Joint Instance and Label Reweighting in Deep Neural Networks

实际的标题:Seeing a Rose in Five Thousand Ways

预测的标题:Learning Object Intrinsics from Single Internet Images for Superior Visual Rendering and Synthesis

实际的标题:Why is the winner the best?

预测的标题:Analyzing Winning Strategies in International Benchmarking Competitions for Image Analysis: Insights from a Multi-Center Study of IEEE ISBI and MICCAI 2025


# gpt  # 进行了  # 指的是  # 新英格兰  # 多模  # 这两个  # 首字母  # 出现在  # 出现了  # 掩码  # 关键词  # embedding  # prompt  # chatgpt  # ar  # stable diffusion  # gpt-3.5  # gpt-3  # transformer  # cnn  # background  # math  # for  # Object  # bootstrap  # midjourney 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Runway Gen-2怎么用 Runway视频生成AI使用教程  Gemini怎样写描述型提示词_Gemini描述提示词编写【攻略】  五大AI视频编辑工具:提升视频创作效率和质量  AI Vibe Coding: 快速打造落地页,低代码平台实战教程  AI驱动的合同审查:Adobe Acrobat AI助手提升效率与准确性  智行ai抢票能否抢下铺票_智行ai抢票下铺优先设置与成功率提升【技巧】  夸克AI怎样搜索医疗健康_夸克AI医疗频道与症状自查【技巧】  Midjourney怎样写风格化提示词_Midjourney风格提示词写法【教程】  提升房地产业务:AI语音助手赋能房地产经纪公司  AI对决:挑战AI上帝,探索信仰与科技的边界  Universe:用 iPhone 在 5 分钟内打造网站的终极指南  Kling 2.0终极指南:AI视频创作秘籍,告别低质量  如何用AI一键给视频自动加字幕  快速生成PPT工具怎么用_快速生成PPT工具使用方法详细指南【教程】  农业模拟器25:AI助手与GPS终极指南  教你用AI帮你进行论文选题,快速找到有研究价值的方向  理论框架写作指南:3步构建研究基石  揭秘:发电机咒语的音频魔力与音乐的力量  ChatGPT 4 辅助进行室内设计灵感采集  豆包AI怎么生成员工成长总结_豆包AI成长指标提取与案例编写【方法】  豆包Ai官方网页版入口地址_豆包Ai官网在线使用入口  百度ai助手快捷键怎么关 百度ai助手快捷键取消设置  通义千问网页版怎么切换账号_通义千问账号切换步骤【指南】  法国历史古迹修复:探秘 Château de Purnon 城堡的艺术与挑战  AI驱动SaaS增长:AppSumo $700万美金业务增长策略揭秘  AI音频增强和视频背景替换终极指南  C3.ai深度解析:投资者必知的关键洞察  ChatGPT怎么写工作汇报 职场办公效率提升与周报生成方法  lovemo手机网页版入口 lovemo官网登录网址  如何用AI一键生成名片设计 AI个人电子名片制作指南【教程】  AI 3D建模革命:免费生成高质量模型和纹理  实测效率提升超35%!科大讯飞星火AIPC开启AI办公新纪元  Base44 AI应用构建器深度评测:Wix 8000万美元收购的秘密  AI视频播客制作终极指南:告别繁琐编辑,轻松发布!  AI赋能营销:角色、策略与工具选择全指南  Wrike:AI赋能的项目管理平台,提升电商效率与团队协作  Decart Lucy 14B:颠覆AI视频生成领域的革命性模型  文心一言辅助进行行业深度研究报告撰写  Feelin网页版在线玩 Feelin角色扮演网页版入口  AI内容审查:谷歌搜索结果是否受到人为干预?  播客数据深度分析:用户地域分布及增长策略探讨  解密Poppy Playtime怪物:全面解析玩具世界背后的故事  ChatGPT如何进行数据可视化构思 ChatGPT图表设计指南  如何用AI帮你创作节日贺卡文案?让祝福与众不同  轻松生成二维码:免费AI工具终极指南  如何利用文心一言优化知乎高赞回答的逻辑结构  Thesis AI:一键生成高质量学术论文的秘密武器  lovemo网页版直接进入 lovemo官网在线登录  AI网页生成工具有哪些_一键生成企业官网的AI工具推荐  AI赋能抵押贷款:Total Expert AI 销售助理深度解析 

 2023-05-25

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.