首页 > 营销学院 > AI智能

CVPR 2025论文总结！CV最热领域颁给多模态、扩散模型

一年一度的CVPR即将在6月18-22日加拿大温哥华正式开幕。

每年，来自世界各地的成千上万的CV研究人员和工程师聚集在一起参加顶会。这个久负盛名的会议可以追溯到1983年，它代表了计算机视觉发展的巅峰。

目前，CVPR的h5指数所有会议或出版物中位列第四，仅次于《自然》、《科学》和《新英格兰医学杂志》。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

前段时间，CVPR公布了论文接收结果。根据官网上统计数据，一共接受论文9155篇，录用2359篇，接受率为25.8%。

此外，还公布了12篇获奖候选论文。

那么，今年的CVPR有哪些亮点？从录用论文中我们又能看到CV领域有哪些趋势？

接下来一并揭晓。

CVPR一览

初创公司Voxel51就所有被接收论文列表中进行了分析。

先来整体看一张论文标题的汇总图，每个字的大小与数据集中出现的频率成正比。

简要说明

- 2359篇论文被接收（9155份论文提交)

- 1724篇Arxiv论文

- 68份文件提交到其他地址

每篇论文的作者

- CVPR论文的平均作者约为5.4人

- 论文当中作者最多的是: 「Why is the winner the best?」有125位作者

- 有13篇论文只有一个作者。

主要Arxiv分类

在1724篇Arxiv论文中，有1545篇，或者说接近90%的论文将cs.CV列为主要类别。

cs.LG位列第二，有101篇。eess.IV （26）和 cs.RO （16）也分得一杯羹。

CVPR 论文的其他类别包括: cs.HC，cs.CV，cs.AR，cs.DC，cs.NE，cs.SD，cs.CL，cs.IT，cs.CR，cs.AI，cs.MM，cs.GR，eess.SP，eess.AS，math.OC，math.NT，physics.data-an和stat.ML。

「Meta」数据

- 「数据集」和「模型」这2个词共同出现在567篇摘要中。「数据集」在265篇论文摘要中单独出现，而「模型」则单独出现了613次。只有16.2%的 CVPR接收论文没有包含这两个词。

- 根据CVPR论文摘要，今年最受欢迎的数据集是ImageNet（105），COCO（94），KITTI（55）和CIFAR（36）。

- 28篇论文提出了一个新的「基准」。

缩写词比比皆是

似乎没有首字母缩略词就没有机器学习项目。2359篇论文中，1487篇的标题有多个大写字母的缩略词或复合词，占比63%。

这些首字母缩略词中有一些很容易记住，甚至可以脱口而出：

- CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal PoseCLAMP

- PATS: Patch Area Transportation with Subdivision for Local Feature Matching

- CIRCLE: Capture In Rich Contextual Environments

有些则要复杂得多：

- SIEDOB: Semantic Image Editing by Disentangling Object and Background

- FJMP: Factorized Joint Multi-Agent Motion Prediction over Learned Directed Acyclic Interaction GraphsFJMP

他们中的一些人似乎在首字母缩略词构建上借鉴了别人的创意：

- scotch and soda: a transformer video shadow detection framework（荷兰流行潮牌scotch & soda）

- EXCALIBUR: Encouraging and Evaluating Embodied Exploration（Ex咖喱棒，笑）

什么最热？

除了2025年的论文标题，我们抓取了2025年所有接受的论文标题。从这两个列表中，我们计算了各种关键词的相对频率，从让大家对什么是上升趋势、什么是下降趋势有更深入的了解。

模型

2025年，扩散模型（Diffusion models）占据了主导地位。

扩散模型

随着Stable Diffusion和Midjourney等图像生成模型的走红，扩散模型发展的火热趋势也就不足为奇了。

扩散模型在去噪、图像编辑和风格转换方面也有应用。把所有这些加起来，到目前为止，它是所有类别中最大的赢家，比去年同期增长了573% 。

辐射场

神经辐射场（NERF）也越来越受欢迎，论文中使用单词「radiance」增加了80% ，「NERF」增加了39% 。NeRF已经从概念验证转向编辑、应用和训练过程优化。

Transformers

「Transformer」和「ViT」的使用率下降并不意味着Transformer模型过时，而是反映了这些模型在2025年的主导地位。2025年，「Transformer」这个词只出现在37篇论文中。2025年，这个数字飙升至201。Transformer不会很快消失。

CNN

CNN曾经是计算机视觉的宠儿，到了2025年，似乎失去了它们的优势，使用率下降了68%。许多提到 CNN 的标题也提到了其他模型。例如，这些论文提到了CNN和Transformer：

- Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth EstimationLite-Mono

- Learned Image Compression with Mixed Transformer-CNN Architectures

任务

掩码任务和掩码图像建模相结合，在CVPR中占据了主导地位。

生成

传统的判别任务，如检测、分类和分割并没有失宠，但是由于生成应用的一系列进步，它们在CV的份额正在缩小，包括「编辑」、「合成」以及「生成」的上升就证明这点。

掩码

关键字「mask」比去年同期增长了263% ，在2025年被接收的论文中出现了92次，有时在一个标题中出现了2次。

- SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance SegmentationSIM

- DynaMask: Dynamic Mask Selection for Instance SegmentationDynaMask

但大多数（64%）实际上指的是「掩码」任务，包括8个「掩码图像建模」和15个「掩码自动编码器」任务。此外，还有8篇出现「掩码」。

同样值得注意的是，3篇带有单词「mask」的论文标题实际上指的是「无掩码」任务。

零样本vs小样本

随着迁移学习、生成方法、提示和通用模型的兴起，「零样本」学习正在获得关注。与此同时，「小样本」学习比去年有所下降。然而，就原始数字而言，至少目前而言，「小样本」（45）比「零样本」（35）略有优势。

模态

2025年，多模态和跨模态应用加速发展。

边界模糊

虽然传统计算机视觉关键词如「图像」和「视频」的频率相对保持不变，但「文本」/「语言」和「音频」出现的频率更高。

即使「多模态」这个词本身没有在论文标题中出现，也很难否认计算机视觉正在走向多模态的未来。

这在视觉-语言任务中尤其明显，正如「开放」、「提示」和「词汇」的急剧上升所表明的那样。

这种情况最极端的例子是「开放词汇」这个复合词，它在2025年只出现了3次，但在2025年出现了18次。

深入挖掘CVPR 2025论文标题中的关键词

点云9

三维计算机视觉应用正在从以二维图像推断3D信息（「深度」和「立体」）转向直接在3D点云数据上进行工作的计算机视觉系统。

CV标题的创造力

如果不将ChatGPT纳入其中，2025年任何与机器学习相关的全面报道都是不完整的。我们决定让事情变得有趣，并使用ChatGPT来寻找CVPR 2025中最有创意的标题。

对于每一篇上传到Arxiv的论文，我们抓取了摘要，并要求 ChatGPT （GPT-3.5 API）为相应的CVPR论文生成一个标题。

然后，我们将这些由ChatGPT生成的标题和实际的论文标题，使用OpenAI的text-embedding-ada-002模型生成嵌入向量，并计算ChatGPT生成的标题和作者生成的标题之间的余弦相似度。

这可以告诉我们什么？ChatGPT越接近实际的论文标题，这个标题就越可预测。换句话说，ChatGPT的预测越「偏」，作者给论文命名的「创造性」就越强。

嵌入和余弦相似度为我们提供了一个有趣的，尽管远非完美的，量化方法。

我们按照这个指标对论文进行了排序。话不多说，下面是最具创造性的标题:

实际的标题：Tracking Every Thing in the Wild

预测的标题：Disentangling Classification from Tracking: Introducing TETA for Comprehensive Benchmarking of Multi-Category Multiple Object Tracking

实际的标题：Learning to Bootstrap for Combating Label Noise

预测的标题：Learnable Loss Objective for Joint Instance and Label Reweighting in Deep Neural Networks

实际的标题：Seeing a Rose in Five Thousand Ways

预测的标题：Learning Object Intrinsics from Single Internet Images for Superior Visual Rendering and Synthesis

实际的标题：Why is the winner the best?

预测的标题：Analyzing Winning Strategies in International Benchmarking Competitions for Image Analysis: Insights from a Multi-Center Study of IEEE ISBI and MICCAI 2025

# gpt # 进行了 # 指的是 # 新英格兰 # 多模 # 这两个 # 首字母 # 出现在 # 出现了 # 掩码 # 关键词 # embedding # prompt # chatgpt # ar # stable diffusion # gpt-3.5 # gpt-3 # transformer # cnn # background # math # for # Object # bootstrap # midjourney

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【网络优化91478 】【技术知识72672 】【云计算0 】【 GEO优化84317 】【优选文章0 】【营销推广36048 】【网络运营41350 】【案例网站102563 】【 AI智能45237 】

2023-05-25

2025年中国汽车出口总量达832万辆纯电动占比28% OpenJudge— 阿里云和通义开源的AI应用自动化评测框架云米科技CEO给员工奖励小米YU7：期待能奖励更多台 D4RT— 谷歌推出的动态4D重建与追踪模型 2025中国市场百万超跑销量榜出炉：保时捷911领跑 2025年泰国汽车市场品牌销量榜单揭晓：丰田第一！毕业季/求职季必备！AI生成头像的4种实用场景（证件照风/商务形象/创意简历）情侣头像不求人！用AI生成专属二人世界的5种创意风格（动漫CP/古风画卷/电影海报） AI生成头像能商用吗？版权风险全解析（哪些平台可商用？如何避免侵权？）不用下载！在线AI生成头像的5个网站（手机秒出图，支持微信头像尺寸）朋友圈换头像指南｜3步用AI制作专属头像：输入描述→选模型→一键生成（小白必看）从照片到艺术品：一键生成AI头像的4个步骤详解（上传参考图→优化指令→风格迁移）别只用二次元了！探索AI生成头像的8个小众艺术流派（像素风/水墨画/波普艺术） AI生成头像 vs 专业约稿：哪个性价比更高？深度评测5大平台后我有了答案 2026年AI生成头像免费玩！年度TOP8在线工具盘点（免登录/出图快/风格多）懒人必备！5个“一句话”就能出图的AI头像网站（支持白话文/自动美化/创意无限） AI生成头像的隐私安全吗？7个主流平台隐私政策深度解读（如何保护个人照片）不用PS！在线AI生成头像的6个神级网站（零基础/支持中文指令/即刻出图） 2026年设计师新宠！7款激发灵感的AI头像生成器（概念艺术/角色设计/情绪表达） AI朋友圈文案生成器，一键解决你的社交文案荒

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

4008794355

87067657

13565296790

87067657@qq.com

服务/方案/案例/支持

产品服务

解决方案

营销案例

营销学院

关于我们

公司简介

报名培训

加入我们

4008794355

CVPR 2025论文总结！CV最热领域颁给多模态、扩散模型

CVPR一览

什么最热？

模型

任务

模态

CV标题的创造力

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

提交您的需求，1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司

4008794355

服务/方案/案例/支持

关于我们

Notice