微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能


重新表达:研究动机


掩码建模(MIM, MAE)被证明是非常有效的自监督训练方法。然而,如图 1 所示,MIM 对于更大的模型效果相对更好。当模型很小的时候(比如 ViT-T 5M 参数,这样的模型对于现实世界非常重要),MIM 甚至可能一定程度上降低模型的效果。比如用 MAE 训练的 ViT-L 比普通监督训练的模型在 ImageNet 上的分类效果提升 3.3%,但是用 MAE 训练的 ViT-T 比普通监督训练的模型在 ImageNet 上的分类效果降低了 0.6%。

在这篇工作中我们提出了 TinyMIM,其在保持 ViT 结构不变并且不修改结构引入其他归纳偏置(inductive bias)的基础上、用蒸馏的方法迁移大模型上的知识到小模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜



  • 论文地址:https://arxiv.org/pdf/2301.01296.pdf
  • 代码地址:https://github.com/OliverRensu/TinyMIM

我们系统性的研究了蒸馏目标、数据增强、正则化、辅助损失函数等对于蒸馏的影响。在严格的只用 ImageNet-1K 作为训练数据的情况下(包括 Teacher model 也只用 ImageNet-1K 训练)和 ViT-B 作为模型,我们的方法实现了当前最好的性能。如图所示:



把我们的方法(TinyMIM)和基于掩码重建的方法 MAE,以及监督式学习的方法从头开始训练的 DeiT 作比较。MAE 在模型比较大的时候有显著的性能提升,但是在模型比较小的时候提升幅度有限甚至会伤害模型的最终效果。我们的方法 TinyMIM 在不同模型的大小上都有大幅提升。

我们的贡献如下:

1. 蒸馏的目标(Distillation targets):1)蒸馏 token 之间的关系比单独蒸馏 class token 或者特征图(feature map)更有效;2)用中间层作为蒸馏的目标更有效。
2. 数据增强和模型正则化(Data and network regularization):1)用带掩码的图片效果更差;2)学生模型需要一点 drop path,但是 teacher 模型不需要。
3. 辅助损失函数(auxiliary losses):MIM 作为辅助损失函数没有意义。
4. 宏观蒸馏策略(Macro distillation strategy):我们发现序列化的蒸馏(ViT-B -> ViT-S -> ViT-T)效果最好。

二、方法



我们系统性的调研了蒸馏的目标,输入的图片,蒸馏目标模块。

2.1 影响蒸馏效果的因素

1)特征:

a. 中间 block 特征和输出特征



当 i=L 时,指的是 Transformer 输出层的特征。当 i

b. 注意力(Attention)特征和前馈层(FFN)层特征



Transformer 每一个 block 有 Attention 层和 FFN 层,蒸馏不同的层会带来不同的影响。

c.QKV 特征



在 Attention 层内会有 Q,K,V 特征,这些特征用于计算注意力机制,我们也调研了直接蒸馏这些特征。

2)关系



Q,K,V 用于计算注意力图,这些特征之间的关系也可以作为知识蒸馏的目标。

3)输入:是否带掩码

传统的知识蒸馏是直接输入完整的图片。我们的方法为了探索蒸馏掩码建模模型,所以我们也探索了带掩码的图片是否适合作为知识蒸馏时候的输入。

2.2 知识蒸馏方法对比

1)Class Token 蒸馏:

最简单的方法就是类似 DeiT 直接蒸馏 MAE 预训练模型的 class token:



其中指学生模型的 class token,而 指老师模型的 class token。

2)特征蒸馏:我们直接参考了 feature distillation [1] 作为对比




3)关系蒸馏:我们提出了也是本文默认的蒸馏策略



三、实验

3.1 主要实验结果

我们的方法在 ImageNet-1K 上预训练,而且教师模型也是在 ImageNet-1K 预训练。然后我们将我们预训练的模型在下游任务(分类、语义分割)上进行了微调。模型表现如图:



我们的方法显著超过之前基于 MAE 的方法,尤其是小模型。具体来讲,对于超小的模型 ViT-T,我们的方法实现了 75.8% 的分类准确性,相比 MAE 基线模型实现了 4.2 的提升。对于小模型 ViT-S,我们实现了 83.0% 的分类准确性,比之前最好的方法提升了 1.4。对于 Base 尺寸的模型,我们的方法分别超过 MAE 基线模型和以前最好的模型 CAE 4.1 和 2.0。

同时我们也测试了模型的鲁棒性,如图所示:



TinyMIM-B 对比 MAE-B,在 ImageNet-A 和 ImageNet-R 分别提升了 + 6.4 和 +4.6。

3.2 消融实验

1)蒸馏不同关系



同时蒸馏 QK,VV 关系而且在计算关系的时候有 Softmax 实现了最好的效果。

2)不同的蒸馏策略



TinyMIM 这种蒸馏关系的方法实现了比 MAE 基线模型,class token 蒸馏,特征图蒸馏都更好的效果,在各种尺寸的模型上都是如此。

3)蒸馏中间层



我们发现蒸馏第十八层实现了最好的效果。

四、结论

在本文中,我们提出了 TinyMIM,它是第一个成功地使小模型受益于掩码重建建模(MIM)预训练的模型。我们没有采用掩码重建作为任务,而是通过以知识蒸馏的方式训练小模型模拟大模型的关系来预训练小模型。TinyMIM 的成功可以归功于对可能影响 TinyMIM 预训练的各种因素的全面研究,包括蒸馏目标、蒸馏输入和中间层。通过大量的实验,我们得出结论,关系蒸馏优于特征蒸馏和类标记蒸馏等。凭借其简单性和强大的性能,我们希望我们的方法能够为未来的研究提供坚实的基础。

[1] Wei, Y., Hu, H., Xie, Z., Zhang, Z., Cao, Y., Bao, J., ... & Guo, B. (2025). Contrastive learning rivals masked image modeling in fine-tuning via feature distillation. arXiv preprint arXiv:2205.14141.


# Token  # class  # map  # github  # transformer  # https  # 最好的  # 掩码  # 实现了  # 中间层  # 提出了  # 如图  # 更有效  # 如图所示  # 都是  # 是在 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Jasper AI如何做SEO优化 Jasper AI结合SurferSEO用法【教程】  Beats to Rap On AI Stem Splitter:终极音乐创作工具  VideoGen教程:AI视频生成器,无需拍摄快速制作视频  v0 Report深度测评:AI文档生成器的优缺点分析与实用指南  智谱AI智能绘图怎么用_智谱AI智能绘图使用方法详细指南【教程】  AI海报设计终极指南:免费智能工具,手机轻松搞定!  旅游营销AI:ChatGPT邮件营销策略,提升旅游业务转化率  AI产品经理:AI赋能与AI原生,未来PM的技能演进  GitHub Copilot终极指南:提升代码效率与质量  JSON Prompting: 创造爆款AI广告的秘诀和方法  探索Roblox:虚拟角色定制与互动乐园  百度输入法ai面板怎么关 百度输入法ai面板隐藏技巧  Midjourney怎样加参数调细节_Midjourney参数调整技巧【指南】  AI CRM集成:提升客户关系管理效率的关键  通义万相AI绘画怎么用_通义万相AI绘画使用方法详细指南【教程】  ChatGPT官网免费使用入口 ChatGPT在线版官方地址  Shopify着陆页:用AI工具快速提升营销效果  AI视频生成器:免费工具,图像转视频和文字转视频  AI周报生成工具有哪些_一键生成工作总结的AI工具推荐  百度AI搜索怎么用语音提问_百度AI搜索语音输入与识别优化【指南】  智谱AI绘画怎么用_智谱AI绘画使用方法详细指南【教程】  利用 Gemini 1.5 Pro 进行超长视频摘要提取  EdrawMax AI:使用人工智能快速创建流程图和图表  文心一言辅助进行行业深度研究报告撰写  国产开源模型Kimi K2 Thinking上线美应用,挑战美国科技巨头!  VHEER AI:免费在线AI图像生成器终极指南  11月电动两轮车线上销售排名出炉:九号份额达26.9%  ChatGPT图像生成器完全指南:文化影响、伦理挑战与商业变革  Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】  解密Poppy Playtime怪物:全面解析玩具世界背后的故事  如何在 Google Sheets 中利用 Gemini 自动填充数据  RPGGO AI:颠覆传统!2D游戏创作新纪元  探索贝奥武夫:英雄史诗的起源、故事与文化意义  利用 ChatGPT 进行复杂数学公式的推导教程  AI图像识别如何减少保险欺诈和加速理赔  雷小兔ai智能写作如何生成文案_雷小兔ai智能写作文案生成场景选择【攻略】  怎么用AI帮你解读复杂的学术论文?快速抓住核心论点和证据  如何利用文心一言优化知乎高赞回答的逻辑结构  Motion:革新项目管理的智能日历解决方案  秀米AI排版如何自动生成模板_秀米AI排版模板生成入口与风格选择【攻略】  AI赋能音频转录:SovereignAudio自托管解决方案  利用 Google AI 进行图像元数据分析与整理  Agentic Testing入门:使用Playwright和Claude Code构建自动化框架  Vidu AI:使用Q1模型轻松创建电影级短片  Tradie Hub:领先的线索管理系统,助力业务增长  Fiverr网站审计终极指南:免费工具、SEO技巧和实战案例  打破平庸:激发你的内在动力,重塑卓越人生  Feelin网页版在线使用 Feelin官网登录入口  Feelin网页版在线玩 Feelin角色扮演网页版入口  百度AI助手直接入口 一键直达官网入口 

 2023-09-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.