从来没有见过的新物体,它也能进行很好地分割。
这是DeepMind研究出的一种新的学习框架:目标发现和表示网络(Object discovery and representation networks,简称Odin)
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
以往的自我监督学习(SSL)方法能够很好地描述整个大的场景,但是很难区分出单个的物体。
现在,Odin方法做到了,并且是在没有任何监督的情况下做到的。
区分出图像中的单个物体可不是很容易的事,它是怎么做到的呢?
能够很好地区分出图像中的各个物体,主要归功于Odin学习框架的“自我循环”。
Odin学习了两组协同工作的网络,分别是目标发现网络和目标表示网络。
目标发现网络以图像的一个裁剪部分作为输入,裁剪的部分应该包含图像的大部分区域,且这部分图像并没有在其他方面进行增强处理。
然后对输入图像生成的特征图进行聚类分析,根据不同的特征对图像中各个物体的进行分割。
目标表示网络的输入视图是目标发现网络中所生成的分割图像。
视图输入之后,对它们分别进行随机预处理,包括翻转、模糊和点级颜色转换等。
这样就能够获得两组掩模,它们除了剪裁之外的差异,其他信息都和底层图像内容相同。
而后两个掩模会通过对比损失,进而学习能够更好地表示图像中物体的特征。
具体来说,就是通过对比检测,训练一个网络来识别不同目标物体的特征,同时还有许多来自其他不相干物体的“负面”特征。
然后,最大化不同掩模中同一目
标物体的相似性,最小化不同目标物体之间的相似性,进而更好地进行分割以区别不同目标物体。
与此同时,目标发现网络会定期根据目标表示网络的参数进行相应的更新。
最终的目的是确保这些对象级的特性在不同的视图中大致不变,换句话说就是将图像中的物体分隔开来。
那么Odin学习框架的效果究竟如何呢?
Odin方法在场景分割时,没有先验知识的情况下迁移学习的性能也很强大。
首先,使用Odin方法在ImageNet数据集上进行预训练,然后评估其在COCO数据集以及PASCAL和Cityscapes语义分割上的效果。
已经知道目标物体,即获得先验知识的方法在进行场景分割时,效果要明显好于其他未获得先验知识的方法。
而Odin方法即使未获得先验知识,其效果也要优于获得先验知识的DetCon和ReLICv2。
除此之外,Odin方法不仅可以应用在ResNet模型中,还可以应用到更复杂的模型中,如Swim Transformer。
在数据上,Odin框架学习的优势很明显,那在可视化的图像中,Odin的优势在何处体现了呢?
将使用Odin生成的分割图像与随机初始化的网络(第3列),ImageNet监督的网络(第4列)中获得的分割图像进行比较。
第3、4列都未能清晰地描绘出物体的边界,或者缺乏现实世界物体的一致性和局部性,而Odin生成的图像效果很明显要更好一些。
参考链接:
[1] https://twitter.com/DeepMind/status/1554467389290561541
[2] https://arxiv.org/abs/2203.08777
# 很好
# 很明显
# 两组
# 这是
# 情况下
# 是在
# 更好地
# 还可以
# 很难
# 也要
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
Midjourney怎样做PPT模板_MidjourneyPPT模板生成【方法】
Android图像翻译器应用:技术、应用与未来展望
教你用AI进行市场调研,快速生成消费者洞察报告
Claude怎样写任务型提示词_Claude任务提示词写法【步骤】
Postman Flows:构建智能AI驱动型工作流完全指南
Canva AI终极指南:释放AI力量,设计触手可及
Feelin网页版在线玩 Feelin角色扮演网页版入口
如何使用 DeepSeek API 构建低成本智能应用
DeepSeek金融数据分析教程 DeepSeek量化交易策略开发
美食ASMR:感官盛宴与解压体验
AI一键生成儿童绘本故事
如何使用 DeepSeek 进行大规模舆情关键词提取
飞猪旅行AI如何预约抢票_飞猪AI抢票预约与加速包使用【攻略】
千问怎么使用插件功能_千问插件调用与功能扩展【教程】
使用 ChatGPT 自动生成月度财务分析报告
Apollo.io vs Instantly AI:深度测评与功能对比
ChatGPT官方主页入口 ChatGPT网页版快速进入指南
ChatGPT 处理非结构化数据并转换为 JSON 格式
AI 播客脚本写作工具:提升内容创作效率的终极指南
使用 ChatGPT 构建自动化 SEO 关键词库
Gemini怎样写精准提示词_Gemini提示词编写方法【步骤】
TechInternPath.ai:AI驱动的实习之路,助你梦想成真
千问AI赚钱指南:新手也能月入破万的实操路径解析!
Tune AI: 革新音乐创作,AI音乐平台深度测评
播客数据深度分析:用户地域分布及增长策略探讨
Kling AI 2.5 Turbo:视频生成领域的颠覆者,深度评测与对比
探索Roblox:虚拟角色定制与互动乐园
DeepSeek V3 本地部署对硬件要求的详细说明
ChatGPT官网免费使用入口 ChatGPT在线版官方地址
goPDF:AI驱动的PDF文档处理全方位指南,提升工作效率
OpenAI Sora 2:AI视频生成新纪元
解锁生成式AI工程师之路:技能、职业发展与未来趋势
VisualGPT: 免费AI图像生成、编辑及室内设计工具详解
探索未来:AI机器人AURORA揭秘亚特兰蒂斯之谜
AI一键生成原创SEO文章
探索孟加拉音乐魅力:高尔德普林特莎丽,节日欢歌
Depseek能否生成领导汇报版总结_Depseek汇报版结构调整与精简技巧【教程】
AI照片编辑:为你的单人照添加逼真女友,告别孤单
Orkestra Obsolete: 用古董乐器重塑经典“Blue Monday”
在线歌曲歌词生成器:创意歌词轻松创作指南
AI产品经理:AI赋能与AI原生,未来PM的技能演进
AI任务管理器终极评测:找到最适合你的效率神器
AI学习秘籍:3个高效黑科技,解锁智能学习新时代
AI赋能副业:五大掘金机会,轻松开启智能创收时代
ChatGPT助力QA测试:提升效率与质量的终极指南
Midjourney怎么用一键生成logo_Midjourneylogo生成步骤【教程】
如何用AI帮你把小说改编成电影剧本?3步掌握核心技巧
如何用AI帮你创建自定义表情符号(Emoji)?聊天斗图更有趣
C3.ai深度解析:投资者必知的关键洞察
tofai官网最新入口地址 tofai网页版免下载
2023-04-12
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。