当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换


4 月初,Meta 发布了史上首个图像分割基础模型--SAM(Segment Anything Model)[1]。作为分割模型,SAM 的能力强大,操作使用方式也十分友好,比如用户简单地点击来选择对应物体,物体就会立即被分割出来,且分割结果十分精准。截至 4 月 15 号,SAM 的 GitHub 仓库的 Star 数高达 26k。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如何利用好如此强大的「分割一切」模型,并拓展到更加有实际需求的应用场景至关重要。例如,当 SAM 遇上实用的图像修补(Image Inpainting)任务会碰撞出什么样的火花?

来自中国科学技术大学和东方理工高等研究院的研究团队给出了令人惊艳的答案。基于 SAM,他们提出「修补一切」(Inpaint Anything,简称 IA)模型。区别于传统图像修补模型,IA 模型无需精细化操作生成掩码,支持了一键点击标记选定对象,IA 即可实现移除一切物体(Remove Anything)、填补一切内容(Fill Anything)、替换一切场景(Replace Anything),涵盖了包括目标移除、目标填充、背景替换等在内的多种典型图像修补应用场景。

  • 论文链接:http://arxiv.org/abs/2304.06790
  • 代码库链接:https://github.com/geekyutao/Inpaint-Anything

方法介绍

尽管当前图像修补系统取得了重大进展,但它们在选择掩码图和填补空洞方面仍然面临困难。基于 SAM,研究者首次尝试无需掩码(Mask-Free)图像修复,并构建了「点击再填充」(Clicking and Filling) 的图像修补新范式,他们将其称为修补一切 (Inpaint Anything)(IA)。IA 背后的核心思想是结合不同模型的优势,以建立一个功能强大且用户友好的图像修复系统

IA 拥有三个主要功能:(i) 移除一切(Remove Anything):用户只需点击一下想要移除的物体,IA 将无痕地移除该物体,实现高效「魔法消除」;(ii) 填补一切(Fill Anything):同时,用户还可以进一步通过文本提示(Text Prompt)告诉 IA 想要在物体内填充什么,IA 随即通过驱动已嵌入的 AIGC(AI-Generated Content)模型(如 Stable Diffusion [2])生成相应的内容填充物体,实现随心「内容创作」;(iii) 替换一切(Replace Anything):用户也可以通过点击选择需要保留的物体对象,并用文本提示告诉 IA 想要把物体的背景替换成什么,即可将物体背景替换为指定内容,实现生动「环境转换」。IA 的整体框架如下图所示:

Inpaint Anything(IA)示意图。用户可以通过单击来选择图像中的任何物体。借助强大的视觉模型,如 SAM [1]、LaMa [3] 和 Stable Diffusion (SD) [3],IA 能够平滑移除选定物体(即 Remove Anything)。进一步地,通过向 IA 输入文本提示,用户可以用任何想要的内容填充物体(即 Fill Anything)或者任意替换对象的物体(即 Replace Anything)。

移除一切

移除一切(Remove Anything)示意图

 「移除一切」步骤如下:

  • 第 1 步:用户点击想要移除的物体;
  • 第 2 步:SAM 将该物体分割出来;
  • 第 3 步:图像修补模型(LaMa)填补该物体。

填补一切

填补一切(Fill Anything)示意图,图中使用的文本提示:a teddy bear on a bench

「填补一切」步骤如下:

  • 第 1 步:用户点击想要移除的物体;
  • 第 2 步:SAM 将该物体分割出来;
  • 第 3 步:用户通过文本示意想要填充的内容;
  • 第 4 步:基于文本提示的图像修补模型(Stable Diffusion)根据用户提供的文本对物体进行填充。

替换一切

替换一切(Replace Anything)示意图,图中使用的文本提示:a man in office

「填补一切」步骤如下:

  • 第 1 步:用户点击想要移除的物体;
  • 第 2 步:SAM 将该物体分割出来;
  • 第 3 步:用户通过文本示意想要替换的背景;
  • 第 4 步:基于文本提示的图像修补模型(Stable Diffusion)根据用户提供的文本对物体的背景进行替换。

模型结果

研究者随后在 COCO 数据集 [4]、LaMa 测试数据集 [3] 和他们自己用手机拍摄的 2K 高清图像上对 Inpaint Anything 进行测试。值得注意的是,研究者的模型还支持 2K 高清图和任意长宽比,这使得 IA 系统在各种集成环境和现有框架中都能够实现高效的迁移应用

移除一切实验结果

填充一切实验结果

文本提示:a camera lens in the hand

文本提示:an aircraft carrier on the sea

文本提示:a sports car on a road

文本提示:a Picasso painting on the wall

替换一切实验结果

文本提示:sit on the swing

文本提示:breakfast

文本提示:a bus, on the center of a country road, summer

文本提示:crossroad in the city

总结

研究者建立这样一个有趣的项目,来展示充分利用现有大型人工智能模型所能获得的强大能力,并揭示「可组合人工智能」(Composable AI)的无限潜力。项目所提出的 Inpaint Anything (IA) 是一种多功能的图像修补系统,融合了物体移除、内容填补、场景替换等功能(更多的功能正在路上敬请期待)。

IA 结合了 SAM、图像修补模型(例如 LaMa)和 AIGC 模型(例如 Stable Diffusion)等视觉基础模型,实现了对用户操作友好的无掩码化图像修复,同时支持「点击删除,提示填充」的等「傻瓜式」人性化操作。此外,IA 还可以处理具有任意长宽比和 2K 高清分辨率的图像,且不受图像原始内容限制。

目前,项目已经完全开源。最后,欢迎大家分享和推广 Inpaint Anything (IA) ,也很期待看见更多基于 IA 所拓展的新项目。未来,研究者将进一步挖掘 Inpaint Anything (IA) 的潜力 以支持更多实用的新功能,如细粒度图像抠图、编辑等,并将其应用到更多现实应用中。


# 掩码  # 就会  # 的是  # 长宽  # 图中  # 用户提供  # 可以通过  # 还可以  # 将该  # 对象  # 移除  # prompt  # AIGC  # https  # http  # stable diffusion  # 人工智能  # github 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: N8N自动化营销:无需编程实现AI智能获客  Napkin AI:AI驱动的文本可视化工具,轻松创建思维导图  Midjourney怎样用参数调色彩饱和度_Midjourney饱和度调整【方法】  老电脑焕新:i5-2400搭配FirePro V5900 打造复古游戏利器  Foocus:免费AI图像生成器终极指南及 OnlyFans 替代方案  如何在 Google Sheets 中利用 Gemini 自动填充数据  AI问卷调查生成工具有哪些_一键生成调研表单的AI工具推荐  正确安装梁托:终极指南与常见错误规避  教你用AI将一段旋律扩展成一首完整的曲子  AI合同提取指南:利用智能实现高效采购和节省成本  AI|直播|话术生成工具有哪些_一键生成带货话术的AI工具推荐  颠覆认知!《小丑回魂》幕后:用爆笑台词颠覆你的恐怖想象  AI PPT生成工具有哪些_一键生成演示文稿的AI工具推荐  小型邮件列表的终极指南:使用AI最大化营销效果  使用AI代码生成器轻松构建Web应用程序:Beela vs. Google AI Studio  AI威胁论:超人工智能ASI时代来临,人类如何应对?  Xeon E5-2667 V2性能评测:老平台焕发新生,游戏与工作负载表现分析  构建卓越的AI驱动测试自动化框架:QA工程师指南  如何使用 DeepSeek API 构建低成本智能应用  怎么用AI帮你写一份客户感谢信?维系客户关系的利器  文心一言如何做本地生活探店文案 文心一言内容种草指南  豆包AI里的智能体有什么用_不同类型智能体使用场景介绍  Beats to Rap On AI Stem Splitter:终极音乐创作工具  看我如何用AI辅助写作,在10分钟内搞0. AI求职信写作避坑指南:千万别犯这几个错误  生物医学图像分割:U-Net模型训练与应用详解  AI写作鱼怎么一键生成论文大纲_AI写作鱼大纲生成与逻辑梳理【技巧】  Descript vs. Wisecut:AI视频编辑工具深度测评与最佳选择  ChatGPT官方主页入口 ChatGPT网页版快速进入指南  Character AI终极指南:构建你的人工智能伴侣,探索无限可能  壹伴AI智能排版如何自动生成文章配图_壹伴AI智能排版配图生成与版权说明【教程】  lovemo手机网页版 lovemo官方入口地址  ChatGPT 4.0赋能室内设计:20+实用技巧提升工作效率  百度AI搜索能否查实时新闻_百度AI搜索新闻频道与更新频率【方法】  怎么用AI帮你为初创公司进行市场定位分析?  VideoInu AI 动画制作:教程、功能与Pro账户赠送  Docker MCP Toolkit:简化AI代理与外部工具的连接  FeelinAI聊天网页版 Feelin官方网站地址  通义千问怎样优化提示词减冗余_通义千问减冗余技巧【方法】  冷邮件营销新策略:工作坊模式助力B2B销售增长  如何用AI根据职位描述(JD)定制你的求职信?  揭秘面部和谐:打造完美脸型的终极指南  AI卡通视频制作终极指南:轻松打造百万流量  kimi生成ppt怎么编辑文字_kimi编辑文字后怎么保存  AI驱动音频优化:提升音质的终极指南  Google AI Studio文本转语音教程:零成本创作高质量音频  通义万相做小红书配图怎么用_通义万相做小红书配图使用方法详细指南【教程】  人脸识别的伦理困境:Massive Attack的演出引发的思考  去哪旅行ai抢票助手怎样提升抢票速度_去哪旅行ai抢票助手加速包与多通道使用【技巧】  AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答  改善面部不对称:简单有效的肌肉平衡技巧 

 2023-04-30

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.