近年来,文本生成图像领域取得了许多令人惊讶
的突破,许多模型都能够根据文本指令创建高质量和多样化的图像。尽管生成的图像已经非常逼真,但目前的模型通常擅长生成风景、物体等实物图像,而难以生成具有高度连贯细节的图像,例如带有汉字等复杂字形文本的图像
为了解决这个问题,来自OPPO等机构的研究者们提出了一个名为GlyphDraw的通用学习框架。该框架的目标是让模型能够生成嵌入连贯文本的图像。这项工作是图像合成领域中首个解决汉字生成问题的工作
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
请点击以下链接查看论文:https://arxiv.org/abs/2303.17870
项目主页链接:https://1073521013.github.io/glyph-draw.github.io/
让我们先来看一下生成效果,比如为展览馆生成警示标语:
制作广告牌:
为图片添加简要的文字说明,同时还可以多样化文字样式
还有一个有趣且实用的例子是生成表情包:
尽管结果有一些缺陷,但总体而言,该研究的生成效果已经非常出色。该研究的主要贡献包括:
该研究提出了一个名为GlyphDraw的汉字图像生成框架。在整个生成过程中,利用汉字字形和位置等辅助信息,该框架能够提供细粒度的指导,从而使得生成的汉字图像能够高质量地无缝嵌入到图像中
这项研究提出了一种有效的训练策略,通过限制预训练模型中可训练参数的数量,以防止过拟合和灾难性遗忘(catastrophic forgetting),成功地保持了模型在开放域生成方面的强大性能,并且能够准确地生成汉字图像
这项研究详细描述了构建训练数据集的过程,并提出了一种新的基准方法来评估汉字图像生成的质量。其中,GlyphDraw 的生成准确率达到了75%,明显优于之前的图像合成方法
模型介绍:
首先,该研究设计了一种复杂的图像-文本数据集构建策略。接着,利用开源图像合成算法Stable Diffusion,提出了一种通用学习框架GlyphDraw,如图2所示
稳定扩散的整体训练目标可以表示为以下公式:
GlyphDraw是基于Stable Diffusion中的交叉注意力机制的。它将原始输入的潜在向量z_t与图像的潜在向量z_t、文本掩码l_m和字形图像l_g进行级联替代
此外,通过使用特定领域的融合模块,条件 C 配备了混合字形和文本特征。引入文本掩码和字形信息,使整个训练过程实现了细粒度的扩散控制,这是提高模型性能的关键组成部分,最终能够生成带有汉字文本的图像
具体来说,文本信息的像素表征,在特别是复杂的文本形式中,如象形汉字,与自然物体存在明显的差异。举例来说,中文词语「天空(sky)」是由二维结构的多个笔画组成,而对应的自然图像是「点缀着白云的蓝天」。相比之下,汉字具有非常细粒度的特性,即使是微小的移动或变形也会导致文本渲染不正确,从而无法实现图像生成
嵌入字符到自然图像背景中还需要考虑一个关键问题,即在不影响相邻自然图像像素的情况下,精确控制文本像素的生成。为了在自然图像上展示出完美的汉字,作者设计了两个关键组件,即位置控制和字形控制,它们被集成到了扩散合成模型中
与其他模型的全局条件输入不同,字符生成需要更多地关注图像的特定局部区域,因为字符像素的潜在特征分布与自然图像像素的潜在特征分布有很大差异。为了防止模型学习崩溃,该研究创新性地提出了细粒度位置区域控制来解耦不同区域之间的分布
重写后的内容:除了位置控制之外,另一个重要问题是对汉字笔画合成进行精细控制。考虑到汉字的复杂性和多样性,在没有任何明确的先验知识的情况下,仅仅从大量的图像-文本数据集中学习是非常困难的。为了准确生成汉字,该研究将显式的字形图像作为额外的条件信息引入模型的扩散过程中
为了保持原意不变,需要将内容改写为中文,以下是改写后的内容: 研究设计和实验结果
由于此前没有专门用于汉字图像生成的数据集,该研究首先创建了一个用于定性和定量评估的基准数据集ChineseDrawText。随后,研究人员在ChineseDrawText上进行了几种方法的生成准确率测试,并通过OCR识别模型进行评估
该研究提出的GlyphDraw模型通过充分利用辅助字形和位置信息,达到了平均准确率为75%的出色效果,证明了该模型在字符图像生成方面的卓越能力。下图展示了几种方法的可视化比较结果
此外,GlyphDraw还可以通过限制训练参数来保持开放域图像合成性能,在MS-COCO FID-10k上一般图像合成的FID仅下降了2.3
感兴趣的读者可以阅读论文原文,了解更多研究细节。
# 提出了
# 还可以
# 达到了
# 细粒度
# 高质量
# 过程中
# 掩码
# 几种方法
# 这是
# 情况下
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
AI网页生成工具有哪些_一键生成企业官网的AI工具推荐
Google AI Studio 中的提示词微调实验教程
解密Poppy Playtime怪物:全面解析玩具世界背后的故事
Ignite & Sell Assistant:AI 邮件营销终极指南
使用ChatGPT快速生成专辑封面:AI艺术创作指南
百度浏览器侧边栏ai怎么关 百度浏览器ai侧边栏隐藏
Xcode 26 Beta 新功能:集成 ChatGPT 代码助手全面测评
怎么用ai做证件照换底色 AI一键抠图与背景色替换【方法】
AI在软件测试中的应用:提升效率与质量的关键策略
Depseek能否批量生成部门总结_Depseek多部门总结批量生成步骤【方法】
通义千问怎么用_通义千问使用方法详细指南【教程】
EcoFlow Delta 3 Max Plus:打造你的智能电力生态系统
扣子AI如何绑定自有域名_扣子AI域名绑定与SSL配置【步骤】
ChatGPT 在电商产品描述批量生成中的应用
AI驱动保险代理:最佳保险 lead generation 公司与服务
教你用AI帮你进行论文选题,快速找到有研究价值的方向
Codeforces Pair Programming Problem: C 解题思路
ChatGPT 如何助力建筑承包商?三大实用技巧解析
SEO优化利器:利用AI提升标签的关键词密度
探索孟加拉音乐魅力:高尔德普林特莎丽,节日欢歌
如何使用 DeepSeek API 构建低成本智能应用
文心一言怎么一键生成会议纪要_文心一言纪要生成与重点提取【指南】
讯飞星火怎么一键生成|直播|话术_讯飞星火话术生成与节奏把控【教程】
Jetson SegNet: 语义分割深度探索与实践
使用文心一言进行中文客服话术库的逻辑优化
百度ai助手工具栏怎么关 百度ai助手状态栏隐藏
Gemini 辅助进行多平台社交媒体内容调度
Gemini怎样用语音输入_Gemini语音输入设置【方法】
Claude怎样写任务型提示词_Claude任务提示词写法【步骤】
AI合同提取指南:利用智能实现高效采购和节省成本
SEO已死?重塑品牌线上可见性的新策略
可灵ai怎么生成招聘JD文案_可灵aiJD生成要素与岗位描述优化【技巧】
豆包AI能否生成领导汇报版总结_豆包AI汇报版精简与结构调整【教程】
ChatGPT多轮对话技巧分享 引导AI深入探讨复杂问题的方法
AI虚拟女友:终极浪漫伴侣还是数字陷阱?
豆包Ai官网在线入口_豆包Ai网页版访问方式
AMD Ryzen 5 2600: 游戏玩家高性价比之选
钉钉ai划词工具怎样查看划词历史_钉钉ai划词工具历史记录查询【指南】
AI数据分析报告生成工具有哪些_一键生成可视化报告的AI工具推荐
批改网AI检测工具怎样批量检测作文_批改网AI检测工具批量上传与处理流程【攻略】
AI旅游攻略生成工具有哪些_一键生成行程规划的AI工具推荐
DeepSeek解释机器学习模型 DeepSeek数据科学学习指南
理论框架写作指南:3步构建研究基石
豆包 AI 辅助进行精简版个人周报撰写技巧
Character AI终极指南:构建你的人工智能伴侣,探索无限可能
打造AI Jarvis:停止功能、联网、中文与人脸集成
GravityWrite:AI驱动的内容创作,提升排名和效率
AI论文写作终极指南:DeepSeek与HIX Bypass结合使用教程
如何利用豆包 AI 快速查询当地生活服务资讯
使用 ChatGPT 构建自动化 SEO 关键词库
2023-08-29
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。