文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM'23
【新智元导读】参数高效的微调方法SUR-adapter,可以增强text-to-image扩散模型理解关键词的能力。
扩散模型已经成为了主流的文本到图像生成模型,可以基于文本提示的引导,生成高质量且内容丰富的图像。
但如果输入的提示过于简洁,现有的模型在语义理解和常识推理方面都存在局限,导致生成的图像质量下降明显。
为了提高模型理解叙述性提示的能力,中山大学HCP实验室林倞团队提出了一种简单而有效的参数高效的微调方法SUR-adapter,即语义理解和推理适配器,可应用于预训练的扩散模型。
论文地址:https://arxiv.org/abs/2305.05189
开源地址:https://github.com/Qrange-group/SUR-adapter
为了实现该目标,研究人员首先收集并标注了一个数据集SURD,包含超过5.7万个语义校正的多模态样本,每个样本都包含一个简单的叙述性提示、一个复杂的基于关键字的提示和一个高质量的图像。
然后,研究人员将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成。
通过集成多个LLM和预训练扩散模型来进行实验,结果展现了该方法可以有效地使扩散模型理解和推理简洁的自然语言描述,并且不会降低图像质量。
该方法可以使文本到图像的扩散模型更容易使用,具有更好的用户体验,可以进一步推进用户友好的文本到图像生成模型的发展,弥补简单的叙事提示和复杂的基于关键字的提示之间的语义差距。
背景介绍
目前,以Stable diffusion为代表的文生图 (text-to-image)预训练扩散模型已经成为目前AIGC领域最重要的基础模型之一,在包括图像编辑、视频生成、3D对象生成等任务当中发挥着巨大的作用。
然而目前的这些预训练扩散模型的语义能力主要依赖于CLIP等文本编码器 (text encoder),其语义理解能力关系到扩散模型的生成效果。
本文首先以视觉问答任务(VQA)中常用问题类别的"Counting (计数)", "Color (颜色)"以及"Action (动作)"构造相应的本文提示来人工统计并测试Stable diffusion的图文匹配准确度。
下表给出了所构造的各种prompt的例子。
结果如下表所示,文章揭示了目前文生图预训练扩散模型有严重的语义理解问题,大量问题的图文匹配准确度不足50%,甚至在一些问题下,准确度只有0%。
因此,需要想办法增强预训练扩散模型中本文编码器的语义能力以获得符合文本生成条件的图像。
方法概述
1. 数据准备
首先从常用的扩散模型在线网站lexica.art,civitai.com,stablediffusionweb中大量获取图片文本对,并清洗筛选获得超过57000张高质量 (complex prompt, simple prompt, image) 三元组数据,并构成SURD数据集。
如图所示,complex prompt是指生成image时扩散模型所需要的文本提示条件,一般这些文本提示带有复杂的格式和描述。simple prompt是通过BLIP对image生成的文本描述,是一种符合人类描述的语言格式。
一般来说符合正常人类语言描述的simple prompt很难让扩散模型生成足够符合语义的图像,而complex prompt(对此用户也戏称之为扩散模型的“咒语”)则可以达到令人满意的效果。
2. 大语言模型语义蒸馏
本文引入一个transformer结构的Adapter在特定隐含层中蒸馏大语言模型的语义特征,并将Adapter引导的大语言模型信息和原来文本编码器输出的语义特征做线性组合获得最终的语义特征。
其中大语言模型选用的是不同大小的LLaMA模型。扩散模型的UNet部分在整个训练过程中的参数都是冻结的。
3. 图像质量恢复
由于本文结构在预训练大模型推理过程引入了可学习模块,一定程度破坏了预训练模型的原图生成质量,因此需要将图像生成的质量拉回原预训练模型的生成质量水平。
本文利用SURD数据集中的三元组在训练中引入相应的质量损失函数以恢复图像生成质量,具体地,本文希望simple prompt通过新模块后获得的语义特征可以和complex prompt的语义特征尽可能地对齐。
下图展示了SUR-adapter对预训练扩散模型的fine-tuning框架。右侧为Adapter的网络结构。
实验结果
本文从语义匹配和图像质量两个角度来看SUR-adapter的性能。
一方面,如下表所示,SUR-adapter可以有效地在不同的实验设置下缓解了文生图扩散模型中常见的语义不匹配问题。在不同类别的语义准则下,准确度有一定的提升。
另一方面,本文利用常用的BRISQUE等常用的图像质量评价指标下,对原始pretrain扩散模型和使用了SUR-adapter后的扩散模型所生成图片的质量进行统计检验,我们可以发现两者没有显著的差异。
同时,我们还对此进行了人类偏好的调查问卷测试。
以上分析说明,所提出的方法可以在保持图像生成质量的同时,缓解固有的预训练text-to-image固有的图文不匹配问题。
另外我们还可以定性地展示如下图所示的图像生成的例子,更详细的分析和细节请参见本文文章和开源仓库。
HCP实验室简介
中山大学人机物智能融合实验室 (HCP Lab) 由林倞教授于2010年创办,近年来在多模态内容理解、因果及认知推理、具身智能等方面取得丰富学术成果,数次获得国内外科技奖项及最佳论文奖,并致力于打造产品级的AI技术及平台。
参考资料:
https://arxiv.org/abs/2305.05189
滴滴崩了上热搜 官方回应:滴滴网约车等服务已恢复
今日7点30分左右,滴滴官方发布公告称,经技术团队连夜修复,滴滴网约车等服务已恢复,用户可下载滴滴App使用打车服务。骑车等服务还在陆续修复中,所有可开锁或未关锁的青桔车辆均可免费骑行,希望能为缓解早高峰压力努力多做一点点。据悉,11月27日晚间,滴滴因系统故障导致App服务异常。同时,滴滴还表示,搜集整理了相关问题和意见,说明如下:站长网2023-11-28 15:18:310000远离元宇宙后 扎克伯格财富增长了3000亿全球最多
凤凰网科技讯北京时间5月20日消息,去年,脸书创始人马克扎克伯格(MarkZuckerberg)全力押注“元宇宙”,愿意不惜一切代价来主导虚拟现实世界。结果,这让他付出了巨大的代价。他的财富一度从最高点下降了1000多亿美元。对于几年前还是世界第三富豪的他来说,这是一个惊人的财富蒸发速度。站长网2023-05-20 10:54:410000Whale帷幄发布“搞钱GPT”——Alivia 专为营销打造
Whale帷幄发布了国内首个MarketingGPT产品Alivia,它是一个专为Marketing打造的类ChatGPT产品,能够妥妥hold住整个营销运营工作的一整套闭环。Alivia相对于其他GPT模型的优势在于,它更加专注于时尚、美容、生活方式等主题,因而生成的内容更符合用户预期。Alivia能够快速生成营销文案、策划案、口味测试软文等内容。站长网2023-04-21 17:50:010000支付宝或将发布群、付费流量推广等新产品
8月16日消息,2023支付宝合作伙伴大会将于明日举行。一组活动相关海报近日引发广泛关注,海报标注了“群”、“云”、“直播”、“芝麻”、“灯火”等关键词,业内猜测这或是支付宝即将在大会上亮相的新产品。记者从部分技术服务商处获悉,此前,支付宝已面向商家和服务商小范围开放了群、直播、付费流量推广等产品。站长网2023-08-16 12:54:200000抖音回应西方臻选被封号:涉及仿冒假冒、不当蹭热
据澎湃新闻报道,针对“西方臻选”被封号的情况,抖音相关负责人表示,账号涉及仿冒假冒,不当蹭热,平台已将账号封禁,收回直播权限,抹除不当获取粉丝,取消其营利权限。此前,有网友发现了一个名为“西方甄选”的抖音账号在网上出现。该账号的名字与东方甄选仅有一字之差,主播也与东方甄选的董宇辉相似。该账号在开播当晚就获得了百万播放量,引发了网友们的关注和讨论。0000