T2I扩散模型PIXART-α:图像生成质量媲美Stable Diffusion
划重点:
新时代的逼真图像合成:文本到图像(T2I)生成模型DALLE2、Imagen和Stable Diffusion,对后续应用产生深远影响。
降低成本的高质量图像生成:研究人员提出PIXART-α,大幅降低了训练成本,同时保持了与最新图像生成器相媲美的图像质量。
改进文本到图像生成:通过创新方法,包括训练策略和数据集改进,提高了T2I模型的效率和质量。
最近,文本到图像(T2I)生成模型如DALLE2、Imagen和Stable Diffusion的发展,开启了逼真图像合成的新时代。这不仅对图片编辑、视频制作、3D素材创建等领域产生了深远影响,还为研究社区和企业提供了许多下游应用的机会。
然而,这些复杂的模型需要巨大的计算资源来进行训练。例如,训练SD v1.5需要6,000块A100GPU,成本约为32万美元。而更大的模型RAPHAEL,甚至需要60,000块A100GPU,成本高达308万美元。此外,训练会产生大量的二氧化碳排放,给环境造成了压力,例如,RAPHAEL的训练会产生35吨的二氧化碳排放,相当于一个人七年的排放量。
这种高昂的价格限制了研究社区和企业获得这些模型,严重阻碍了人工智能生成内容(AIGC)领域的发展。关键问题是,是否可以以更少的资源开发高质量的图像生成模型?
来自华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究人员提出了PIXART-α,它显著降低了训练成本,同时保持了与最新图像生成器相匹敌的图像质量。他们提出了三个主要的设计思路:
首先,他们通过分解训练计划,将文本到图像生成问题划分为三个简单的子任务:学习自然图像像素的分布、学习文本图像对齐以及提高图像的美观度。通过使用低成本的类别条件模型初始化T2I模型,大幅降低了第一个子任务的学习成本。其次,他们提出了一个训练范例,包括在信息密度高的文本图像对数据上进行预训练,然后在更高审美质量的数据上进行微调,以提高训练效果。他们还使用交叉注意力模块来注入文本条件,并简化了计算密集的类别条件分支,从而提高了效率。
此外,他们提出了一种重新参数化方法,可以让修改后的文本到图像模型直接导入原始类别条件模型的参数。这样一来,他们可以利用ImageNet关于自然图片分布的过去知识,为T2I Transformer提供合理的初始化,加速训练过程。
在高质量信息方面,他们的研究揭示了现有的文本-图像对数据集存在显著缺陷,例如LAION。文本描述经常受到严重的长尾效应影响(即很多名词出现频率极低),而且缺乏信息内容(通常只描述图像中的一部分物体)。这些缺陷极大地降低了T2I模型训练的效果,需要数百万次迭代才能获得可靠的文本图像对齐。他们建议使用最先进的视觉-语言模型进行自动标注,以在SAM上生成说明,从而克服这些问题。
SAM数据集具有大量多样化的对象,这使其成为生成信息密度高的文本-图像对的理想来源,更适合文本-图像对齐学习。他们的聪明方法使其模型的训练非常高效,仅需675块A100GPU天和26,000美元。与Imagen相比,他们的方法使用更少的训练数据量(0.2% vs. Imagen)和更短的训练时间(2% vs. RAPHAEL)。他们的训练费用约为RAPHAEL的1%,为他们节省了约300万美元。
关于生成质量,他们的用户研究试验显示,PIXART-α提供了比当前SOTA T2I模型、Stable Diffusion等更好的图像质量和语义对齐,此外,它在T2I-CompBench上的性能显示出在语义控制方面具有优势。
他们预计,他们有效训练T2I模型的努力将为AIGC社区提供有用的见解,并帮助更多的独立学术界或公司以更实惠的价格生成高质量的T2I模型。
总之,PIXART-α具有以下特色和功能:
高质量图像生成:PIXART-α基于Transformer技术,能够生成高质量、艺术性强、高细节、广角镜头的图像,包括明亮的场景、鸟瞰图、古城、幻想、华丽的光线、镜面反射等。
低培训成本:与其他先进的文本到图像模型相比,PIXART-α的培训成本明显降低,仅需相对较少的训练资源,从而显著降低了培训过程中的时间和经济成本。
高分辨率图像合成:PIXART-α支持高分辨率图像的合成,可以生成高达1024px分辨率的图像,这有助于满足商业应用的需求。
训练效率:该模型提出了一种训练策略分解,通过优化不同的训练步骤来提高训练效率,包括像素依赖性、文本图像对齐和图像美学质量的优化。
CO2排放减少:PIXART-α的低培训成本也导致了较低的CO2排放,对环境友好,有助于减少碳排放。
支持文本-图像对齐:该模型强调了文本-图像对之间概念密度的重要性,并利用大型视觉语言模型自动标记密集的伪标题以提高文本-图像对齐的质量。
控制功能:PIXART-α还提供了控制功能,允许用户生成定制图像,精确修改物体颜色等,以满足特定需求。
PIXART-α论文网址:https://arxiv.org/abs/2310.00426
PIXART-α项目网址:https://pixart-alpha.github.io/
全网最全华为手机隐藏功能!
1、微信悬浮小窗模式时,点开相册并长按图片,可将图片直接拖至对话框,快速发图。2、可以把要发送的图片和文件都拖入中转站整理好之后一起发送给对方(长按图片或者文件会唤出中转站)3、打开相机,点开拍照页面左上角的[智慧视觉],可以实现识物、识文、翻译、识别食物卡路里、一键还原试卷、扫描证件照等。站长网2023-05-24 08:14:110000五菱宏光MINI EV家族至高直降13000元 全系29800元起
今日,五菱汽车宣布,即日起,五菱宏光MINIEV家族至高直降13000元,新老用户选购均可享受优惠,全系29800元起。据了解,近日,国家发展改革委、国家能源局发布《关于加快推进充电基础设施建设更好支持新能源汽车下乡和乡村振兴的实施意见》,鼓励新能源汽车企业支持农村地区购买使用新能源汽车。站长网2023-05-22 10:33:590000麦肯锡发布生成式AI报告,预测2030可达人类水平
【新智元导读】麦肯锡AI报告发布,生成式AI进步飞快,经济效益巨大,未来不可小觑。麦肯锡重磅报告发布!核心结论就一句话:AI达到人类水平的时间会比想象中要快,中位预测是2030年前。要知道,和2017年人们的预测相比,新报告就突出一个乐观。上图是报告最终的结果图,我们后面挨个细说。报告综述开宗明义,报告先是对我们目前生活受科技多大影响进行了一个完美的概括。站长网2023-10-16 14:44:1800002024年生成式AI支出将翻倍,到2027年将超1500亿美元
#划重点1.🚀2023年企业在生成式人工智能(GenAI)解决方案上的全球投资达194亿美元,预计将在2024年翻番。2.💹国际数据公司(IDC)预测,2023年至2027年期间,包括GenAI软件、相关硬件和服务在内的支出将在2027年达到1511亿美元,年均增长率为86.1%。0000360智脑API平台正式开放 首先为20个行业提供解决方案
6月28日,360集团创始人周鸿祎在GPT产业联盟成立大会上发布了360企业级AI大模型战略,并宣布360智脑API平台正式开放,将首先为20个行业提供解决方案。据了解,360智脑行业解决方案将率先在安全、传媒、文旅、政务、能源等近20个行业落地,为企业级用户构建包括“办公写作大脑、决策分析大脑、知识管理大脑、客户服务大脑、文旅招商大脑”在内的“五个智慧大脑”。站长网2023-06-29 11:39:580000