图片质量媲美Midjourney、SDXL?PixArt训练成本减少90%
要点:
PixArt-α是一款基于Transformer的文本到图像生成模型,具有竞争力的图像生成质量,且训练成本明显低于现有大规模文本到图像模型。
PixArt-α采用了三项核心设计:训练策略分解,高效的T2I Transformer,以及使用高信息密度的数据进行训练,从而实现高分辨率图像合成,并在训练成本上取得显著节约。
PixArt-α不仅能够生成高分辨率图像,而且在复杂文本提示下表现出色,与现有系统如Stable Diffusion XL、Imagen和DALL-E2相比,既能匹敌其质量,又更加高效。
PixArt是一款基于Transformer的文本到图像生成模型,其图像生成质量可与最先进的图像生成器(例如Imagen、SDXL,甚至Midjourney)竞争,达到接近商业应用的标准。这种新模型使用Transformer扩散模型,可以比使用UNet模型训练便宜90%。它还支持高达1024px 分辨率的高分辨率图像合成,且训练成本较低。
项目地址:
https://huggingface.co/docs/diffusers/main/en/api/pipelines/pixart?utm_source=talkingdev.uwl.me
该模型通过三项核心设计实现了高分辨率图像的合成,同时显著降低了训练成本。首先,采用训练策略分解,将训练过程分为三个步骤,分别优化像素依赖性、文本-图像对齐和图像审美质量。其次,引入了高效的T2I Transformer,通过在Diffusion Transformer中加入交叉注意力模块,注入文本条件并简化计算密集型的类别条件分支。最后,利用高信息密度的数据进行训练,强调文本-图像对中概念密度的重要性,并借助大型视觉语言模型自动标注密集伪标题,助力文本-图像对齐学习。
PixArt不仅在高分辨率图像合成上表现出色,还能有效遵循复杂文本提示,使其在图像生成领域具有广泛的应用前景。与现有系统相比,如Stable Diffusion XL、Imagen和DALL-E2,PixArt-α不仅匹敌其生成质量,而且在训练效率上更为高效。
实验证明,PixArt的训练速度仅占Stable Diffusion v1.5训练时间的10.8%(675vs.6,250A100GPU天),节省近30万美元和减少90%的CO2排放。与更大的SOTA模型RAPHAEL相比,训练成本仅为1%。总体而言,PixArt-α在图像质量、艺术性和语义控制方面都表现卓越,为AIGC社区和初创公司提供了加速从零开始构建高质量低成本生成模型的新视角。
在使用PixArt时,可以通过设定不同的尺寸范围来获得最佳结果,作者推荐了一些尺寸范围。此外,PixArt支持高分辨率图像合成,最高可达1024像素,且训练成本较低。因此,PixArt不仅在技术上取得了显著进展,而且在实际应用中具有巨大的潜力。
视频号互选平台创作者奖发布,释放了什么信号?
过去一年,在克劳锐与多位机构和品牌营销负责人的沟通对话中,视频号的内容与商业红利被提及的次数越来越多。官方数据显示,2023年视频号生态总用户播放量增超50%,互选创作者数呈倍数增长,互选平台广告主合作规模增长150%,越来越多品牌通过好内容与好产品的组合拳,获取用户增量。站长网2024-01-19 09:23:160000中风瘫痪18年,AI让她再次「开口说话」!脑机接口模拟表情,数字化身当嘴替|Nature
【新智元导读】中风后,瘫痪的Ann失语了18年。就在最近,脑机接口和数字化身,竟让她能用面部表情「说话」了。同一天,Nature双发「脑机接口」重磅研究,足以改变整个人类!30岁那年,一次毁灭性的中风,让一位47岁加拿大女性几乎完全瘫痪,此后失语18年。幸运地是,来自加州大学的团队开发了全新脑机接口(BCI),让Ann控制「数字化身」再次开始说话了。站长网2023-08-25 17:23:230000防游戏玩家作弊、限制广告机器人,Google 最新提案遭抨击:杀死开放 Web,绝对不道德!
「Google这家搜索巨头不仅正在加紧计划控制互联网,甚至还要杀死开放的Web」,这是近日很多业界人士对Google发出的质疑声。事情的起因源于Google工程师带来了一项有关新WebAPI的工作草案规范,他们将该标准称之为Web环境完整性解释器(WEI),旨在利用浏览器和设备信息进行验证,确保用户是真人而非机器人。站长网2023-07-29 10:51:260000梁汝波公布字节跳动2024年全员会关键词:“始终创业,逃逸平庸的重力
30日晚,字节跳动举行了年度全员会,CEO梁汝波在会中宣布了公司2024年的关键词:“始终创业,逃逸平庸的重力”。梁汝波在分享中多次强调“危机感”,将“加强危机感”列为年度目标,并坦言最大的危机感是担心字节作为一个组织正逐渐变得平庸,难以取得新的突破。站长网2024-01-31 09:13:170001Eagle7B: 基于RWKV-v5架构、跨足100多种语言的7.52B参数AI模型
##划重点:🚀7.52B参数的Eagle7B是一项重大的AI建模进展,以其独特的高效性和绿色环保性质脱颖而出。💡采用创新的RWKV-v5架构,Eagle7B不仅在多语言任务中表现出色,而且在23种语言的各种基准测试中超越其他70亿参数模型。🌱尽管参数众多,Eagle7B被认为是世界上最环保的7B模型之一,其低推理成本和能效使其在各个领域具有广泛的应用前景。站长网2024-02-05 10:20:510000