训练成本降低16倍,极限压缩42倍!开源文本生成图片模型
Stable Diffusion是目前最强开源文本生成图片的扩散模型之一,但对于那些没有A100、H100的中小企业、个人开发者来说有一个很大缺点,需要花费高昂的训练成本。
为了解决这一痛点,Wuerstchen开源模型采用了一种全新的技术架构,在保证图片质量的情况下实现了42倍极限压缩。以512x512尺寸的训练图片为例,Stable Diffusion1.4需要150,000小时的GPU训练时间,而Wuerstchen仅需要9,000小时,训练成本降低了16倍。
即便是图片分辨率高达1536,Wuerstchen也只需要24,602小时,训练成本仍然比Stable Diffusion便宜6倍。
所以,该开源产品有利于那些没有庞大算力的开发者去尝试扩散模型,同时可以在此基础之上探索更好的训练方法。
开源地址:https://huggingface.co/warp-ai/wuerstchen
Github:https://github.com/dome272/Wuerstchen
论文:https://arxiv.org/abs/2306.00637
Wuerstchen简单介绍
Wuerstchen扩散模型采用了一种,在图像的高度压缩的潜在空间中的工作方法。这也是其训练成本比Stable Diffusion低的原因之一。
压缩数据可以将训练和推理的成本减少几个数量级。例如,在1024×1024的图像上训练肯定要比32×32上训练贵得多。通常业内采用的压缩范围在4—8倍左右。
而Wuerstchen通过全新的技术架构将压缩发挥到极限,实现了42倍空间压缩,这是史无前例的技术突破!因为一旦超过16倍压缩,普通方法根本无法实现图片的重建。
Wuerstchen极限压缩原理
Wuerstchen的极限压缩方法分为A、B、C三个阶段:A阶段)进行初始训练,并采用向量量化生成对抗网络 (VQGAN) 来创建离散化潜在空间,将数据映射到一个预定义的、较小的集合中的点,这种紧凑的表示形式有助于模型学习和推理速度;
B阶段)进一步压缩,使用一个编码器将图像投影到一个更加紧凑的空间,和一个解码器试图从编码的图像中重建VQGAN的潜在表达。
并使用了基于Paella模型的标记预测器来完成这个任务。该模型是在编码图像的表示的条件下进行的,可以使用更少的采样步骤数量进行训练,这对于提升算力效率帮助巨大。
C阶段)使用A、B的图像编码器将图像投射到紧凑的潜在空间,训练一个文本条件的潜在扩散模型,并显著减少空间维度。这个离散的潜在空间允许模型生成,更具有多样性和创新性的图像,同时还保留了图片的高质量特征。
Wuerstchen可以生成的图片尺寸
Wuerstchen接受了1024x1024和1536x1536分辨率之间的图像训练数据,输出的图片质量非常稳定。即便是1024x2048这样的非对等图片,同样可以得到很好的效果。
开发者还发现,Wuerstchen对新分辨率图片的训练适应能力非常强,在2048x2048分辨率图片下进行数据微调,同样能极大降低成本。
Wuerstchen生成图片展示
根据Wuerstchen展示的案例,该模型对文本的理解能力非常好,生成的质量效果也能媲美Stable Diffusion等目前最强开源扩散模型。
第二季度,这些互联网大厂都赚钱了
文|石灿、世昕、张潇杨、星晖、陈梅希8月以来,国内互联网大厂相继发布2023年第二季度业绩公告。从数据看,二季度对大部分公司来说是个“温暖的季节”。最实际的一项指标是,大家都赚到钱了,有的扭亏为盈,有的增速加快,有的利润创历史新高。站长网2023-08-26 10:24:530000为促进活跃度,Facebook“上AI”帮用户制作Stories
近日,科技博主MattNavarra发布推文称,Facebook新增了一个叫作“高级故事”(AdvancedStories)的模式。如上图所示,Facebook会在App内询问用户是否想要开启“高级故事”模式,如果用户开启该模式的话,Facebook将会利用AI技术帮用户把他们在FacebookApp内上传过的图片制作成Stories。站长网2023-04-16 15:08:050000这项AI研究引入 Atom:一种低位量化技术,可实现高效、准确LLM)服务
划重点:-📌Atom是一种低比特量化技术,旨在提高大型语言模型(LLM)的服务吞吐量,同时保持准确性。-📌Atom采用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。-📌Atom通过将服务吞吐量提高多达7.73倍,相比于典型的16位浮点(FP16)和8位整数(INT8)量化方法,从而满足了对LLM服务需求的不断增长。站长网2023-11-24 10:06:220002万达成立万采数字供应链公司 含AI应用软件开发等业务
天眼查App显示,万达旗下万采数字供应链(珠海)有限公司成立,注册资本1000万人民币,经营范围含互联网数据服务、供应链管理服务、游艺及娱乐用品销售、人工智能应用软件开发、人工智能基础资源与技术平台、大数据服务等。站长网2023-07-13 07:40:500000Spotify将推出人工智能驱动技术的“DJ”功能
Spotify正在全球数十个市场扩展其由人工智能驱动的“DJ”功能,此前该功能在北美地区推出已有六个月。通过Spotify移动应用程序中的“音乐”订阅部分提供,DJ通过精选的音乐选择个性化用户的听歌体验,其中包括由合成音声提供的口述评论。评论内容包括轻松幽默的谈话和上下文信息,涉及到用户之前听过的特定歌曲和艺术家。是的,这有点像为每个个体量身定制节目的广播DJ。站长网2023-08-09 17:18:250000