Google AI 推出 MediaPipe Diffusion 插件:可在设备上实现可控的文本到图像生成
Diffusion 模型近年来在文本到图像生成方面得到广泛应用,并取得了显著的成功,从而在图像质量、推理性能和创造性范围方面实现了重大改进。然而,在难以用文字明确定义的条件下,有效的生成管理仍然是一个挑战。
由谷歌研究人员开发的 MediaPipe Diffusion 插件使得用户可以在设备上执行文本到图像的生成,并进行用户控制。在这项研究中,谷歌延伸了之前关于设备上大型生成模型的 GPU 推理的工作,提出了低成本的可编程文本到图像创建解决方案,可以集成到现有的 Diffusion 模型及其 LoRA 变体中。
Diffusion 模型中模拟了迭代去噪的图像生成过程。Diffusion 模型的每一次迭代都以受噪声污染的图像开始,并以目标概念的图像结束。通过文本提示的语言理解极大地增强了图像生成过程。文本嵌入通过交叉注意力层与文本到图像生成模型关联起来。然而,物体的位置和姿态等细节可能更难以通过文本提示传达。研究人员通过额外的模型将条件图像中的控制信息引入到 Diffusion 中。
Plug-and-Play、ControlNet 和 T2I Adapter 方法经常用于生成受控的文本到图像输出。Plug-and-Play 使用 Diffusion 模型的副本(Stable Diffusion1.5 版本的 860M 参数)和广泛使用的去噪 Diffusion 隐式模型(DDIM)反演方法来从输入图像中推导出初始噪声输入。
通过自注意力从复制的 Diffusion 中提取空间特征,并使用 Plug-and-Play 将其注入到文本到图像 Diffusion 中。ControlNet 构建了 Diffusion 模型编码器的可训练副本,并通过一个带有零初始化参数的卷积层连接到编码条件信息,然后传递给解码器层。不幸的是,这导致了模型的显著增大,Stable Diffusion1.5 版本的参数约为 4.5 亿个,相当于 Diffusion 模型本身的一半。T2I Adapter 在较小的网络(77M 参数)下实现了可比较的受控生成结果。条件图像是 T2I Adapter 的唯一输入,其结果被用于所有后续的 Diffusion 周期。然而,这种适配器样式不适用于移动设备。
MediaPipe Diffusion 插件是谷歌开发的一个独立网络,旨在使条件生成变得高效、灵活和可扩展。
作为一种便携式的设备上文本到图像创建范式,MediaPipe Diffusion 插件可以免费下载使用。它接收一个条件图像,并通过多尺度特征提取将特征添加到 Diffusion 模型的编码器中的适当尺度上。
当与文本到图像 Diffusion 模型结合使用时,插件模型将一个条件信号添加到图像生成过程中。谷歌希望插件网络只有 600 万个参数,使其成为一个相对简单的模型。
MediaPipe:https://developers.google.com/mediapipe
25.99万元起!特斯拉Model 3焕新版开启全国交付
特斯拉宣布,Model3焕新版汽车开启全国陆续交付,价格从25.99万元起,长续航全轮驱动版售价29.59万起。根据特斯拉官网信息,后驱车型可提供606公里CLTC续航里程,最高时速为200km/h,百公里加速时间6.1秒。长续航车型的最高时速同样为200km/h,但百公里加速时间缩短至4.4秒,CLTC续航里程达到713公里。站长网2023-10-26 10:04:230000苹果 15 英寸 MacBook Air 开售 售价 10499 元起
今日,苹果15英寸MacBookAir正式开售,苹果称其是世界上最纤薄的15英寸笔记本电脑,厚度仅11.5毫米,重量不到1.5千克,售价10,499元起,提供四种精美外观:午夜色、星空色、深空灰和银色。站长网2023-06-13 14:58:53000029000亿美元!微软开盘市值超越苹果重回第一
快科技1月14日消息,据媒体报道,日前美股早盘开盘,微软市值最高上涨至29000亿美元(约合207866亿元人民币),超越苹果重回全球第一大科技公司。报道表示,微软市值最高上涨至2.9万亿美元,意味着微软正式超越拥有2.88万亿美元市值的苹果,重新夺回全球第一大科技公司的宝座(截至目前双方市值还在拉扯中)。0000再见了Lightning! iPhone15迎来USB-C时代
据国外媒体报道,苹果公司下一代iPhone15几乎可以肯定会配备USB-C端口,取代目前的Lightning连接器。这主要是由于欧盟的一项新法规要求在欧盟国家销售的所有手机必须使用USB-C端口进行充电。尽管这一要求要到2024年才会正式生效,但各种迹象表明,苹果已经做好了在iPhone15上使用USB-C的准备。站长网2023-09-12 09:36:490000AI视野:百川发布Baichuan2-192K大模型;DALL·E3新增种子功能;ChatGPT Plus会员可上传和分析文件;谷歌Bard支持实时生成回复
🤖📈💻💡大模型动态百川智能发布Baichuan2-192K大模型,可处理35万汉字百川智能发布了Baichuan2-192K大模型,拥有全球最长的上下文窗口,处理约35万个汉字,超越了Claude2。百川大模型官网:https://top.aibase.com/tool/baichuandamoxing【AiBase提要】站长网2023-10-30 16:05:510000