首页站长资讯Google AI 推出 MediaPipe Diffusion 插件：可在设备上实现可控的文本到图像生成

Google AI 推出 MediaPipe Diffusion 插件：可在设备上实现可控的文本到图像生成

站长网2023-07-04 00:16:112阅

Diffusion 模型近年来在文本到图像生成方面得到广泛应用，并取得了显著的成功，从而在图像质量、推理性能和创造性范围方面实现了重大改进。然而，在难以用文字明确定义的条件下，有效的生成管理仍然是一个挑战。

由谷歌研究人员开发的 MediaPipe Diffusion 插件使得用户可以在设备上执行文本到图像的生成，并进行用户控制。在这项研究中，谷歌延伸了之前关于设备上大型生成模型的 GPU 推理的工作，提出了低成本的可编程文本到图像创建解决方案，可以集成到现有的 Diffusion 模型及其 LoRA 变体中。

Diffusion 模型中模拟了迭代去噪的图像生成过程。Diffusion 模型的每一次迭代都以受噪声污染的图像开始，并以目标概念的图像结束。通过文本提示的语言理解极大地增强了图像生成过程。文本嵌入通过交叉注意力层与文本到图像生成模型关联起来。然而，物体的位置和姿态等细节可能更难以通过文本提示传达。研究人员通过额外的模型将条件图像中的控制信息引入到 Diffusion 中。

Plug-and-Play、ControlNet 和 T2I Adapter 方法经常用于生成受控的文本到图像输出。Plug-and-Play 使用 Diffusion 模型的副本（Stable Diffusion1.5 版本的 860M 参数）和广泛使用的去噪 Diffusion 隐式模型（DDIM）反演方法来从输入图像中推导出初始噪声输入。

通过自注意力从复制的 Diffusion 中提取空间特征，并使用 Plug-and-Play 将其注入到文本到图像 Diffusion 中。ControlNet 构建了 Diffusion 模型编码器的可训练副本，并通过一个带有零初始化参数的卷积层连接到编码条件信息，然后传递给解码器层。不幸的是，这导致了模型的显著增大，Stable Diffusion1.5 版本的参数约为 4.5 亿个，相当于 Diffusion 模型本身的一半。T2I Adapter 在较小的网络（77M 参数）下实现了可比较的受控生成结果。条件图像是 T2I Adapter 的唯一输入，其结果被用于所有后续的 Diffusion 周期。然而，这种适配器样式不适用于移动设备。

MediaPipe Diffusion 插件是谷歌开发的一个独立网络，旨在使条件生成变得高效、灵活和可扩展。

作为一种便携式的设备上文本到图像创建范式，MediaPipe Diffusion 插件可以免费下载使用。它接收一个条件图像，并通过多尺度特征提取将特征添加到 Diffusion 模型的编码器中的适当尺度上。

当与文本到图像 Diffusion 模型结合使用时，插件模型将一个条件信号添加到图像生成过程中。谷歌希望插件网络只有 600 万个参数，使其成为一个相对简单的模型。

MediaPipe：https://developers.google.com/mediapipe

GoogleAI 推出 MediaPipeDiffusion插件 可在设备上实现可控的文本到图像生成

0002

评论列表

共(0)条

相关推荐

站长资讯
曾秒售罄口袋AI设备Rabbit R1竟是一场骗局？设备源代码首次曝光
划重点:⭐️rabbit.techRabbitR1设备源代码首次曝光⭐️揭露RabbitR1设备真相⭐️存在的安全隐患和工程实践问题美国初创公司rabbit.tech推出的口袋AI设备RabbitR1曾一度引起轰动，声称该设备能够代替用户执行任务，让用户远离应用程序的束缚。Rabbit首批1万台竟在短短一天内就被抢购一空，其售价为199美元
站长网2024-04-24 16:11:32
0000
站长资讯
英伟达推出合规版RTX4090D显卡规格下调性能依旧强劲
12月29日，英伟达官网显示，英伟达面向中国市场推出了合规版旗舰显卡GeForceRTX4090D，这是英伟达应对美国新一轮芯片出口管制措施的产品。据悉，RTX4090D在原版RTX4090的基础上进行了微调，核心规格包括CUDA核心数从16384降至14592，SM单元从128降至114;GPU频率得到小幅提升，基础频率由2.23GHz提高到2.28GHz，加速频率提高到2.52GHz。
站长网2023-12-29 13:16:17
0000
站长资讯
微信：将打击炒作低俗绯闻丑闻、煽动粉丝拉踩引战等行为
微信发布《关于进一步加强“饭圈”专项整治的公告》称，近期平台在巡查中发现，有个别用户通过炒作低俗绯闻丑闻，煽动粉丝群体进行拉踩引战，此类行为严重破坏了平台生态，平台对相关内容进行了清理，并从严处置违规账号，视违规严重程度进行封禁处理。
站长网2024-03-19 17:02:45
0000
站长资讯
苹果市值一夜蒸发8000亿美司法部正式对苹果提起反垄断诉讼
美国司法部和十几个州的总检察长对苹果公司提起了反垄断诉讼，指控苹果公司利用其对苹果产品硬件和软件的控制垄断手机市场，损害了消费者、开发商和竞争对手公司的利益。这导致苹果市值在一夜之间蒸发了超过1100亿美元，约合人民币8000亿元。苹果公司表示遵守监管规定会花费大量资金，可能阻止其推出新产品或服务，并可能损害客户需求。
站长网2024-03-23 00:22:30
0000
站长资讯
广告回暖，拯救大厂
中国最赚钱的互联网公司中，大部分都靠广告赚钱。360集团创始人兼CEO周鸿祎曾说过，互联网就三种商业模式，一种是卖东西，一种是卖广告，还有一种是以游戏为代表的增值服务。互联网企业发展至今，依旧没离开这三种模式。其中广告模式，是不少互联网企业最擅长，也最依赖的业务。
站长网2023-09-15 10:55:21
0000