首页站长资讯研究人员提出AI免优化框架DreamIdentity 保持身份一致且可编辑

研究人员提出AI免优化框架DreamIdentity 保持身份一致且可编辑

站长网2023-07-19 19:53:510阅

为了解决人脸身份保存和可编辑性方面的问题，研究人员提供了一个独特的免优化框架（名为 DreamIdentity）。通过创建一个独特的多词多尺度身份编码器 (M2ID 编码器)，以实现准确的身份表示，并使用自增强的可编辑性学习方法将编辑任务移到训练阶段。他们的方法既保持了身份的一致性，又实现了文本引导的灵活修改，有效实现了身份再语境化。

据了解，传统的文本到图像模型可以根据自然语言描述生成与特定人脸身份相关的不同情境的图像。然而，现有的优化无关方法在保持身份的同时保持模型的可编辑性方面存在困难。

由于基于扩散的大规模文本到图像（T2I）模型，创建视觉材料的学科最近发生了变化。这些 T2I 模型使制作引人入胜、富有表现力且以人为本的图形变得简单。这些模型的一个有趣的用途是，它们能够根据日常生活中特定人的面孔(我们的家人、朋友等)，使用自然语言描述生成与身份相关的各种情况。身份重新情境化挑战与图1所示的典型 T2I 任务不同，要求模型在遵守文本提示的同时保持输入面部识别(即 ID 保留)。

为每个人脸身份个性化预训练的 T2I 模型是一种可行的方法。它需要学习通过增强单词嵌入或微调模型参数来将特定单词与本质相关联。由于每个身份的优化，这些基于优化的方法可能会更有效。为了避免耗时的每个身份优化，各种免优化方法建议直接将从预训练图像编码器（通常是 CLIP）获得的图像特征映射到词嵌入中。然而，这会损害 ID 的保存。因此，这些技术存在损害原始 T2I 模型编辑技能的危险，因为它们要么需要微调预训练 T2I 模型的参数，要么改变原始结构以注入额外的网格图像特征。

简而言之，所有并发的免优化工作都在努力保持身份，同时保持模型的可编辑性。他们认为，两个问题，即（1）错误的身份特征表示和(2)训练和测试目标不一致，是现有无优化研究中上述困难的根本原因。一方面，目前最好的 CLIP 模型在 top-1人脸识别准确率上仍然比人脸识别模型差很多(80.95% vs.87.61%)，这表明所使用的通用编码器(即 CLIP)通过同时努力不足以完成身份重新情境化工作。此外，CLIP 的最后一层功能主要关注高级语义而不是精确的面部描述，输入面部的可编辑性受到使用普通重建目标来学习单词嵌入的所有并发任务的负面影响。为了解决上述身份保存和可编辑性方面的困难，他们提供了一个独特的免优化框架(名为 DreamIdentity)，具有准确的身份表示和一致的训练/推理目标。更准确地说，他们在 Vision Transformer 的架构中创建了独特的多字多尺度 ID 编码器(M2ID 编码器)，以实现正确的识别表示。该编码器在相当大的人脸数据集上进行了预训练，并将多尺度特征投影到多词嵌入中。

中国科学技术大学和字节跳动的研究人员提出了一种新颖的自我增强可编辑性学习方法，将编辑任务转移到训练阶段。该方法使用 T2I 模型通过生成名人面孔和各种目标编辑的名人图像来构建自增强数据集。M2ID 编码器使用此数据集进行训练，以提高模型的可编辑性。他们对这项工作做出了以下贡献:他们认为，由于错误的表示和不一致的训练/推理目标，现有的免优化方法对于 ID 保存和高可编辑性来说是无效的。

从技术上讲，（1）他们建议使用 M2ID 编码器，这是一种具有多重嵌入投影的 ID 感知多尺度特征，用于适当的表示。(2) 它们结合了自我增强的可编辑性学习，使底层 T2I 模型能够提供高质量的数据集进行编辑，以实现一致的训练/推理目标。综合研究证明了他们的方法的有效性，有效地实现了身份保留，同时允许灵活的文本引导修改或身份重新上下文化。

研究人员提出AI免优化框架DreamIdentity保持身份一致且可编辑

0000

评论列表

共(0)条

相关推荐

站长资讯
LARP：开放世界游戏的语言代理角色扮演
LARP是一个开创性的框架，旨在增强用户和语言代理在开放世界游戏中的交互。LARP框架包括了一个涵盖记忆处理和决策辅助功能的认知架构，一个具有反馈驱动可学习行动空间的环境交互模块，以及促进各种个性对齐的后处理方法。这一框架的引入优化了用户与预定义具有独特背景和个性特征的代理之间的互动，最终增强了在开放世界情景中进行游戏体验。
站长网2024-01-02 10:19:28
0000
站长资讯
苹果新专利可识别用户状态通过瞳孔等识别是否分心等
近日，苹果公司公布了一项识别用户状态的专利。该专利名为“利用亮度变化来确定用户特征”，涉及用亮度变化来确定用户特征。专利摘要显示，本文公开的一些实施方式基于用户对其中一部分或全部内容快速变得更亮或更暗的亮度变化事件的生理（例如，瞳孔）响应来识别用户的状态(例如，专心、分心、走神等)。
站长网2023-04-12 13:29:49
0000
站长资讯
百度百家号：度加创作工具平台“AI笔记”功能将下线
百度百家号发布《关于度加创作工具平台【AI笔记】下线通知》称，由于业务升级调整，将于2023年11月30日起对度加创作工具平台-【AI笔记】功能进行下线，其他功能不受影响，仍可正常使用。创作者在下线前，需要及时备份未发布的笔记草稿，下线后未发布的笔记草稿将自动清理，不再保留。已发布的笔记作品可在百家号-【内容管理】查看。
站长网2023-11-07 12:01:09
0000
21岁单干18个月，做出98%好评、24万人同时在线的爆款
没想到，2023年最大的黑马，到年尾才登场。12月3日，一款单人开发、零宣发的独立恐怖游戏《LethalCompany（致命公司）》(EA，抢先体验版本)，冲到了Steam全球热销第二。此时距离它10月24日正式上架，才刚过去一个月出头。同日，它的同时在线玩家人数也达到了新高——接近24万人。游戏在线人数，图源:SteamCharts
站长网站长资讯2023-12-08 09:38:56
0005
AI助力短剧，技术、艺术踏入同一条河流
被称为AI短剧元年的2024年，AI还在以前所未有的速度重塑短剧边界。AI短剧打响“第一枪”AI高速发展，大厂纷纷涌入大模型赛道。快手星芒短剧联手可灵AI自探索AIGC短剧以来，已在全网掀起一股全民AI短剧创作热潮。
站长网站长资讯2024-11-06 10:43:16
0000