OpenAI 发布 DALL-E 3 文生图模型:与 ChatGPT 完全集成 在细节和提示保真度方面挑战极限
站长之家(ChinaZ.com) 9月21日消息:本周三,OpenAI 宣布了 DALL-E 3,这是其最新版本的 AI 图像合成模型,它与 ChatGPT 完全集成。
DALL-E 3 通过紧密遵循复杂的描述并处理图像内文本生成(如标签和标志)来渲染图像,这是早期模型所面临的挑战。目前处于研究预览阶段,将于十月初提供给 ChatGPT Plus 和企业客户。
与其前身一样,DALL-E 3 是一种文本到图像生成器,根据称为提示的书面描述创建新颖的图像。尽管 OpenAI 没有透露关于 DALL-E 3 的技术细节,但以前版本的 DALL-E 的核心 AI 模型是基于由人类艺术家和摄影师创作的数百万张图像进行训练的,其中一些是从像 Shutterstock 这样的库网站获得许可的。DALL-E 3 很可能也遵循了这一相同的方法,但使用了新的训练技术和更多的计算训练时间。
从 OpenAI 在其宣传博客上提供的示例来看,DALL-E 3 似乎是迄今为止可用于按提示操作的图像合成模型中的一个巨大突破。尽管 OpenAI 的示例是精选的,以展示其效果,但它们似乎忠实地遵循了提示的指令,并以无需任何「黑科技」或提示工程即可令对象逼真地呈现出来。
与 DALL-E 2 相比,OpenAI 表示 DALL-E 3 能够更有效地细化手部等小细节,从而默认情况下创建引人入胜的图像。
相比之下,来自另一竞争对手供应商 Midjourney 渲染了逼真的细节,但仍然需要对提示进行大量反直觉的调整才能控制图像输出。
DALL-E 3 似乎还可以处理图像中的文本,而其前身无法做到这一点(一些竞争模型,如 Stable Diffusion XL 和 DeepFloyd,在这方面表现得越来越好)。例如,包含「一幅画中,一个鳄梨坐在治疗师椅子上,说着『我感到内心空虚』,中间有一个坑孔大小的洞」的提示,创建了一个卡通鳄梨,角色的台词完美地被包含在一个对话气泡中。
图片来自OpenAI
值得注意的是,OpenAI 表示 DALL-E 3 是「在 ChatGPT 上本地构建」的,并将作为 ChatGPT Plus 的一个集成功能推出,使 AI 助手能够作为头脑风暴的合作伙伴以一种与当前对话的背景相一致的上下文环境方式生成图像。这可能会带来新的能力。微软的 Bing Chat AI 助手,也是基于 OpenAI 的技术构建的,自去年三月以来就能够在对话中生成图像。
DALL-E 的原始版本于 2021 年 1 月出现,OpenAI 在 2022 年 4 月推出了更强大的续作,以令人震惊的方式引发了 AI 生成图像的新时代,深深吸引了最初的封闭测试者。DALL-E 模型使用一种称为「潜在扩散」的技术,将噪音转化为它从训练数据集中获得的知识和提示的图像。同样的技术在去年 8 月也使开放权重模型 Stable Diffusion 诞生。
由于 DALL-E 是通过从人类创作的艺术作品的大规模数据集中获取概念来学习图像的,自从去年引入主流以来,AI 图像生成技术一直备受争议。这项技术引发了艺术家的抗议,他们担心它会取代他们或不道德地复制他们的风格,引发了关于未经版权持有人同意使用作为训练数据的被抓取图像的版权侵权的诉讼,以及关于美国版权办公室和美国地方法院对版权的新裁决。
作为对这些争议的回应,OpenAI 表示,DALL-E 3 将拒绝要求以在世艺术家风格制作图像的请求。OpenAI 还提供了一个表单,供创作者选择不让他们的图像用于训练未来的模型。这些措施似乎不太可能满足那些通常认为 AI 训练应该仅限于选择加入而不包含在默认图像数据集中的艺术家。
目前,美国的版权政策规定,纯粹由 AI 生成的艺术作品无法获得版权保护,因此使用 DALL-E 3 创建的任何图像都将属于公有领域。尽管 OpenAI 没有明确承认这一点,但它表示「您使用 DALL-E 3 创建的图像属于您,您无需我们的许可即可重新印刷、销售或制作商品。」这与去年 OpenAI 根据拥有所有生成物权的许可限制 DALL-E 2 图像使用的情况有了显著变化。
关于安全性,OpenAI 表示,与 DALL-E 2 一样,DALL-E 3 已经实施了关键字和图像检测过滤器,以限制其生成暴力、性或令人讨厌的内容。该系统还被编程拒绝生成涉及具名公众人物的请求,这一点在竞争的 AI 图像生成器 Midjourney 生成唐纳德·特朗普的虚假逮捕图像时曾引发问题。
OpenAI 表示,已经与被称为「红队成员」的专家合作,以识别和减轻潜在风险,如有害的偏见或制造宣传和虚假信息。OpenAI 没有提及其工具潜在用于以具有说服力的虚构来扭曲历史记录,尽管它表示正在尝试使用「来源分类器」工具,该工具可以帮助确定图像是否由 DALL-E 3 生成。
OpenAI 表示,这款 AI 图像生成器正在进行封闭测试。计划通过 API 在十月提供给 ChatGPT Plus 和企业客户,并在今年晚些时候在实验室中提供。
讯飞星火认知大模型V3.5亮相:七大能力全面提升 部分赶超GPT-4
快科技1月30日消息,今天下午科大讯飞召开发布会,正式公布了星火认知大模型V3.5。据介绍,星火认知大模型V3.5在逻辑推理、语言理解、文本生成、数学答题、代码、多模态等核心能力均显著提升。具体来说,七大能力上,文本生成提升7.3%,语言理解提升7.6%,知识问答提升4.7%,逻辑推理提升9.5%,数学能力提升9.8%,代码能力提升8.0%,多模态能力提升6.6%。站长网2024-01-30 15:11:120000开年大手笔:腾讯豪掷64.2亿元北京买地!
快科技1月23日消息,2024刚开年不久,腾讯就豪掷64.2亿元北京购地。北京市规自委网站显示,腾讯科技(北京)有限公司底价摘得海淀区学院路北端A、B、C、J地块B4综合性商业金融服务业用地、B23研发设计用地,成交金额64.2亿元。0000英伟达发布最强AI加速卡 大语言模型性能比H100提升30倍
英伟达在GTC开发者大会上发布了最强AI加速卡BlackwellGB200,计划今年晚些时候发货。GB200采用新一代AI图形处理器架构Blackwell,其AI性能可达20petaflops,比之前的H100提升了5倍。每个BlackwellDie的浮点运算能力比HopperDie高出25%,每个封装中有两个Blackwell芯片,总性能提高了2.5倍。站长网2024-03-19 11:58:270000Win11“颠覆性”功能被遗弃:失效三个月仍被微软无视
快科技5月2日消息,在2021年,微软首席产品官PanosPanay公布了一向被他称之为颠覆性”创新的功能将时钟应用与音乐平台Spotify整合,在专注模式下播放特定音乐。但讽刺的是,近日,有用户发现,这一颠覆性”功能,至少已经失效了三个月。根据微软官方反馈中心的内容,从今年年初开始,当用户尝试在时钟应用中登陆Spotify账号时,会出现一个空白的登陆界面,无法正常使用功能。站长网2023-05-03 09:22:070000万兴科技发布百亿级参数多媒体大模型 “天幕”
在近日的2023世界计算大会上,万兴科技宣布将发布国内首个以视频创意应用为核心的百亿级参数多媒体大模型“天幕”。“天幕”多媒体大模型将以视频、绘图、文档等数字创意软件业务场景为依托,为创作者提供更专业化的AI创新解决方案。它涵盖了视觉、音频、语言等多模态AI生成和优化的能力,具备一键成片、AI美术设计、文生音乐、音频增强、音效分析、多语言对话等核心功能。站长网2023-09-18 10:01:440000