再见设计师!COLE AI系统利用多模型联合生成高质量设计
划重点:
1. 🤯 COLE是由微软亚洲研究院和北京大学的12名研究人员开发的,结合了Meta的Llama2-13B、DeepFloyd IF、LLaVA1.5-13B和GPT-4V等多个AI模型,以及开源图形渲染器Skia。该系统旨在通过用户输入设计项目概念,生成图像并嵌入相关文本,具备可编辑文本和视觉元素的功能。
2. 🌐 COLE采用了不同AI模型的组合,通过对互联网上的10万张高质量原始图形设计图像进行训练,实现了出色的设计生成效果。
3. 🖌️ COLE不仅生成图像,而且提供了可编辑的文本和对象区块,使用户能够在COLE框架内直接进行修改,而无需导出到其他设计软件
近日,微软亚洲研究院和北京大学的研究人员联手开发了一款名为COLE的AI系统,旨在通过多个AI模型的联合工作,为用户提供可编辑的图形设计。COLE的名字来源于亨利·科尔,他被认为是1843年第一张图形化圣诞卡的创作者。
论文网址:https://arxiv.org/pdf/2311.16974.pdf
这一系统的独特之处在于,它不仅可以生成图像,还能够嵌入相关文本,使用户能够通过输入设计项目的概念,如“一张宣传即将举行的冬季假期音乐会的海报,上面有穿着暖和衣物的人在落雪中演奏乐器”,即可获得一张完整的设计。
COLE的背后是一组不同的AI模型,包括Meta的Llama2-13B、DeepFloyd IF、LLaVA1.5-13B以及GPT-4V,以及开源图形渲染器Skia。这些模型的组合是为了应对图形设计的复杂性以及在该领域主要格式(.SVG文件)上缺乏可用的训练数据。
与其它文本到图像生成器相比,如OpenAI的DALL-E3和Midjourney,COLE在设计生成方面取得了令人瞩目的效果。通过对互联网上10万张高质量原始图形设计图像的训练,COLE不仅能够生成清晰有序的图形设计,而且能够在图像内生成可编辑的文本和对象区块。
更值得一提的是,COLE生成的图像可在其框架内进行直接编辑,用户可以点击文本框更改显示的文本或字体,也可以输入新的提示以更改图像的不同视觉元素。这为用户提供了一种便捷的方式,避免了回到设计的起点进行整体修改或将图像导出到其他设计软件的繁琐步骤。
虽然COLE目前更像是一个框架而不是一个成熟的产品,但其研究团队在图形设计服务方面取得的结果令人惊叹。研究人员表示,COLE不仅在生成各种设计项目时表现出色,而且在可编辑性和灵活的编辑空间方面也达到了预期目标。
对于图形设计行业而言,COLE到底是威胁还是新工具呢?研究人员强调,他们设计COLE是为了生成具有可编辑字段的图像,以“在必要时允许用户进一步完善输出,整合人类专业知识”。这意味着图形设计的专业培训仍然对于从COLE框架中获得最佳结果是必要的。
然而,研究人员也指出,相比于其他文本到图像生成器,如他们明确引用的DALL-E3,“我们的COLE系统…能够在只需要简单用户意图的情况下生成优质的图形设计图像。”这表明,研究人员认为COLE有可能让那些没有图形设计培训或专业知识的人能够生成与专业设计师媲美的高质量设计。
尽管目前COLE尚未公开提供,但研究人员表示他们的Github项目网页上将很快发布演示版本,使更多人能够了解和体验这一引人注目的图形设计生成框架。
小米14全面转向纯64位应用:安装32位应用 状态栏会提醒
快科技10月27日消息,小米集团张宇提醒,小米14系列全面转向纯64位应用,老机型通过换机将数据导入到小米14系列时,如果有32位应用,系统状态栏会提醒。据悉,小米14系列搭载的高通第三代骁龙8移动平台全面拥抱安卓64位生态,不再支持32位应用。相比32位,64位最直接的优势就是性能更强,在相同频率下,64位处理器可以处理8字节数据,而32位只能处理4字节数据,处理数据更快。站长网2023-10-28 13:01:4300031MetaGPT:多个AI聊天机器人协作框架 减轻人工智能幻觉
文章概要:1.MetaGPT利用SOPs减少语言模型的幻觉风险2.将复杂任务分解成多个子任务,每个子任务对应一个代理3.多个代理之间协作,避免自由对话中出现偏差MetaGPT是一种将多个大型语言模型(LLM)的聊天机器人连接起来的框架,以解决复杂的任务,目的是减少大型语言模型中的幻觉问题。站长网2023-08-28 17:39:290000全新图文生成方式MiniGPT-5 生成文本的同时创作匹配的图片
MiniGPT-5是一款基于大型语言模型的视觉与语言生成工具,旨在实现图像和文本的协同生成。它采用了创新的"生成vokens"概念,作为实现图像和文本协同生成的桥梁。MiniGPT-5通过独特的两阶段训练策略,专注于无需详细图像描述的多模态生成,从而提高模型的鲁棒性。该工具在多个基准数据集上表现出色,是一个多模态生成的有力工具。站长网2023-10-08 10:44:030000零一万物API开放平台出场!通用Chat多模态通通开放,还有200K超长上下文版本
3月,国内外模型公司动作频频。国产大模型独角兽“五小虎”之一零一万物也有诸多新动作。这不,前脚刚发布高性能向量数据库,零一万物又立马正式发布了自己的API开放平台,共为开发者提供三个版本的模型:Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。Yi-34B-Chat-200K:200K上下文,多文档阅读理解、超长知识库构建小能手。站长网2024-03-16 13:45:210000华为 7 月 7 日将发布直接对标 ChatGPT 的「盘古 Chat」多模态千亿级大模型
继百度的「文心一言」、商汤的「日日新SenseNova」大模型体系,以及阿里巴巴的「通义千问」等之后,华为也加入AI大模型的行列。站长网2023-06-05 19:28:270000