MIT最新研究:纯文本模型也能训练出视觉表征 用代码就能作画
要点:
MIT的研究团队通过对语言模型的系统评估,展示了使用纯文本模型训练视觉概念表征的可能性,通过代码生成图像,实现视觉学习系统。
虽然语言模型无法直接处理像素形式的视觉信息,但通过对字符串关系的建模,研究人员成功训练出能够理解和生成复杂视觉概念的模型。
研究结果表明,语言模型在生成复杂场景方面表现出色,但在捕捉视觉细节如纹理、精确形状等方面仍有改进空间,通过文本纠错可进一步提升模型的视觉生成能力。
最近,MIT计算机科学与人工智能实验室的研究人员进行了一项有趣的研究,通过评估语言模型的视觉能力,揭示了纯文本模型训练视觉概念表征的新可能性。
他们使用代码而非图像进行渲染和表示,成功地教会语言模型生成和理解复杂的视觉概念。虽然生成的图像可能不像自然图像,但通过模型的自我纠正,研究人员证明了对字符串和文本进行精确建模可以教会语言模型有关视觉世界的多种概念。
论文地址:https://arxiv.org/pdf/2401.01862.pdf
研究人员构建了三个不同复杂度的文本描述数据集,从简单的形状和组合到复杂的场景,评估了模型在生成、识别和修改图像渲染代码方面的能力。
实验结果显示,语言模型在生成由多个物体组成的复杂视觉场景方面表现出色,但在捕捉视觉细节方面有一些局限。通过文本纠错,研究人员成功地改善了模型的视觉生成能力,为使用纯文本模型训练视觉系统提供了新的思路。
研究中的一个关键发现是,语言模型在生成代码方面表现出相当高效的能力,但在识别以代码表示的视觉概念方面较为困难。与人类相反,模型在生成复杂场景方面表现出色,但在解释代码内容上存在难题。通过使用自身生成的自然语言反馈,研究人员成功地通过迭代过程改善了模型的视觉效果。
综合而言,这项研究拓展了我们对语言模型的理解,展示了它们不仅可以理解视觉概念,还能够通过文本生成和纠错进行视觉学习。这为未来发展更强大的纯文本模型提供了启示,有望推动语言模型在视觉领域的更广泛应用。
第42年春晚,这些商业顶流重回C位
在央视春晚的江湖谱里,每一帧画面通过电视、网络扑向观众的背后,不光有数不清的经典演出与桥段,也刻着中国商业变迁的痕迹。即将到来的2024年第42届央视春晚也不例外,全球级巨大的曝光价值让商业巨头们不断加注。站长网2024-02-06 09:11:200000只需0.5秒!MobileDiffusion:在手机设备上就能实现快速文本生成图像
**划重点:**1.🚀MobileDiffusion是一种专为移动设备设计的高效潜在扩散模型,可在半秒内生成高质量512x512图像。2.🧠通过优化模型架构,包括DiffusionUNet和图像解码器,MobileDiffusion展现了在计算效率上的出色表现。3.🌐该技术有望在移动设备上推动快速图像生成体验,拓展了生成模型在提高用户体验和应对隐私问题方面的潜在应用。站长网2024-02-01 10:19:000000石药集团:与英硅智能等在创新药研发AI领域达成合作
石药集团港交所公告称,分别与英硅智能(上海)科技有限公司和深圳晶泰科技有限公司(“晶泰科技”)在创新药研发人工智能(AI)领域达成战略合作协议。基于协议,本集团将充分应用自身深厚的药物研发经验,结合英硅智能、晶泰科技在创新药研发领域领先的AI技术平台,聚焦于具有高度临床需求的战略品种,以AI辅助药物设计,提高新药筛选效率和成功率,共同推动本集团创新药物的研发。站长网2023-08-21 22:16:450000AI视野:OpenAI否认即将发布GPT-4.5;Stability AI推出新会员模式;DomoAI支持视频一键转动漫;阿里I2VGen-XL模型代码公布
📰🤖📢AI新鲜事OpenAI否认即将发布GPT-4.5OpenAICEOSamAltman在Reddit上辟谣称公司未计划发布GPT-4.5,否认最新语言模型的泄露,截图显示为虚假信息。【AiBase提要】:👥OpenAICEOSamAltman否认GPT-4.5泄露,证实截图为假信息。📅尚不清楚OpenAI是否会发布GPT-4.5,或者直接跳至GPT-5。站长网2023-12-15 15:35:540000首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画!
要点:1.马里兰大学联合北卡教堂山发布了首个专为多模态大语言模型设计的图像序列基准测试Mementos,涵盖真实世界、机器人和动漫图像序列,挑战MLLM在连续图像上的推理能力。2.对GPT-4V和Gemini等多模态大语言模型进行测试时发现,它们在图像序列推理中的表现不足20%,甚至在漫画数据集中对人物行为的正确率令人惊讶低下,揭示了它们在处理幻觉、对象识别和行为理解上的不足。站长网2024-01-31 09:38:230000