Hugging Face推开源多模态AI模型IDEFICS 支持图像、文本输入
站长网2023-08-24 20:13:370阅
本文概要:
1. Hugging Face 推出开源多模态 AI 模型 IDEFICS,支持图像和文本输入。
2. IDEFICS 基于 DeepMind 的 Flamingo 视觉语言模型,表现与专利模型相当。
3. IDEFICS 有90亿和800亿参数版本,支持生成连贯的文本。
最近, Hugging Face 推出了一个名为 IDEFICS 的开源多模态 AI 模型,它可以接受图像和文本作为输入,并生成连贯的文本输出。
IDEFICS 是一个强大的视觉语言模型,拥有高达800亿的参数量,功能包括根据图像生成描述、回答相关问题以及根据多个图像生成叙述等。
IDEFICS 基于 DeepMind 开发的 Flamingo 模型,后者是一种目前最先进的视觉语言模型,但尚未对外开源。相比之下,IDEFICS 作为 Flamingo 的开源实现版本,其测试结果显示在各类图像理解任务上其表现与 Flamingo 相当。
为训练 IDEFICS,Hugging Face 利用了多种公开的数据集,还额外构建了一个包含1.4亿张图像的大规模图像-文本数据集。
IDEFICS 有两个版本,包括90亿参数的基础版和800亿参数的大模型版,可以处理不同的应用场景。
IDEFICS 的推出为研究人员和开发者提供了一个强大的开源视觉语言模型,相比专利系统如 GPT-3,它提供了更大的灵活性。同时,IDEFICS 也显示出生成式模型处理多模态输入的潜力。
未来如果能进一步提升多模态理解和生成能力,将可以大幅推动诸如机器人、自动驾驶等多模态 AI 应用的发展。
项目网址:https://huggingface.co/spaces/HuggingFaceM4/idefics_playground
0000
评论列表
共(0)条相关推荐
只需2分钟,单视图3D生成又快又好!北大等提出全新Repaint123方法
将一幅图像转换为3D的方法通常采用ScoreDistillationSampling(SDS)的方法,尽管结果令人印象深刻,但仍然存在多个不足之处,包括多视角不一致、过度饱和、过度平滑的纹理,以及生成速度缓慢等问题。为了解决这些问题,北京大学、新加坡国立大学、武汉大学等机构的研究人员提出了Repaint123,以减轻多视角偏差、纹理退化,并加速生成过程。站长网2024-01-08 17:56:500000男子总结今年春节三大反常现象:短信微信拜年少了 很多人不再发红包
2月13日消息,一眨眼已经是大年初四了,春节假期过去了一大半了,大家感觉这个春节假期如何?最近,有网友总结了今年春节的三大反常现象,居然得到了网友出奇的认可,如果不说你能get到吗。按照这位网友的总结,今年春节三大怪象,短信微信拜年少了很多,放烟花多了很多,很多人不再集五福发红包。有网友也是直言,肉眼可见的,人越活越清醒,仔细想想确实是这么个道理。0001美团大众点评开始测试“智能小助手”AI功能 搜索结果由用户评价综合生成
站长之家发现,近日,美团大众点评开始悄然测试“智能小助手”功能,用户在搜索部分问题时,搜索结果页面的头部将出现“小助手”测试版,智能回答用户提问。据官方介绍,大众点评“智能小助手”功能目前处于内测阶段,只能回答部分问题,更多问题和功能正开发中,“智能小助手”回答的结果由用户评价自动综合生成。站长网2023-09-12 09:12:060000Opera 推出浏览器生成式 AI 服务 Aria:增强浏览器使用体验
Opera发布了一个名为Aria的全新本地生成型人工智能服务,将其引入了其浏览器平台。Aria利用OpenAI的ChatGPT大型语言模型来撰写文本甚至计算机代码,继续扩展Opera今年推出的生成型AI工具的范围。图片来自Opera站长网2023-05-25 10:22:5500002023胡润中国元宇宙潜力企业榜:阿里、华为获评最具潜力Top2
今日,胡润研究院发布《2023胡润中国元宇宙潜力企业榜》,列出了元宇宙领域最具发展潜力的中国企业200强,分为八个阶段:最具潜力Top2、Top5、Top10、Top20、Top30、Top50、Top100和Top200。站长网2023-07-20 16:55:570000