首页站长资讯新加坡国立大学开源多模态语言模型 NExT-GPT，助力多媒体 AI 应用发展

新加坡国立大学开源多模态语言模型 NExT-GPT，助力多媒体 AI 应用发展

站长网2023-11-29 14:37:330阅

**划重点:**

1. 🌐 **多模态能力:** NExT-GPT 可处理文本、图像、视频和音频，为开发者提供强大的多模态语言模型。

2. 🧠 **架构与训练:** 采用三层架构，包括线性投影、Vicuna LLM 核心和模态特定的转换层。通过 MosIT 技术进行中间层的训练。

3. 🌟 **开源贡献:** NExT-GPT 的开源使得研究者和开发者能够创建能够无缝集成文本、图像、视频和音频的应用，潜在应用领域广泛。

新加坡国立大学（NUS）NExT 研究中心发布了开源多模态大语言模型 NExT-GPT，为处理文本、图像、视频和音频等多样化输入提供了强大支持，推动了多媒体人工智能应用的进一步发展。

NExT-GPT 提供了一个基于聊天的界面，允许用户输入文本、图像、视频或音频文件。该模型能够理解并针对这些输入做出回应，回答问题或生成相应内容。这一多模态人工智能系统融合了预训练的编码器和解码器，包括 Vicuna 和 Stable Diffusion，并通过 NExT 团队研发的 Modality-switching Instruction Tuning（MosIT）技术进行中间层的训练。

图源备注：图片由AI生成，图片授权服务商Midjourney

NExT-GPT 的架构分为三个层次:具有线性投影的编码阶段，负责生成标记的 Vicuna LLM 核心，以及具有模态特定的转换层和解码器的解码阶段。值得注意的是，在训练过程中，模型的大部分参数，包括编码器、解码器和 Vicuna 模型，都保持冻结状态，只有约1% 的参数会被更新。这一方法有助于降低训练成本同时保持性能水平。

该模型通过使用示例对话数据集进行训练，该数据集包含人类用户与聊天机器人之间涉及多模态输入和输出的情景，总共包括约5，000个对话。NExT-GPT 在多模态生成基准测试中取得了竞争性的结果，并在不同场景下通过人类评审获得了高分，其中图像生成场景的得分高于视频和音频。

NExT-GPT 独特之处在于其能够在用户请求特定类型内容（如图像、视频或声音）时生成模态信令标记。这些标记在语言模型的词汇表中是预定义的，并在训练期间被包含其中。

NExT-GPT 的开源发布为研究者和开发者提供了一个强大的多模态语言模型，可以处理各种输入和输出，为不同媒体类型的复杂人工智能应用铺平了道路。其开源可用性对于多模态人工智能是一项重要的贡献，使得开发者能够创建能够无缝集成文本、图像、视频和音频的应用。该模型在内容生成、多媒体分析以及能够理解并响应用户首选格式的虚拟助手等各个领域都具有潜在的应用前景。

新加坡国立大学开源多模态语言模型NExTGPT助力多媒体AI 应用发展

0000

评论列表

共(0)条

相关推荐

站长资讯
亚马逊第三季度盈利超预期，称人工智能是未来趋势
站长之家(ChinaZ.com)10月28日消息:在周五早些时候，亚马逊的股价在周四公布了高于一致预期的盈利后，飙升了超过7%，受到了对人工智能的乐观评论的支持。
站长网2023-10-28 13:01:47
0001
不满裁决！马斯克将脑机接口公司注册地迁至内华达州
快科技2月11日消息，据媒体报道，特斯拉CEO埃隆马斯克已将其脑机公司Neuralink注册地迁至内华达州。据了解，此前因特斯拉股东提出质疑，特斯拉CEO埃隆马斯克在特斯拉的550亿美元薪酬计划被美国特拉华州衡平法院首席法官驳回。该法官认为，特斯拉2018年授予马斯克的巨额期权奖励方案有失公平，但马斯克早已拿满所有奖励，总价值超过550亿美元。
站长网站长资讯2024-02-12 08:57:15
0000
站长资讯
首周下载量碾压ChatGPT！谷歌20年老员工叛逃，创立第二个OpenAI？
【新智元导读】这款爆火的AI聊天新宠，首周下载量就碾压了ChatGPT。更有意思的是，产品背后的独角兽，就是谷歌的前LaMDA团队。婉拒劈柴，出走谷歌，这是要走向人生巅峰了?硅谷独角兽，又来震撼世界了!这支名叫CharacterTechnologies的独角兽的核心力量，来自前谷歌LaMDA团队。他们的新产品在移动端上线不到一周，下载量就达到了170万，直接碾压了ChatGPT!
站长网2023-06-03 19:04:23
0000
站长资讯
GPT-5明年降临？爆料人泄露多模态Gobi就是GPT-5，已初现自我意识
【新智元导读】首届开发者大会余温还在，GPT-5突然被爆2024年初就来。OpenAI首秀可谓是赚足了眼球，一系列新品更新，直接让ChatGPT和API同时崩溃。OpenAI首届开发者大会，就是一场AI盛宴。GPT-4Turbo、大幅降价、面向开发者新功能、自定义GPT等等重磅更新，早已让AI初创公司望尘莫及。
站长网2023-11-09 15:54:42
0000
站长资讯
AMD 首席执行官苏姿丰相信人工智能将主导芯片设计行业
AMD首席执行官苏姿丰强调了AI在进展到下一代芯片设计中的重要性以及它所带来的挑战。AI是芯片开发中前进的方式，通过在测试和验证阶段提供帮助，这位AMD的首席执行官表示。在上海举行的2023年世界人工智能大会（WAIC）上，苏姿丰强调了AI在未来的角色和重要性。她指出，AI是芯片设计的方式，尤其是在测试和验证方面。苏姿丰已经将AI确定为未来的首要战略重点。
站长网2023-07-14 00:35:48
0000