新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT

站长网2023-09-18 14:37:210阅

要点:

1、NExT-GPT支持任意模态的输入和输出，实现了从任一模态到任一模态的转换。

2、NExT-GPT通过组合开源的编码器、语言模型和解码器实现了全能的多模态能力。

3、NExT-GPT实现了端到端的训练和指令微调，具有较好的多模态表示对齐能力。

继各类单一模态输入的多模态语言模型后，新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出，可以实现文本、图像、语音和视频之间的自由转换，是第一个实现从任一模态到任一模态转换的通用多模态系统。

项目地址:https://next-gpt.github.io

代码地址:https://github.com/NExT-GPT/NExT-GPT

论文地址:https://arxiv.org/abs/2309.05519

NExT-GPT的优势在于它实现了真正意义上的任意模态输入到任意模态输出，而不是仅仅支持某一种固定的输入输出模式。用户可以随意组合不同模态进行查询，NExT-GPT都可以进行理解并用请求的模态形式给出响应。这充分模拟了人类处理信息的能力，是向通用人工智能目标迈进的重要一步。

在技术上，NExT-GPT并没有创新算法，而是站在巨人的肩膀上，通过组合优化利用现有的各类开源模块实现全能目标。具体来说，模型包含三个层次:第一，使用各类模态编码器对输入进行编码;第二，语言模型负责复杂推理;第三，解码器生成各种模态输出。

NExT-GPT的独特之处在于实现了模态特征表达的端到端对齐训练，以及针对多模态输出做了指令微调。这保证了在输入理解、内部推理和输出生成各层次间特征的有效传递，从而实现了优秀的多模态理解与生成能力。

虽然NExT-GPT目前还有待进一步扩展，但其展示了构建通用多模态系统的可能性，为人工智能研究提供了宝贵的借鉴。后续工作可以考虑扩展更多模态，使用更大规模的语言模型基座，以及改进多模态生成策略等。

新加坡华人团队开源全能大一统多模态大模型NExTGPT

0000

评论列表

共(0)条

相关推荐

站长资讯
网易有道上线「易魔声」开源语音合成引擎包含2000多种不同音色
今天，网易有道宣布上线了一项开源技术，名为「易魔声」开源语音合成引擎。这款引擎支持中英文双语，包含2000多种不同的音色，具备特色的情感合成功能，可以合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。用户可以在GitHub上免费下载使用，并通过提供的web界面和批量生成结果的脚本接口实现音色的情感合成与应用。
站长网2023-11-10 14:11:26
0001
站长资讯
周鸿祎回应将成三六零最大股东：会和公司一起走下去
昨日，三六零公司正式对外公告，其控股股东——天津奇信志成科技有限公司已做出重要决议，将进行清算程序。此举意味着，清算完成后，奇信志成原有的单一大股东地位将发生转变，其持有的三六零公司股份将被拆分为36个小股东直接持有。伴随这一调整，三六零的上市公司第一大股东席位也将由奇信志成更替为周鸿祎先生。
站长网2024-08-03 15:43:26
0000
站长资讯
三星显示将再次为苹果所有四款 iPhone 15 机型提供 M12 材料 OLED 面板
消息人士告诉TheElec，三星显示几乎肯定会将其M12材料用于今年向苹果提供的iPhone15系列的OLED面板。这家韩国显示面板制造商去年首次在iPhone14系列的两个顶级型号中使用了这套材料。两款低端机型使用的是前一代的M11材料组。
站长网2023-04-12 13:34:05
0000
站长资讯
荣耀首款AI PC！荣耀MagicBook Pro 16正式发布
快科技3月18日消息，今晚荣耀召开春季旗舰新品发布会，正式发布了荣耀首款AIPC荣耀MagicBookPro16，售价稍后公布。荣耀MagicBookPro16搭载了MagicLive智慧引擎，支持AI智慧搜索功能，可实现文档内容精准搜索，并行业首次实现了图片内容精准搜索。
站长网2024-03-19 06:58:26
0000
站长资讯
强大的人工智能，颠覆了人类的认知#miyoo
AI智能工具，颠覆了人类的认知！强大的人工智能真的是颠覆了人类的认知。给你们看看，我用30秒的时间就写出了一篇原创文案，这对于自媒体人来说你知道有多方便吗？节省了我的创作时间，大大的提升了我的创作效率。流量加效率等于高变现，网传很多人利用它月入过万，咱们来看看。
站长网2023-05-25 08:08:50
0000