新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT
要点:
1、NExT-GPT支持任意模态的输入和输出,实现了从任一模态到任一模态的转换。
2、NExT-GPT通过组合开源的编码器、语言模型和解码器实现了全能的多模态能力。
3、NExT-GPT实现了端到端的训练和指令微调,具有较好的多模态表示对齐能力。
继各类单一模态输入的多模态语言模型后,新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出,可以实现文本、图像、语音和视频之间的自由转换,是第一个实现从任一模态到任一模态转换的通用多模态系统。
项目地址:https://next-gpt.github.io
代码地址:https://github.com/NExT-GPT/NExT-GPT
论文地址:https://arxiv.org/abs/2309.05519
NExT-GPT的优势在于它实现了真正意义上的任意模态输入到任意模态输出,而不是仅仅支持某一种固定的输入输出模式。用户可以随意组合不同模态进行查询,NExT-GPT都可以进行理解并用请求的模态形式给出响应。这充分模拟了人类处理信息的能力,是向通用人工智能目标迈进的重要一步。
在技术上,NExT-GPT并没有创新算法,而是站在巨人的肩膀上,通过组合优化利用现有的各类开源模块实现全能目标。具体来说,模型包含三个层次:第一,使用各类模态编码器对输入进行编码;第二,语言模型负责复杂推理;第三,解码器生成各种模态输出。
NExT-GPT的独特之处在于实现了模态特征表达的端到端对齐训练,以及针对多模态输出做了指令微调。这保证了在输入理解、内部推理和输出生成各层次间特征的有效传递,从而实现了优秀的多模态理解与生成能力。
虽然NExT-GPT目前还有待进一步扩展,但其展示了构建通用多模态系统的可能性,为人工智能研究提供了宝贵的借鉴。后续工作可以考虑扩展更多模态,使用更大规模的语言模型基座,以及改进多模态生成策略等。
复刻Sora?微软推视频生成软件Mora 可生成12秒视频
微软近日推出了一个名为Mora的视频生成项目,该项目的目标是复刻Sora的能力,以生成通用视频。Mora采用了多AI智能体框架,整合了多个尖端视觉AI智能体,致力于实现Sora所展示的通用视频生成能力。论文地址:https://arxiv.org/html/2403.13248v1Mora的主要功能包括:站长网2024-03-22 09:35:350000Xboard:一款基于ChatGPT的智能键盘
Xboard是一款基于人工智能技术的先进键盘,旨在帮助用户实现更智能、更迅速、更高效的消息、电子邮件、内容和搜索生成。该键盘充分利用人工智能技术,能够自动生成多种类型的消息、电子邮件、内容和搜索,从而显著提高用户的生产力和工作效率。不仅如此,它还能根据用户的输入和上下文,主动纠正拼写和语法错误,以提供更为准确的建议和预测。站长网2023-11-27 11:07:320000九年不屈!贾跃亭:FF91首辆量产车即将下线
今日,FF创始人贾跃亭发文称:“九年不屈,终于即将迎来FF91首辆量产车下线。”贾跃亭表示,这让我们距离“智能电车时代下极智科技奢华超塔尖市场的开创者和传统超豪华汽车文明颠覆者”的梦想更进一步。洛杉矶时间4月14日下午6:00(北京时间4月15日早9:00),让我们一起在FFIntelligentAPP和其他FF官方平台见证这一重要发布时刻。站长网2023-04-13 09:39:020000百度网盘正式推出智能助理“云一朵” 基于文心大模型打造
百度网盘推出了国内首个基于大模型的网盘智能助理"云一朵",该智能助理可以帮助用户快速搜索文件和视频、总结知识、翻译文档等。同时,"云一朵"可以自动分析文档并返回中文结果,可以快速查找图片,还可以为视频添加字幕和提取标题。此次推出的智能助理是基于百度网盘的大模型产品文心一言,通过这次推出的智能助理,百度网盘希望重塑网盘市场的新格局。站长网2023-08-10 15:06:370000钉钉飞书,因为AI打起来了
因为AI,协同办公市场“打起来了”。4月18日这一天,钉钉、WPS、印象笔记,都迫不及待地对外展示自家的“AI办公助手”。而在一周前,飞书的AI助手“MyAI”演示视频,才刚刚发布。上周,业界的关注点还在头部大厂的大语言模型技术本身,这周,焦点就转移到了大模型能力的落地应用上。这其中,办公场景凭借着适配大语言模型能力、覆盖用户数量多、用户付费率高等特点,成为了大模型率先落地的场景之一。站长网2023-04-21 12:15:060000