新加坡国立大学开源多模态语言模型 NExT-GPT,助力多媒体 AI 应用发展
**划重点:**
1. 🌐 **多模态能力:** NExT-GPT 可处理文本、图像、视频和音频,为开发者提供强大的多模态语言模型。
2. 🧠 **架构与训练:** 采用三层架构,包括线性投影、Vicuna LLM 核心和模态特定的转换层。通过 MosIT 技术进行中间层的训练。
3. 🌟 **开源贡献:** NExT-GPT 的开源使得研究者和开发者能够创建能够无缝集成文本、图像、视频和音频的应用,潜在应用领域广泛。
新加坡国立大学(NUS)NExT 研究中心发布了开源多模态大语言模型 NExT-GPT,为处理文本、图像、视频和音频等多样化输入提供了强大支持,推动了多媒体人工智能应用的进一步发展。
NExT-GPT 提供了一个基于聊天的界面,允许用户输入文本、图像、视频或音频文件。该模型能够理解并针对这些输入做出回应,回答问题或生成相应内容。这一多模态人工智能系统融合了预训练的编码器和解码器,包括 Vicuna 和 Stable Diffusion,并通过 NExT 团队研发的 Modality-switching Instruction Tuning(MosIT)技术进行中间层的训练。
图源备注:图片由AI生成,图片授权服务商Midjourney
NExT-GPT 的架构分为三个层次:具有线性投影的编码阶段,负责生成标记的 Vicuna LLM 核心,以及具有模态特定的转换层和解码器的解码阶段。值得注意的是,在训练过程中,模型的大部分参数,包括编码器、解码器和 Vicuna 模型,都保持冻结状态,只有约1% 的参数会被更新。这一方法有助于降低训练成本同时保持性能水平。
该模型通过使用示例对话数据集进行训练,该数据集包含人类用户与聊天机器人之间涉及多模态输入和输出的情景,总共包括约5,000个对话。NExT-GPT 在多模态生成基准测试中取得了竞争性的结果,并在不同场景下通过人类评审获得了高分,其中图像生成场景的得分高于视频和音频。
NExT-GPT 独特之处在于其能够在用户请求特定类型内容(如图像、视频或声音)时生成模态信令标记。这些标记在语言模型的词汇表中是预定义的,并在训练期间被包含其中。
NExT-GPT 的开源发布为研究者和开发者提供了一个强大的多模态语言模型,可以处理各种输入和输出,为不同媒体类型的复杂人工智能应用铺平了道路。其开源可用性对于多模态人工智能是一项重要的贡献,使得开发者能够创建能够无缝集成文本、图像、视频和音频的应用。该模型在内容生成、多媒体分析以及能够理解并响应用户首选格式的虚拟助手等各个领域都具有潜在的应用前景。
SDXL-Lightning:一个步骤就能生成1024分辨率高清图像
SDXL-Lightning是由字节跳动开发的一个重要项目,采用了创新的蒸馏策略,优化了扩散模型,实现了从文本到高分辨率图像的快速、高质量生成。模型地址:https://top.aibase.com/tool/sdxl-lightning项目主要特点及功能:站长网2024-02-22 14:45:140003小米14发布:搭载全新澎湃OS,Pro版用上钛金属
小米战略升级至「人车家全生态」,澎湃OS正式上线,还有特别的内存扩容技术。今年的安卓旗舰手机,比往年来得要更早一些。双十一还没到,10月26日晚的发布会上,小米14系列手机就正式发布了。在发布会上,雷军宣布了小米集团的全新战略升级:从「手机XAIoT」,升级到了「人车家全生态」。小米计划从个人设备到智能家居,再到智能出行,打造以人为中心,构建起「人车家全生态」的智能世界。站长网2023-10-28 13:49:230000微信支付App Store再次提供充值优惠 新用户优惠10%
根据网友透露,微信支付近日在苹果AppStore再次提供充值优惠,活动时间为9月22日至9月28日。据活动网页介绍,新用户可享受10%的充值优惠,非新用户则可享受5%的充值优惠。同时,充值后分享好友可以获得价值25元的充值礼包以及随机游戏彩蛋礼包。需要注意的是,这个活动的名额有限,先到先得。站长网2023-09-24 09:47:330000GPT-5、开源、更强的ChatGPT!OpenAI公布2024年计划
年终岁尾,正值圣诞节热闹气氛的OpenAI写下了2024年的发展清单。OpenAI联合创始人兼首席执行官SamAltman在社交平台公布,AGI(稍晚一些)、GPT-5、更好的语音模型、更高的费率限制;更好的GPTs;更好的推理能力;对唤醒/行为程度的控制;视频模型;个性化;更好的浏览;开源,将是OpenAI在2024年要实现的目标。站长网2023-12-25 17:32:200000微软终于让 Windows 11 和 Android 实现了文件共享
本周,微软最新推出了WindowsSubsystemforAndroid(WSA)的2305.40000.4.0版本更新。作为此次更新的一部分,微软开始在其适用于Windows11的Android子系统中启用文件共享功能,支持系统文件夹上传图片、编辑视频等操作。这项功能备受期待,因为这也标志着微软在与Android兼容性方面迈出了最新的一步。站长网2023-06-17 23:47:3000014