19846

深度求索开源多模态大模型DeepSeek-VL系列

站长网2024-03-13 09:45:021阅

3月11日，DeepSeek-AI开源了全新多模态大模型DeepSeek-VL系列，分为1.3b 和7b 两种规模，共有4个版本。它具有融合语言和视觉能力，可以在不损失语言理解能力的情况下处理多模态任务，识别高分辨率图像中的细小物体。这个模型结合了视觉和语言信息，通过预训练微调的方法，在种领域中展现出很好的性能。

在数据构建阶段，DeepSeek VL 模型使用了多种不同领域的数据集，包括公开数据集如 ShareGPT4V、LAION-GPTV、LVIS-Instruct4V 等，以及纯文本数据集如 DeepSeek-LLM。

模型训练过程分为三个关键阶段:视觉 - 语言适配器训练、联合视觉 - 语言预训练和监督微调，以确保模型在不同任务和领域中的准确性和鲁棒性。

据悉，深度求索（DeepSeek），成立于2023年，专注于研究世界领先的通用人工智能底层模型与技术，挑战人工智能前沿性难题。

包括:

deepseek-vl-1.3b-chat:

https://modelscope.cn/models/deepseek-ai/deepseek-vl-1.3b-chat

deepseek-vl-7b-chat:

https://modelscope.cn/models/deepseek-ai/deepseek-vl-7b-chat

deepseek-vl-7b-base:

https://modelscope.cn/models/deepseek-ai/deepseek-vl-7b-base

deepseek-vl-1.3b-base:

https://modelscope.cn/models/deepseek-ai/deepseek-vl-1.3b-base

深度求索开源多模态大模型DeepSeekVL系列

0001

评论列表

共(0)条

相关推荐

站长资讯
奥特曼7万亿美元芯片帝国野心曝光，OpenAI日产1000亿单词欲接管全世界！
【新智元导读】SamAltman表示，自己需要7万亿美元建起全球的芯片帝国，他已经在全球搜罗金主，包括中东土豪。就在刚刚，SamAltman发推表示:如今，OpenAI每天能够创造出约1000亿字的内容，而全世界的人类每天总共能产生约100万亿字。此外，一个流传了数月的传言也在最近被证实:SamAltman官宣要搭建价值数万亿美元的AI芯片基础设施。
站长网2024-02-11 13:18:28
0001
站长资讯
采用3D打印技术，制备SiC陶瓷预制体，怎样增强SiC的致密性？
文|面包夹知识编辑|面包夹知识«——【·前言·】——»SiC陶瓷作为一种重要的功能材料，在航空航天、能源、电子等领域具有广泛的应用前景。其出色的力学性能、高温稳定性和耐腐蚀性使得SiC陶瓷成为许多极端环境下的理想选择。
站长网2023-05-23 10:17:38
0007
站长资讯
三只羊法务离职本人回应：与公司之间没有任何矛盾
站长之家（ChinaZ.com）2月29日消息:近日，三只羊法务的李律宣布离职，这一消息迅速引发网友的广泛关注。在直播中，李律谈及离职原因时表示，自己的个人主页上已没有MCN的标识，确实已经离职，并且与公司之间并没有任何矛盾。他表示，过去的一年里，自己一直忙于思考如何销售货物，导致原本的法律工作接触减少，也缺乏足够的时间来充实自己。
站长网2024-02-29 08:59:25
0000
站长资讯
昆仑万维开源百亿级大语言模型「天工」Skywork-13B 系列
10月30日，昆仑万维宣布开源了百亿级大语言模型「天工」Skywork-13B系列，并提供了超大规模的高质量中文数据集。该系列包括两个模型:Skywork-13B-Base和Skywork-13B-Math，它们在多个评测和基准测试中都表现出了同等规模模型的最佳效果。此外，昆仑万维还开源了600GB、150BTokens的中文语料数据集。这是目前最大的开源中文数据集之一。
站长网2023-10-30 13:57:47
0000
站长资讯
单月涨粉300万，短剧“带飞”剧情号
剧情号达人正在靠短剧疯狂吸粉。新榜编辑部观察到，随着爽文式小程序短剧的爆红，越来越多剧情号达人玩起“短剧梗”，用“穿越”到短剧中的人物视角，还原普通人对离谱剧情的反应，把荒诞与现实的碰撞拍成了段子。比如，“七颗猩猩”近期更新了12集《重生之我在爽剧当演员》系列视频，演绎了保姆、助理等短剧配角的心理活动，其中6条视频获赞超百万。
站长网2024-03-25 19:12:19
0000