清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发
要点:
1、清华、浙大等中国顶尖学府提供了性能优异的GPT-4V开源替代方案。
2、LLaVA、CogAgent和BakLLaVA是三种具有极大潜力的开源视觉语言模型。
3、LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。
近期,GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。其中,LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。
LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。
另外,BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,已经在多个基准测试中优于LLaVA213B。这三种开源视觉模型在视觉处理领域具有极大的潜力。
LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面,LLaVA的表现相对于GPT-4的评分达到了85%,在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时,能够全面而有逻辑地生成回答,并且可以以JSON格式输出。
它不仅可以从图片中提取信息并回答问题,还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等,展现出了强大的多模态能力。在性能上接近GPT-4的情况下,LLaVA具有更高的成本效益,训练只需要8个A100即可在1天内完成。
CogAgent作为在CogVLM基础上改进的开源视觉语言模型,拥有更多的功能和性能优势。它支持更高分辨率的视觉输入和对话答题,能够处理超高分辨率图像输入。
论文地址:https://arxiv.org/pdf/2312.08914.pdf
CogAgent还提供了可视化代理的能力,能够返回任何给定任务的计划、下一步行动和带有坐标的具体操作。它还增强了与图形用户界面相关的问题解答功能,可以处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。另外,通过改进预培训和微调,CogAgent还增强了OCR相关任务的能力。这些功能的提升使得CogAgent在多个基准测试上实现了最先进的通用性能。
BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,具备更好的性能和商用能力。BakLLaVA在多个基准测试中优于LLaVA213B,并且可以在某些数据上进行微调和推理。虽然BakLLaVA在训练过程中使用了LLaVA的语料库,不允许商用,但BakLLaVA2则采用了更大的数据集和更新的架构,超越了当前的LLaVA方法,具备商用能力。
一块电池可供3600家用电一小时!特斯拉上海储能超级工厂开始招人
4月16日,快科技获悉,特斯拉官方日前宣布,特斯拉上海储能超级工厂开始招聘,岗位涵盖产品研发、智能制造、供应链、工业互联网研发等领域,工作地点均为上海临港。据了解,该工厂将规划生产特斯拉超大型商用储能电池(Megapack),计划于2023年第三季度开工,2024年第二季度投产。这座储能超级工厂将会是特斯拉全球范围内的第二座储能超级工厂,目前唯一一座投产的储能超级工厂,位于美国加利福尼亚州。0000联发科新芯片天玑 8300 将 ChatGPT 类似的人工智能技术带到更实惠的手机上
芯片制造商联发科最近推出了旗舰级的天玑9300移动芯片,将在高端安卓手机中实现本地生成式人工智能(AI)功能。现在,该公司正式发布了新芯片天玑8300,将为更实惠的手机提供同样的功能。站长网2023-11-22 09:07:220001Portkey AI Gateway:一个连接多种人工智能模型的开源工具
PortkeyAIGateway是一个开源工具,旨在连接多种人工智能模型。该工具允许开发者通过简单的API接口访问超过100种不同的大语言模型,包括OpenAI、Anthropic、Mistral、LLama2、Anyscale、GoogleGemini等。安装体积只有45kb,但处理速度提升了9.9倍,同时可以在多个不同的AI模型中来回切换,并且可以根据需求进行灵活配置。站长网2024-01-16 12:50:240000OpenAI预警系统探索 GPT-4 在制造生物武器方面的优势
划重点:1.📡OpenAI通过研发早期预警系统,评估GPT-4是否能提高获取生物威胁信息的效率。2.🤖对100名参与者进行的研究表明,使用GPT-4与互联网相结合,在生物危害任务的准确性和完整性上略有改善,但效果并不显著。站长网2024-02-01 11:42:060000霸榜App Store 3天,这款应用单日收获1亿新用户
因为没有内置的地震预警功能,苹果手机再一次被推上热搜。8月6日凌晨,山东德州平原县发生5.5级地震,多地有震感。在此次地震中,许多国产手机的内置地震预警功能都发挥了作用,有网友认为,售价不低的苹果手机,却没有配备地震预警功能,这是手机厂商失职,“别的手机都能做,苹果为什么不能?要顺应市场需求”。站长网2023-08-09 12:22:140000