智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答
站长网2023-12-21 08:50:340阅
智谱 AI 开源了 CogAgent,它是一个视觉语言模型,拥有180亿参数规模。该模型在 GUI 理解和导航方面表现出色,在多个基准测试上取得了 SOTA 的通用性能。
它还支持高分辨率的视觉输入和对话问答,并且可以针对任意 GUI 截图进行问答。
模型可以通过上传截图来进行任务推理,并返回计划、下一个动作以及具体操作的坐标信息。
CogAgent 还支持 OCR 相关任务,通过预训练和微调,其能力得到了显著提升。
Github:
https://github.com/CogNLP/CogAGENT
cogagent-chat:
https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary
cogagent-vqa:
https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary
0000
评论列表
共(0)条相关推荐
UCSD 研究人员开源Graphologue:将LLM文本响应转化为交互式图表
要点:大型语言模型(LLMs),如GPT-4,因其生成各种用户查询的文本响应的能力而广受欢迎,但在有效传达复杂信息方面存在限制,原因在于线性对话模式和基于文本的界面。加州大学圣地亚哥分校的研究人员团队开发了Graphologue,这是一种新颖的技术,旨在通过实时将基于文本的LLM响应转换为交互式图形图表来解决这些限制。站长网2023-09-25 10:42:080001中国一汽联合阿里云通义千问打造大模型应用GPT-BI
中国一汽联合阿里云通义千问推出了大模型应用GPT-BI,用于数智化转型。该应用能够接收自然语言查询,并结合企业数据生成分析图表,准确率可达90%。与传统的BI系统相比,GPT-BI能够实现灵活的问答组合和数据穿透,实现“问答即洞察”的功能。站长网2024-01-23 09:29:530000AI取代人工?你需要在岗位中保持这种思维
人工智能(AI)受到越来越多企业的重视,随着AI技术愈发强大,越来越多的人开始担忧AI智能是否会替代人工。其实,只要在工作中始终保持“策划”思维,或许这种担忧可以少一点。打开招聘软件,我们会看到很多关于策划的岗位,文案策划、活动策划、企业策划。相对来说,策划似乎更多的是与文字类岗位的融合。但我认为,要想在和AI的竞争中保持优势,每个岗位都要做“策划”。站长网2023-05-05 16:15:230000阿里云产品宣布降价 部分产品降幅高达55%
阿里云宣布推出普惠降价活动,旨在通过降低云产品价格,促进云计算在各行各业的普及和发展。此次降价涵盖了多个产品领域,包括计算、数据库、存储和网络等。其中,部分产品的降幅高达55%,平均降幅达20%左右。此举旨在让更多企业和开发者能够享受到先进的公共云服务,加速技术创新和业务发展。站长网2024-02-29 11:17:360000比咪蒙更狠的人出现了!狂赚1.5亿被全网封杀,高调说我不服
比咪蒙更狠的人出现了!当初咪蒙因挑动情绪被全网封禁后不得不退居幕后,低调行事;而前几天,网红@曲曲大女人被官媒点名批评,多平台封禁后,却选择了高调行事。她不仅发长文收拢粉丝在私域直播,还宣布要卷土重来。为什么网红@曲曲大女人敢在这风口浪尖上露面?很多人不太了解@曲曲大女人这个网红,她本名乐传曲,自称是传授“大女人”智慧的情感博主,主张女性应该独立自爱。站长网2024-01-12 14:09:230000