清华大学开发出新视觉语言模型可更准确理解 GUI

站长网2023-12-27 15:46:220阅

清华大学智普AI的研究人员开发了一种新的视觉语言模型（VLM），名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。

CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的 GUI 元素和文本内容，这是有效 GUI 交互的关键要求。

CogAgent 的架构具有独特的高分辨率跨模块，这是其性能的关键。该模块使模型能够有效处理高分辨率输入（1120x1120像素），这对于识别小型 GUI 元素和文本至关重要。

CogAgent 在各种任务中优于现有的基于 LLM 的方法，特别是在 PC 和 Android 平台的 GUI 导航方面。该模型还在多个文本丰富和一般视觉问答基准上表现优异。

这项研究的结果表明，CogAgent 代表了 VLM 的重大飞跃，特别是在涉及 GUI 的环境中。其在可管理的计算框架内处理高分辨率图像的创新方法使其有别于现有方法。该模型在不同基准测试中优异的性能表明其在自动化涉及 GUI 操作和解释的复杂任务方面的潜力。

CogAgent 的潜在应用包括:

自动化 GUI 操作，例如点击按钮、输入文本和选择菜单。提供 GUI 帮助和指导，例如解释功能和提供操作说明。开发新的 GUI 设计和交互方式。

CogAgent 仍处于早期开发阶段，但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。

地址：https://github.com/THUDM/CogVLM

清华大学开发出新视觉语言模型可更准确理解GUI

0000

评论列表

共(0)条

相关推荐

站长资讯
蔚来换电站全国已突破1500座李斌：已有车企在谈共用
快科技6月25日消息，蔚来汽车今日宣布，截至2023年6月25日，蔚来全国换电站布局数量突破1500座，累计建成16204根充电桩，2023年新增1000座换电站，年底将超2300座。作为蔚来的核心竞争力之一，换电站成为了很多蔚来车主的心头好。
站长网2023-06-26 12:31:54
0000
站长资讯
亚马逊高管：生成式AI的发展是场马拉松比赛才刚开始
近期，亚马逊云科技全球产品副总裁MattWood在上海参加了2023亚马逊云科技中国峰会，并发表了讲话。他表示，生成式人工智能的发展就像一场马拉松比赛。在比赛刚开始时，如果只跑了三四步就断言某某某会赢得比赛，这显然是不科学的。
站长网2023-07-04 00:16:09
0000
站长资讯
Google DeepMind 提出人工通用智能（AGI）的新定义及其分类
近日，GoogleDeepMind的研究团队发布了一篇研究论文，对人工通用智能（AGI）的定义进行了重新阐释，并提出了一个全新的AGI分类体系。这一定义不仅切中了技术界对AGI概念的混淆和争议，还为该领域提供了更清晰的理解框架。
站长网2023-11-20 18:07:48
0006
站长资讯
咪蒙：曾经被你们口诛笔伐，现在被你们夸赚钱全靠才华
万万没想到，今年的春节档一边是多部院线电影退出春节档，一边是土味短剧一路高歌猛进，成了热门话题。据专注短剧的知名媒体新腕儿数据分析，今年的短剧春节档日消耗量创造了新纪录，至少有一天破亿，其余几天也有8000万元至9000万元的消耗，预估今年春节档短剧总消耗（票房）约为8亿元。其中，短剧《我在八零年代当后妈》的表现颇为亮眼。
站长网2024-02-24 10:19:37
0000
站长资讯
抖音：严格治理涉及“企业”“企业家”的虚假、侵权内容
抖音发布《关于治理涉企不实信息的公告》称，将持续打击以造谣传谣、仿冒假冒为重点的不实信息内容，严厉处置相关违法违规账号。为了进一步严格治理涉及“企业”“企业家”的虚假、侵权内容，日前，平台上线了“涉企不实信息举报专区”，更好的推动涉企不实信息的治理。此次上线的专区，明确了平台重点治理的内容，分别包括“假冒仿冒他人企业名称”“发布不实信息，攻击企业、企业家”等，具体内容如下:
站长网2023-06-16 16:32:28
0000