登陆注册

可更准确理解

  • 清华大学开发出新视觉语言模型 可更准确理解 GUI

    清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。CogAgent通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的GUI元素和文本内容,这是有效GUI交互的关键要求。
    站长网2023-12-27 15:46:22
    0000