Tarsier:构建基于视觉交互的多模式网络代理工具库
站长网2023-11-15 18:22:590阅
Tarsier是一个开源的简单实用的多模式网络代理工具库,它提供了视觉标记可交互元素、页面截图OCR识别、文本元素标记等功能,为网页交互代理提供了更深层次的视觉和文本处理能力。
该工具库通过在页面上使用方括号 id的方式对可交互元素进行视觉标记,提供了元素和id之间的映射,使得GPT-4(V)可以对这些元素进行操作。
项目地址:https://github.com/reworkd/tarsier
Tarsier还提供了OCR工具,可以将页面截图转换为LLM可理解的字符串,为没有视觉能力的LLM提供了更深层次的交互能力。
此外,Tarsier还提供了一些示例代理,如自主LangChain网络代理和自主LlamaIndex网络代理,可以演示Tarsier的使用方式。
总之,Tarsier通过提供视觉标记、OCR识别等功能,为网页交互代理提供了更丰富的交互能力,为现有的视觉语言模型的性能问题提供了解决方案。
0000
评论列表
共(0)条相关推荐
FF第二阶段共创交付正式启动 计划8月中旬交付FF 91
FF(FaradayFuture)今天宣布第二阶段共创交付正式启动,并将向首批用户交付FF912.0FuturistAlliance。同时,FF还顺利完成了FF912.0FuturistAlliance的所有合规性测试。站长网2023-08-01 16:36:550000德勤日本最快九月开始将用 AI 审查企业财务信息
站长之家(ChinaZ.com)8月15日消息:德勤日本(DeloitteTohmatsu)最早将于九月份正式开始使用人工智能(AI)来审查公司的财务信息。通过让AI学习过去出现错误和不当行为的公司的财务报告,可以为审计目的识别合规风险。随着公司不当会计实践的增多,使用AI进行高效审计已越来越常见。站长网2023-08-15 11:01:380000马斯克:特斯拉可能像 Android 那样 向其他汽车制造商「开源更多代码」
在与福特汽车公司首席执行官吉姆·法利(JimFarley)进行的TwitterSpaces直播中,埃隆·马斯克(ElonMusk)提出了一个建议,即特斯拉可能会向其他汽车制造商开放其一些汽车操作系统代码。站长网2023-05-26 11:58:070002再创历史新高 比亚迪5月新能源车销量24.02万辆
6月1日消息,比亚迪公布了5月销量成绩,当月累计销量240220辆,同比增长97.63%。此外,5月份比亚迪汽车产量达到了246259辆,同比增长99.34%,产销双双创历史新高。5月,比亚迪乘用车销量239092辆,同比增长109.4%;其中王朝海洋系列销量达228087辆,同比增长99.8%,腾势汽车5月销量11005辆;海外出口10203辆。站长网2023-06-02 11:58:540000瞄准“富贵闲人”,2款社交App月入百万美金
今年年初,TikTok在美国遭遇被禁风波,连带反应就是多个TikTok替代品下载量飙升。这些App自然都没有在榜单上停留太久,但编辑部近日发现,年初靠“TikTok替代品”热度短暂冲榜的Clapper,虽然在下载榜已经完全捞不起来了,但收入却在快速增长后依然保持稳定。ClapperApp页面站长网2023-11-09 09:02:560000