自主操作计算机框架Self-Operating Computer:用GPT-4V来模拟人类的鼠标点击和键盘输入
站长网2023-11-29 11:17:111阅
自动化技术的最新进展引人瞩目,其中一项引人注目的技术是Self-Operating Computer框架。这一框架采用了先进的GPT-4V模型,通过模拟人类的鼠标点击和键盘输入,实现了令人惊叹的自主操作。在演示中,我们看到了框架自动打开浏览器并访问Google Doc,然后开始撰写诗歌。
Self-Operating Computer的核心能力在于基于给定的目标,估计鼠标点击的正确X和Y坐标位置,以及在每个步骤中进行适当的键盘输入。这一创新的框架旨在与任何视觉-文本多模态模型协同工作,以评估其操作计算机的能力。其使用GPT-4V的强大模拟功能使得计算机可以自主执行各种任务,展现了令人惊叹的智能水平。
项目地址:
https://github.com/OthersideAI/self-operating-computer#self-operating-computer-framework
值得注意的是,目前Self-Operating Computer框架仅支持在Mac系统中使用。不过,对于有兴趣的用户,他们可以通过自行部署来体验这一引人入胜的技术。这种自主操作计算机的框架为用户提供了一个全新的可能性,使得计算机不再仅仅是被动执行任务的工具,而是能够根据预定目标主动进行操作。
总体而言,Self-Operating Computer框架的出现标志着自动化领域的一次重大飞跃。通过结合先进的模型和多模态技术,该框架展示了计算机自主执行任务的新水平。
尽管目前仅限于Mac系统,但随着技术的不断发展,相信将来会有更广泛的应用场景涌现。自主操作的计算机框架无疑将改变我们对计算机能力的认知,为未来的科技发展打开崭新的可能性。
0001
评论列表
共(0)条相关推荐
李彦宏内部讲话谈唯算力论:算力可以买 创新是买不来的
昨日,李彦宏在内部“新使命六周年暨百度骄傲颁奖典礼”上发表讲话。李彦宏表示,算力不能保证能够在通用人工智能技术上领先,算力是可以买来的,创新的能力是买不来的,是需要自建的。李彦宏称,文心一言内测一个多月,就完成了4次大的技术升级,大模型推理成本已经降到了原来的十分之一,或者说推理性能提升近10倍。当别人刚刚开始思考如何进行训练的时候,百度已经在推理上冲出了很远。站长网2023-05-05 08:39:550000女子优酷追剧惊现3000秒广告 重进后恢复正常
浙江一位女士在看电视时遇到了一则50多分钟的广告,比一集电视剧还长。她将这一特殊经历发到了短视频平台上,并配文:“优酷,你别太过分了”。根据她所说,当时她正在优酷平台观看电视剧《长月烬明》。在该短视频的评论区,女士今天中午回应称并不是每一集都会有3000多秒的广告,前几集都是正常的100多秒,只是这一集出现了问题,但返回重进就好了。站长网2023-04-12 13:19:100000智源发布FlagAttention算子集 适配多种大模型训练芯片
为了满足大模型对计算资源的需求,智源研究院开发了FlagAttention项目,旨在构建一套适配多种芯片的大模型核心算子集合。该项目选择使用Triton作为开发语言,通过Triton的开放性和易用性,使得FlagAttention不仅支持NVIDIAGPU,还可以显著降低不同芯片之间模型适配的成本,提高大模型的训练与推理效率。站长网2023-12-08 15:01:410000傅盛“追风”GPT,猎户星空春天来了?
GPT的横空出世,让冷清已久的商用服务机器人市场,又有了“新故事”。从技术底层逻辑而言,服务机器人受到这类新技术的影响会更为明显。因为抛开硬件,服务机器人的内核其实就是AI,GPT大模型的出现显然成了现阶段该产业进化的关键。猎户星空董事长傅盛更是这样形容到,“如果以前他是一个瞎子,现在他已经能看见。这意味着世界要变了。”0001高合汽车回应FF起诉:否认侵犯商业秘密和不正当竞争
法拉第未来(FF公司)今日宣布,已向中国广东省深圳市中级人民法院提起诉讼,指控其前高管、华人运通创始人丁磊及其关联公司侵犯了FF公司的商业秘密,并存在不正当竞争行为。对此,高合汽车迅速作出回应,坚决否认了所有指控。站长网2024-03-05 16:12:520000