GPT-4在医学问题上击败了专业调优的 MedPaLM 2 模型
在研究中,微软的研究人员展示了GPT-4在医学知识测试中的卓越表现,特别是当结合先进的提示工程技术时,其性能超过了专业调整的MedPaLM2。
研究结果显示,相较于费时费力的调优和模型训练,将更有效的提示工程应用于主流通用模型可能是实现更准确结果的更好途径。
Medprompt方法采用了多种提示工程技术,包括GPT-4生成的思维链推理和生成多个单独评分的回答,然后将最高分的答案返回给用户。尽管这种方法会增加推理的成本,因为生成了更多的标记,但结果表明,将领先的通用模型(如GPT-4)与高级提示工程技术相结合,以评估最新性能的标准,可能是值得考虑的。
研究人员使用MultiMedQA数据集进行了一系列测试,包括MedQA、MedMCQA、PubMedQA和MMLU等。虽然测试仍然是多项选择答案,但研究强调,这些结果可能在真实世界的自由文本回答中有所不同。Medprompt方法结合了从零到5个提示技术,展现出了强大的性能。
值得注意的是,研究强调GPT-4生成的思维链推理相对于专家手工制作的Med-PaLM2提示更为优越,因为它提供了更精细的逐步推理逻辑。然而,研究也指出,这一结论是特定于GPT-4的,而不适用于其他通用基础模型。
对于企业部署领域专业生成性AI解决方案的实际操作,研究建议在转向调优或定制模型训练之前,应考虑如何通过提示工程技术提高模型准确性。此外,高级提示工程技术,如模型生成的提示和集成评分,可能进一步改善调优或定制模型。
总的来说,研究的重要性在于发现通过提示工程技术可能实现与调优相媲美的性能,从而加速上市时间并降低成本。然而,研究也指出,企业选择使用通用基础模型还受到数据隐私、数据和应用程序安全性、成本和竞争优势等多方面因素的影响。
研究者强调,改进大语言模型输出的准确性是当前讨论的中心主题,而通过提示工程技术可能是最简单、成本最低的方法之一。
研究结果可能对领域定制模型的开发产生重大影响,因为如果通过更有效的提示工程技术可以获得相同或更好的性能,那么传统的调优方法可能会受到挑战。然而,选择使用通用基础模型仍然涉及到多方面的考虑,包括数据隐私、安全性、成本和竞争优势等因素。
南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手
要点:通过在大量视觉输入和可执行代码的数据对的训练,Octopus学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。Octopus通过视觉输入学习、理解真实世界,并以生成可执行代码的方式完成各种实际任务,具备了规划推理和根据实时环境做出反馈的能力。站长网2023-11-09 17:10:040001圣诞将至,字体超市派发圣诞字体海报啦!
圣诞节庆模式即将开启,您的圣诞字体包是否已经准备就位?还没准备的朋友们赶紧看过来,字体超市已经为小伙伴精选一波以“圣诞”为主题的精品好字,与您共同欢庆圣诞节。「义启圣诞体」是义启字库推出的一款专门为圣诞节而设计的艺术字体,这款字体以搞怪和卖萌的圣诞元素(圣诞树、圣诞帽、圣诞手杖、圣诞袜等),给每一个字都赋予了不同的圣诞含义,用于圣诞活动场景使用上,增加了节日的氛围感。站长网2023-12-22 18:04:170000微信回应看朋友圈会自动点赞:没有自动点赞功能
最近有网友反映微信存在一个bug,在朋友圈停留一分钟以上有一定概率会被自动点赞。但在8月1日,微信客服表示,微信并没有自动点赞的功能,之前也未接到过类似的反馈。因此,这个问题将被反馈到技术部门进行排查,以确定是否存在bug。站长网2023-08-02 09:18:560000AI哨所 |马斯克加入AI大战:组建AI团队成立创业公司 对抗ChatGPT
凤凰网科技讯北京时间4月15日消息,埃隆马斯克(ElonMusk)寻求加入硅谷在生成式人工智能(AI)系统领域的竞赛,目前正在制定计划成立一家新的AI创业公司,与ChatGPT开发商OpenAI竞争。0000安卓一年一迭代谷歌也累了:开始挤牙膏更新
快科技5月14日讯,本周开幕的谷歌I/O开发者大会上,Android14仅仅占了非常小的讲解篇幅,画风突变让外界很不适应。对此,谷歌Android生态副总裁SameerSamat表示,这并非发布会事故”。Android已经按照一年一更的节奏迭代,这一次我们想从用户体验而非系统的角度来展示更新内容,同时,更多新特性会在持续更新中逐渐抵达。站长网2023-05-14 19:48:330000