GPT-4在医学问题上击败了专业调优的 MedPaLM 2 模型

站长网2023-12-04 11:17:220阅

在研究中，微软的研究人员展示了GPT-4在医学知识测试中的卓越表现，特别是当结合先进的提示工程技术时，其性能超过了专业调整的MedPaLM2。

研究结果显示，相较于费时费力的调优和模型训练，将更有效的提示工程应用于主流通用模型可能是实现更准确结果的更好途径。

Medprompt方法采用了多种提示工程技术，包括GPT-4生成的思维链推理和生成多个单独评分的回答，然后将最高分的答案返回给用户。尽管这种方法会增加推理的成本，因为生成了更多的标记，但结果表明，将领先的通用模型（如GPT-4）与高级提示工程技术相结合，以评估最新性能的标准，可能是值得考虑的。

研究人员使用MultiMedQA数据集进行了一系列测试，包括MedQA、MedMCQA、PubMedQA和MMLU等。虽然测试仍然是多项选择答案，但研究强调，这些结果可能在真实世界的自由文本回答中有所不同。Medprompt方法结合了从零到5个提示技术，展现出了强大的性能。

值得注意的是，研究强调GPT-4生成的思维链推理相对于专家手工制作的Med-PaLM2提示更为优越，因为它提供了更精细的逐步推理逻辑。然而，研究也指出，这一结论是特定于GPT-4的，而不适用于其他通用基础模型。

对于企业部署领域专业生成性AI解决方案的实际操作，研究建议在转向调优或定制模型训练之前，应考虑如何通过提示工程技术提高模型准确性。此外，高级提示工程技术，如模型生成的提示和集成评分，可能进一步改善调优或定制模型。

总的来说，研究的重要性在于发现通过提示工程技术可能实现与调优相媲美的性能，从而加速上市时间并降低成本。然而，研究也指出，企业选择使用通用基础模型还受到数据隐私、数据和应用程序安全性、成本和竞争优势等多方面因素的影响。

研究者强调，改进大语言模型输出的准确性是当前讨论的中心主题，而通过提示工程技术可能是最简单、成本最低的方法之一。

研究结果可能对领域定制模型的开发产生重大影响，因为如果通过更有效的提示工程技术可以获得相同或更好的性能，那么传统的调优方法可能会受到挑战。然而，选择使用通用基础模型仍然涉及到多方面的考虑，包括数据隐私、安全性、成本和竞争优势等因素。

GPT4在医学问题上击败了专业调优的MedPaLM2 模型

0000

评论列表

共(0)条

相关推荐

站长资讯
专家警告！AI约会工具LoveGPT或存在利用GPT虚构身份
要点：Avast网络安全专家警告LoveGPT，一款旨在进行在线约会的AI工具，可用于自动化虚假身份欺诈，诱使受害者泄露敏感信息，如信用卡详细信息。LoveGPT使用OpenAI的GPT语言模型创建令人信服的虚假档案和更真实的对话，使骗子能够在各种约会平台上扩大攻击规模。Avast建议在线约会时保持谨慎，建议用户不要信任新的在线联系人，即使他们看起来很真实，因为可能存在由AI驱动的虚假身份。
站长网2023-10-10 09:58:58
0000
站长资讯
2022年针对美国老年人的欺诈骗局造成超过10亿美元的损失许多涉及使用人工智能技术
划重点:-根据年度美国参议院老年委员会报告，2022年美国老年人据称因欺诈活动损失了超过10亿美元，其中许多骗局都利用了复杂的人工智能生成技术。-许多骗局使用人工智能技术克隆他们认识的人的声音，以及其他人工智能生成的策略，使老年人成为骗局的目标。-受害人通过接到听起来非常像自己亲人声音的电话来被欺骗，这些电话声称他们的亲人处于危险中、受伤或被扣押，要求他们提供金钱帮助。
站长网2023-11-21 15:35:21
0000
站长资讯
Altman被曝七宗罪，OpenAI竟欲加密GPU合作军方？员工大批离职团队濒临崩溃
【新智元导读】刚刚，有网友仔细总结了OpenAI的七宗罪，对Altman发出愤怒的诘问:为何计划跟踪GPU?为何合作军方?员工滚雪球式离职的消息不断曝出，整个对齐团队已经濒临崩溃，「说谎」「心口不一」的形象愈发鲜明，Altman正在失去民心。OpenAI的离职潮，已经像滚雪球一样，根本停不下来了。Ilya的离去，仿佛是压弯骆驼的最后一根稻草。
站长网2024-05-25 06:37:07
0000
站长资讯
荣耀畅玩50正式开售：1199元起配备5200mAh电池
站长之家(ChinaZ.com)4月19日消息:荣耀畅玩50正式开售，该机搭载高亮清晰灵动大屏，售价1199元起。拥有6GB128GB和8GB256GB两个版本可选，售价分别为1199元和1399元。据介绍，荣耀畅玩50配备了天玑6100处理器，CPU组成为2x2.2GHzA76核心和6x2.0GHzA55核心，GPU为MaliG57MC2。
站长网2024-04-19 11:39:57
0000
站长资讯
县城消费觉醒，掀开万亿掘金潮
县城创业，如何复制造富神话?中国有2000多个县级行政区，国土面积占九成，人口占一半。这么“大”的县城，过去在消费者心中的存在感并不强，直到这几年，回到家的北漂、沪漂青年们，不仅发现老家县城大变样，更是惊叹无数“小镇贵妇”的衣食住行焕然一新，撑起了县城消费的一片天。
站长网2024-03-05 11:54:20
0000