微软通过提示工程将GPT-4变成医学专家,首次准确率超90%
要点:
微软通过「提示工程」将GPT-4成功转化为医学专家,使用最新提示策略Medprompt在医疗专业领域取得了超过90%的准确率,首次超越其他高度微调的模型。
Medprompt是一个多种提示策略的组合,包括动态少样本选择、自生成思维链和选项洗牌集成,使GPT-4能够在医学领域表现出色,并且该方法具有通用性,可推广到其他专业领域。
在测试中,GPT-4结合Medprompt在MultiMed QA九个基准数据集中均取得最高分,平均准确率达到了91.3%。研究人员还进行了消融实验,发现自动生成思维链对性能提升的贡献最大。
近期微软的研究成果展示了通过「提示工程」成功将GPT-4转化为医学专家的威力。在医学专业领域,GPT-4使用最新提示策略Medprompt在MultiMed QA九个测试集中取得了超过90%的准确率,首次超越其他高度微调的模型,如BioGPT和Med-PaLM。
Medprompt是一个由动态少样本选择、自生成思维链和选项洗牌集成等多种提示策略组成的综合体,使GPT-4能够在医学领域表现出色,同时也具有通用性,可以推广到电气工程、机器学习、法律等专业中。
论文地址:https://arxiv.org/pdf/2311.16452.pdf
其中,动态少样本选择利用训练数据作为少样本示例的来源,通过向量相似度从训练集中选择最相似的样本,避免了对模型参数进行大量更新。
自生成思维链通过要求GPT-4使用特定提示生成思维链,实现了逐步思考和推理,从而提高了模型的细粒度逻辑。选项洗牌集成解决了在选择题中可能存在的位置偏差问题,通过打乱选项顺序并进行多轮预测,最终选择最一致、正确的选项。
在测试中,GPT-4结合Medprompt在MultiMed QA九个基准数据集中表现出色,优于其他微调方法。消融实验进一步验证了Medprompt各组件对整体性能的贡献,其中自动生成思维链步骤对性能提升的贡献最大。
此外,研究人员还探索了Medprompt的跨域泛化能力,发现其在不同领域的数据集上同样取得了显著的提升。这一研究成果引发了广泛关注,被认为是一项能够改变行业的技术。目前我们仍未触及提示的极限,也未达到微调的极限,为未来研究和发展提供了更多的探索空间。
AI搜索引擎You.com宣布在WhatsApp推出搜索功能
AI搜索引擎You.com宣布在WhatsApp上推出人工智能搜索功能。现在,用户可以通过WhatsApp使用You.com,只需向You.com发送问题,即可获得即时答案。用户可以通过WhatsApp、网页和移动应用等方式使用You.com,免费体验无限量的AI聊天和搜索功能。站长网2023-08-24 23:31:510000潞晨科技与澜舟科技合作 打造企业级大模型解决方案
近日,北京潞晨科技有限公司与北京澜舟科技有限公司达成战略合作协议。根据协议,双方将在技术领域进行深入合作。潞晨科技将以Colossal-AI系统为基础,结合内存管理,多维并行,推理提速等先进技术,帮助澜舟科技更高效更快速地实现垂类模型落地,使孟子通用大模型、孟子行业大模型和孟子场景服务模型等孟子系列大模型更好地服务行业头部和标杆企业,共同推动AI大模型在多个领域的工程化产业应用和落地。站长网2023-09-27 09:12:240001蔚来全新ES6将于5月24日正式发布 5月25日开始交付
蔚来官方宣布,新款ES6将于5月24日正式发布,并将开启试驾,5月25日开始交付。同时,从今天起,新ES6已经开启预订。用户可通过支付预订金5,000元,并在2023年7月31日前将其转为定金来享受限时预售权益,包括获赠价值8,000元的Moon主题外观套件和气辉橙色卡钳,另外还可以获得价值9,120元的NOP两年的免费使用权。站长网2023-05-16 10:54:350000IBM以23亿美元收购数据集成平台webMethods和StreamSets
**划重点:**1.💼国际数据公司预测,到2027年,全球集成市场将超过180亿美元,年均增长率超过16%。IBM计划以23亿美元从SoftwareAG收购webMethods和StreamSets,以加强其在应用集成、API管理和数据集成领域的地位。0000AI绘画工具助力时尚界,抖音博主打造葡萄时装秀获赞5.4万
近日,抖音博主“知伊”发布了一条名为“田园葡萄时装秀”的视频,引起了网友的广泛关注。视频中展示了穿着“葡萄服饰”的女子在田间走秀的场景,通过图片轮播的方式展现了这一独特的时装秀。这条视频在抖音上获得了5.4万的点赞数,而博主“知伊”的粉丝数量约为3500个。站长网2023-09-12 14:19:260000