Hugging Face 发布医疗任务评估基准Open Medical-LLM

站长网2024-04-19 11:44:570阅

划重点:

⭐️ Hugging Face 发布了一个新的医疗任务评估基准，旨在测试生成式人工智能模型在健康相关任务上的表现。

⭐️ Open Medical-LLM 基准由现有测试集拼接而成，涵盖多个医学领域，如解剖学、药理学、遗传学和临床实践。

⭐️ 一些医学专家对 Open Medical-LLM 提出了警告，强调实际临床实践与医学问题回答之间存在较大差距，强调基准测试结果不能替代真实世界测试。

近期，Hugging Face 发布了一项名为 Open Medical-LLM 的新基准测试，旨在评估生成式人工智能模型在健康相关任务上的表现。

该基准由 Hugging Face 与非营利组织 Open Life Science AI 和爱丁堡大学自然语言处理小组的研究人员合作创建。Open Medical-LLM 的目标是标准化评估生成式人工智能模型在一系列医学相关任务上的性能。

Open Medical-LLM 并非从零开始的基准测试，而是由现有测试集（如 MedQA、PubMedQA、MedMCQA 等）拼接而成，涵盖多个医学领域，如解剖学、药理学、遗传学和临床实践。基准测试包含多项选择和开放性问题，需要医学推理和理解，涵盖了美国和印度的医学执照考试以及大学生物学测试题库的内容。

尽管 Hugging Face 将该基准视为医疗界生成式人工智能模型的 “健全评估”，但一些医学专家在社交媒体上对 Open Medical-LLM 提出了警告，指出实际临床实践与医学问题回答之间存在较大差距。他们强调，基准测试结果不能替代在真实世界条件下的仔细测试。

对此，Hugging Face 的研究科学家克莱门汀・弗里尔（Clémentine Fourrier）在社交媒体上表示，这些排行榜只能作为探索特定用例的第一近似值，但实际上需要进行更深入的测试阶段，以检查模型在真实条件下的局限性和相关性。她指出，医学模型绝不能单独由患者使用，而应该被训练成为医生的支持工具。

尽管 Open Medical-LLM 等基准测试具有一定的参考意义，但结果排行榜也反映出模型在回答基本健康问题时表现不佳。然而，Open Medical-LLM 和其他任何基准测试都不能替代经过深思熟虑的真实世界测试。例如，谷歌曾试图将用于糖尿病视网膜病变筛查的人工智能工具引入泰国的医疗系统，但尽管理论上准确度很高，该工具在实际测试中却表现不佳，导致患者和护士对其结果的不一致性感到沮丧，与实际临床实践缺乏协调性。

至今，美国食品药品监督管理局已批准的139个与人工智能相关的医疗设备中，没有一个使用生成式人工智能。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况，以及这些结果可能随时间变化的趋势，都是异常困难的。

官方博客:https://huggingface.co/blog/leaderboard-medicalllm

HuggingFace发布医疗任务评估基准OpenMedicalLLM

0000

评论列表

共(0)条

相关推荐

站长资讯
Opera浏览器将谷歌Gemini集成到其浏览器中
划重点:-💡Opera浏览器集成了Google的GeminiAI模型，使得AriaAI扩展可以提供更多最新信息和对话响应。-💡Aria是去年发布的AI助手，可以回答用户查询、编写代码等任务，选择最适合特定任务的AI模型。
站长网2024-05-29 18:47:58
0000
站长资讯
你的自拍照可能被收入“不雅图素材库”，AI作恶其实离你很近！
我们与恶的距离，和工具有关。AI，这个史上（也许）最强工具，在恶人手里，也已全副武装。对普通人来说，AI的加入，让种种骗局和伤害，更防不胜防。试想一下，任何的身影和动作，那张脸可能是你自己，恐怖吗?个人发布在社交平台的自拍和视频，很容易就可以经过AI换脸、AI绘画技术的处理，被不法分子作为不雅图片和视频的“素材”，兜售或者冒用。
站长网2023-05-19 18:24:05
0007
站长资讯
网络主播、生成式AI系统应用员等正式成为国家认定职业
近日，中国人力资源和社会保障部公布了最新职业分类调整结果，其中网络主播正式成为国家认定的新职业，引发广泛关注。除此之外，智能网联汽车测试员和生成式AI系统应用员也被纳入新职业名单。
站长网2024-08-01 10:17:22
0000
站长资讯
法国零售商家乐福推出基于OpenAI的ChatGPT聊天机器人
据财联社报道，家乐福近日推出了一款基于OpenAI的ChatGPT技术的聊天机器人，通过与微软、OpenAI和贝恩公司的合作，将生成式人工智能引入其在线购物平台。
站长网2023-06-09 20:57:10
0000
站长资讯
“争吵”中开启的双十一：平台与主播对垒，头部主播间正面PK
今年的双十一，群雄逐鹿，谁能问鼎?不同于以往，今年双十一，在各电商平台积极参与的同时，各平台大小主播们也都活跃在这个秋天。面对各个平台主播们的强势竞争，今年各电商平台也不再拘泥于过于复杂的促销玩法，而是纷纷主打最低价。于是2023年的双十一，形成了多足鼎力的局面;激烈的竞争也使得火药味越来越浓。因为就在双十一开启的第一天，一连串热点事件让这个购物节与众不同。新现象一:平台与主播对垒喊话
站长网2023-10-26 09:13:16
0001