Hugging Face 发布医疗任务评估基准Open Medical-LLM
划重点:
⭐️ Hugging Face 发布了一个新的医疗任务评估基准,旨在测试生成式人工智能模型在健康相关任务上的表现。
⭐️ Open Medical-LLM 基准由现有测试集拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。
⭐️ 一些医学专家对 Open Medical-LLM 提出了警告,强调实际临床实践与医学问题回答之间存在较大差距,强调基准测试结果不能替代真实世界测试。
近期,Hugging Face 发布了一项名为 Open Medical-LLM 的新基准测试,旨在评估生成式人工智能模型在健康相关任务上的表现。
该基准由 Hugging Face 与非营利组织 Open Life Science AI 和爱丁堡大学自然语言处理小组的研究人员合作创建。Open Medical-LLM 的目标是标准化评估生成式人工智能模型在一系列医学相关任务上的性能。
Open Medical-LLM 并非从零开始的基准测试,而是由现有测试集(如 MedQA、PubMedQA、MedMCQA 等)拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。基准测试包含多项选择和开放性问题,需要医学推理和理解,涵盖了美国和印度的医学执照考试以及大学生物学测试题库的内容。
尽管 Hugging Face 将该基准视为医疗界生成式人工智能模型的 “健全评估”,但一些医学专家在社交媒体上对 Open Medical-LLM 提出了警告,指出实际临床实践与医学问题回答之间存在较大差距。他们强调,基准测试结果不能替代在真实世界条件下的仔细测试。
对此,Hugging Face 的研究科学家克莱门汀・弗里尔(Clémentine Fourrier)在社交媒体上表示,这些排行榜只能作为探索特定用例的第一近似值,但实际上需要进行更深入的测试阶段,以检查模型在真实条件下的局限性和相关性。她指出,医学模型绝不能单独由患者使用,而应该被训练成为医生的支持工具。
尽管 Open Medical-LLM 等基准测试具有一定的参考意义,但结果排行榜也反映出模型在回答基本健康问题时表现不佳。然而,Open Medical-LLM 和其他任何基准测试都不能替代经过深思熟虑的真实世界测试。例如,谷歌曾试图将用于糖尿病视网膜病变筛查的人工智能工具引入泰国的医疗系统,但尽管理论上准确度很高,该工具在实际测试中却表现不佳,导致患者和护士对其结果的不一致性感到沮丧,与实际临床实践缺乏协调性。
至今,美国食品药品监督管理局已批准的139个与人工智能相关的医疗设备中,没有一个使用生成式人工智能。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况,以及这些结果可能随时间变化的趋势,都是异常困难的。
官方博客:https://huggingface.co/blog/leaderboard-medicalllm
丰田与自动驾驶公司 Pony.ai 合作在中国量产机器人出租车
据国外媒体报道,自动驾驶公司Pony.ai和丰田表示,他们正在合作,目标是生产大量的“无人驾驶机器人出租车”。两家公司计划在今年某个时候开始合作,广汽丰田汽车公司(广汽丰田汽车公司是丰田中国和中国国有汽车制造商广汽集团的合资企业)提供约1.39亿美元的资金。站长网2023-08-07 15:00:310002淘宝回应李思思将直播带货:非本人账号
近日,央视知名女主持人李思思离职后,一个叫“李思思严选”的账号在淘宝直播悄悄上线。粉丝数量达300多人。有网友猜测她可能会转型成为直播带货主播。淘宝直播官方微博在10月11日回应称,今年确实有很多顶流大咖加入淘宝直播,淘宝直播用户规模和主播数量再创新高。然而,这个网传账号并不是主持人李思思本人的账号,而是早前注册的同名账号。淘宝直播还表示,欢迎李思思,若有意向加入,随时欢迎她的到来。站长网2023-10-12 09:21:380000内部人士透露:OpenAI 很可能将 GPT-3.5 开源
OpenAI很可能在未来几个月内发布其模型的权重。OpenAI的AndrejKarpathy最近表示,所有这些对于转换器语言模型来说都是非常通用的。“如果/当OpenAI发布模型权重(我既不能确认也不能否认!),那么这里的大部分代码将非常相关。”站长网2023-07-26 09:59:200000市场监管总局:严查网络直播虚假宣传
据国家市场监管总局消息,市场监管总局近日组织开展2023年反不正当竞争“守护”专项执法行动,不断拓展反不正当竞争执法深度和广度,提升市场竞争整体质量和水平。专项执法行动突出三个重点:一是以查处互联网不正当竞争行为为重点,严厉查处刷单炒信、网络直播虚假宣传等网络不正当竞争行为,为数字经济发展保驾护航。站长网2023-04-19 11:57:240000阿里云四大金刚简史
阿里集团分拆后,所有人都想知道,谁会成为最先上市的新公司。一定程度上,这代表业务独立性强,潜力大,也更受资本市场欢迎。阿里云智能是热门选手之一。在官方给出的实施方案中,以阿里云和钉钉为核心的云智能业务是拆分最彻底的板块。在股权和公司治理上,是一家与阿里集团完全独立的新公司。时间表也已经给出:未来12个月内完成拆分和上市。站长网2023-06-10 08:59:510000