复旦大学团队发布中文医疗健康个人助手DISC-MedLLM 单轮问答和多轮对话均表现亮眼
复旦大学数据智能与社会计算实验室(FudanDISC)发布了中文医疗健康个人助手DISC-MedLLM。该模型在单轮问答和多轮对话的医疗健康咨询评测中表现出色,相比已有医学对话模型具有明显优势。课题组同时公开了包含47万高质量监督微调样本的DISC-Med-SFT数据集,以及模型参数和技术报告。
DISC-MedLLM的三大特点:
1)可靠丰富的专业知识,基于医学知识图谱采样获得;
2)多轮对话的问询能力,基于真实咨询对话重建;
3)对齐人类偏好的回复,通过筛选生成高质量小样本指导模型。DISC-Med-SFT数据集利用通用大模型的语言能力,围绕这三个方面进行针对性强化。
主页地址:https://med.fudan-disc.com
Github 地址:https://github.com/FudanDISC/DISC-MedLLM
技术报告:https://arxiv.org/abs/2308.14346
研究团队采用两阶段训练方法。第一阶段使用MedDialog、cMedQA2等数据集进行监督微调,同时加入通用数据集增强语言表达能力。第二阶段使用行为偏好小样本数据集进行微调,进一步提高模型表现。
在单轮问答评测中,DISC-MedLLM在零样本设置下表现强劲,在小样本设置下仅次于GPT-3.5,优于专业医学问答模型HuatuoGPT。在多轮对话评测中,研究团队采用多种策略构建高质量的DISC-Med-SFT数据集:
1)重构AI医患对话。从MedDialog和cMedQA2中抽取样本,使用GPT-3.5重构对话,调整回复风格使其符合AI助手。
2)知识图谱问答。基于医学知识图谱CMeKG进行三元组采样,生成专业医学问答样本。
3)行为偏好样本。人工筛选MedDialog和cMedQA2中的高质量样本,使用GPT-3.5生成符合人类行为偏好的样本。
4)通用数据。加入通用数据集样本,增强模型基础语言能力。
5)问答样本。使用英文医学问答数据集生成中文医学问答样本。
研究人员计算真实咨询分布,以此指导样本构造,并利用回路和人在回路两种思路生成样本,使数据集质量和多样性显著提高。
DISC-MedLLM弥补了现有模型在医疗知识、对话技能和人类偏好方面的不足,展示了构建高质量领域特定数据集以及数据集驱动方法培训专业对话模型的有效性。
万达回应王思聪签约文旅生意:与万达没有关系
近日,王思聪以寰聚商业管理有限公司董事长身份与泰安市签署了泰山文旅健身中心项目的合作协议,项目总投资约37亿元。这一消息引起了关于王思聪和万达集团的讨论。据中新经纬报道,11月30日,万达集团相关人士在接受记者采访时表示,寰聚商管与万达没有关系,王思聪一直忙自己的事情。据悉,王思聪此前主要在游戏电竞、娱乐营销、体育、影视等领域投资,对文旅产业涉及较少。0000OpenAI正开发新AI检测工具 识别AI生成图像准确度高达99%
划重点:1.🤖OpenAI正在开发一款工具,可以高度准确地检测由人工智能生成的图像。2.💼OpenAI的首席技术官MiraMurati表示,他们的工具在确定图像是否由AI生成方面“99%可靠”。3.🌐这种检测工具对于防止利用人工智能制作虚假新闻报道具有重要意义。站长网2023-10-18 23:15:200000爆火的“追星神器”:一根赚1分钱,一年卖出5亿根
“一根荧光棒卖140块,简直是‘天价’。”看到五月天演唱会荧光棒爆卖的消息时,30多岁的徐彬苦笑着摇了摇头,“这个产品估计成本10元左右,更多的是IP授权等营销费用。”他经营着一家创办10多年的荧光棒企业——郑州全彩工艺品有限公司。站长网2023-06-08 11:22:430000蔚来8月新增充电站136座!已实现25978份换电心愿单
快科技9月3日消息,日前,我们从蔚来汽车官方获悉,在刚刚过去的8月里,蔚来汽车共完成了136座换电站的建设,帮助5282名用户在8月实现了换电心愿。作为汽车行业的海底捞”,蔚来汽车一直致力于为客户提供更好的服务。截至至今,蔚来已累计完成25978份心愿单,已填写心愿单的用户中,超过24%的用户有心愿达成。0000视频也可以删背景了!这款AI工具Unscreen可一键去除背景
Unscreen是一款AI自动删除视频背景工具,可以帮你把视频和GIF中的背景去除,目前支持的格式:.mp4、webm、ogg、ogv、mov、gif,应用不需要手动选择像素、颜色和掩码,整个程AI自动检测并分析。体验地址:https://www.unscreen.com/站长网2023-08-08 14:32:420000