登陆注册
12682

听10秒语音就能判断糖尿病,这个AI大模型太硬核了!

站长网2023-11-13 21:47:360

加拿大的Klick科研人员在顶级健康杂志《梅奥诊所文集:数字健康》上发布了一个AI大模型,只需要听一段6—10秒的语音,就能诊断是否患有2型糖尿病(T2DM)。

目前糖尿病的主要检测方式依赖于血糖测量,但这种方法需要获取血液样本对患者会造成创伤,同时还需要专业设备成本非常高。为了解决这一检测痛点,加拿大知名健康科技公司Klick科研人员提出了AI模型检测方法。

研究人员收集了267名志愿者的语音样本,然后通过AI模型了进行了详细检测,结果显示,AI准确地识别出了2型糖尿病,其中,女性准确率89%,男性准确率86%。还发现,“音调”和“音调标准差”是诊断2型糖尿病的主要特征之一。

这个研究与前段时间Meta提出的使用MEG(脑磁图)重构人类大脑成像过程类似,都是借助人类的生物体特征,来观察其抖动数据变化确定结果。

论文地址:https://www.mcpdigitalhealth.org/article/S2949-7612(23)00073-1/fulltext

构建数据集

研究人员共招募了267名自愿者,其中79名女性和113名男性是非糖尿病患者,18名女性和57名男性被诊断为2型糖尿病患者。

参与者的糖尿病诊断是基于美国糖尿病学会的诊断标准,由医生确认。同时没有神经系统或语言障碍史,也没有吸烟历史。

参与者使用智能手机应用程序录制固定语句“你好,你好吗?我现在的血糖水平是多少”,录制时间为2周,每天最多6次,总共收集了18,465段语音样本。

数据分割,提取特征

由于年龄和体重指数等因素会对语音数据产生影响,研究人员根据参与者ID将数据分割成年龄和体重指数匹配的数据集,用于模型训练和统计分析,这有助于AI模型能够学习到糖尿病语音的真实变化。

训练集占所有2型糖尿病患者的50%男性和61%女性。剩余数据作为测试集,用于测试训练好的AI模型。

接着研究人员从每个语音样本中提取了14个声学特征,包括音高、音强、谐波噪声比、声响、声抖等。特徵提取使用的是Parselmouth,这是Praat语音分析软件的Python接口。

可从原始语音信号中提取能反映语音变化的数值特征,为后续的模型训练和预测提供输入。

选择模型

考虑到相关工作中使用的模型,研究人员选择了逻辑回归、朴素贝叶斯和支持向量机等模型。通过5折交叉验证在训练集上评估了这些模型的性能,从而找到最佳模型。

对女性而言,含3个特征的逻辑回归模型效果最好;男性,含2个特征的朴素贝叶斯模型效果最好。

逻辑回归模型可以估计不同特征对结果的贡献程度;朴素贝叶斯模型在小样本场景下效果较好。然后使用最佳模型,在构建的训练集上进行预训练。

模型测试数据

使用训练好的AI模型对测试集的数据进行预测,得到每个样本属于2型糖尿病的概率。根据预先确定的概率阈值,将样本预测为2型糖尿病或非糖尿病。

同时使用测试集的数据计算模型的精确度、敏感度和特异度等评价指标,还可以绘制ROC曲线等来全面的评估模型的预测性能。

此外,研究人员还将年龄、体重指数等信息融合到预测结果中,可以提高模型的准确度。

例如,对女性平均语音预测结果和体重指数患病率,对男性平均语音结果与年龄、体重指数患病率。这种集成模块通过组合多个信息源,可以弥补单一模型的缺陷,增强模型的预测能力。

测试结果显示,对女性,语音结果与体重指数的2型糖尿病患病率相结合,在测试集上达到了0.89的准确率、0.91的特异度和0.71的敏感度。

对男性,语音结果与年龄和体重指数的2型糖尿病患病率相结合,在测试集上达到了0.86的准确率、0.89的特异度和0.75的敏感度。

研究负责人Jaycee Kaufman表示,我们在研究过程中确定了2型糖尿病患者语音的变化, 这对于AI大模型检测、筛选2型糖尿病有非常高的应用价值。

语音评估的方法有助于2型糖尿病的早期干预和管理,同时减轻疾病的负担改善医疗效果。

关于Klick Health

Klick成立于1997年,总部位于加拿大多伦多,是全球领先的健康营销公司。Klick Health使用数据驱动的方法来开发和实施各种健康和医疗相关的营销策略。

Klick提供一系列服务,包括数字战略、品牌策略、创新与设计、数据洞察、内容开发和技术解决方案等。

关于2型糖尿病

2型糖尿病是一种慢性疾病,主要特征是胰岛素抵抗和胰岛素分泌功能障碍。身体不能有效地使用胰岛素,这种情况被称为胰岛素抵抗。胰岛素是一种荷尔蒙,可以帮助我们的身体将血糖转化为能量。

当胰岛素抵抗发生时,血糖水平开始上升,这可能会导致各种健康问题,包括心脏病、肾病、视力损失和神经损伤。

0000
评论列表
共(0)条