PG新闻
News

基于全国340万人的健康档案,深度学习模型可在发病前3-15个月识别高危个体,相对风险高达118倍。
2型糖尿病曾被认为是中老年人的疾病,如今在年轻人中正以惊人速度增长。定义为40岁前发病的年轻 onset 2型糖尿病,疾病进展更快、并发症风险更高,却因筛查不足和常被误诊为1型糖尿病而大量漏诊。如何从海量常规医疗数据中提前发现这些高危个体?
丹麦哥本哈根大学诺和诺德基金会基础代谢研究中心的研究团队在《柳叶刀·数字健康》上发表了一项全国性回顾性队列研究,利用深度学习方法整合初级和二级医疗数据,开发了能够预测年轻发病2型糖尿病风险的算法。这项研究覆盖了340余万丹麦居民,识别出16,828例年轻发病2型糖尿病患者,为低成本人群筛查提供了新工具。
研究使用了丹麦三大全国性健康登记系统——国家处方登记册(1995-2021)、国家卫生服务登记册(1990-2021)和国家患者登记册(1977-2018),覆盖了全丹麦所有居民的医疗接触记录(包括医院诊断、全科医生处方、专科服务、检验登记等)。研究人群为1995年至2018年间所有40岁以下的丹麦居民,最终纳入3,435,638人。
研究团队采用Transformer架构(与ChatGPT同源的技术),为每个个体构建一条时间轴上的“健康轨迹”——包含最多10年内的处方、诊断和服务代码。模型通过滑动窗口方式,在多个时间点评估个体在未来特定时间窗内(0-12个月、3-15个PG电子月、…、12-24个月)发生2型糖尿病的风险。关键创新在于同时使用了初级医疗(全科医生服务、处方)和二级医疗(医院诊断)数据,并以时间间隔聚合而非按就诊次数聚合的方式处理事件,使其更适应初级医疗数据的PG电子特点。
模型在测试集上表现优异。在0-12个月预测窗内,风险最高的前0.1%个体相较于普通人群的相对风险高达175.0(95% CI 169.9-180.1);即使在12-24个月窗内,相对风险仍达74.6(71.2-78.2)。在5%阳性预测值阈值下(即每20个被标记的高风险个体中有1人将发病),模型可在3-15个月窗内检测出23% 的未来病例。AUROC从0-12个月的0.976(0.976-0.977)逐渐降至12-24个月的0.939(0.938-0.940)。
多源数据整合优势显著:整合三个登记册的模型在中期预测(3-15个月及更远)中持续优于任何单一数据源的模型。尤其是在12-24个月窗内,整合模型的相对风险(74.6)远超仅用国家卫生服务登记册的模型(50.0)和仅用处方登记的模型(48.9),说明初级医疗数据对提前预警至关重要。而仅用医院诊断的模型预测能力极差,反映出年轻发病2型糖尿病患者在确诊前较少因糖尿病相关原因住院。单一来源中最强的模型是国家卫生服务登记册(全科医生服务数据),在0-12个月窗内相对风险(184.6)甚至略高于整合模型(175.0)——这是因为接近确诊时患者已开始进行血糖检测(如β-葡萄糖测试),但这一优势在更早的时间窗内消失。
跨区域泛化稳健:在丹麦五个地理区域间交叉验证,模型性能保持稳定,各区域相对风险介于150至161之间(0-12个月窗),表明算法对不同地区的社会经济和医疗资源差异具有鲁棒性。
研究采用积分梯度法解释模型预测。结果显示,心血管系统处方是最强的预测信号——包括ACE抑制剂、他汀类药物、纤维酸衍生物等,且随临近发病其贡献度急剧上升。诊断中贡献最高的包括:胰腺炎、慢性肾功能衰竭、肥胖、精神疾病、脊髓损伤、囊性纤维化,以及多种癌症(脑、睾丸恶性肿瘤)。这些发现在临床上有较强的合理性——例如,胰腺炎可导致胰岛素分泌受损,精神疾病药物(如抗精神病药)已知与代谢综合征相关,脑肿瘤患者因颅咽管瘤等病变可能影响下丘脑-垂体轴而导致继发性糖尿病。
来自初级医疗的特征中,全科医生咨询和β-葡萄糖测试贡献最大,而常规牙科检查、儿童疫苗接种、心理服务等则呈负向贡献——可能反映了更健康的生活方式或更高健康素养。
当一位年轻人在全科医生处因“寻常”原因就诊时,他/她可能正处于未被发现的糖尿病前状态。这项研究表明,Transformer模型能从个体数年甚至十年以上的日常医疗接触中,捕捉到那些微弱的、跨领域的早期信号,提前数月发出预警。这种“不新增检查、只挖掘已有数据”的思路,为公共卫生筛查提供了低成本、高可扩展的新范式。








