PG(中国大陆)官方网站-电子AI辅助平台

百川开源最新医疗大模型中国力量领跑医疗AI赛道-PG(中国大陆)官方网站

PG新闻
分类

百川开源最新医疗大模型中国力量领跑医疗AI赛道

发布时间:2025-08-13 09:46:40    浏览:

[返回]

  

百川开源最新医疗大模型中国力量领跑医疗AI赛道

  专注医疗后,百川智能交出第一份答卷!8月11日,百川智能发布第二款开源医疗增强推理大模型Baichuan-M2,其以32B的参数量,在OpenAI的Healthbench评测集PG电子网站上,超越其刚刚发布5天的开源模型gpt-oss-120b。

  除gpt-oss-120b外,Baichuan-M2还领先GPT-5以外所有开源与闭源前沿模型,以更小尺寸模型实现医疗能力反超,在所有开源模型中登顶世界第一。

  同时,在落地应用浪潮下,大模型所追求的,不再只是效果好,还要能低成本落地。

  尤其是在医疗健康领域,模型涉及更多敏感隐私信息,医疗健康机构对私有化部署有着强烈的需求,而私有化部署往往意味着高昂的部署成本。

  Baichuan-M2的落地门槛则非常低,其支持RTX4090单卡部署,进一步提升了模型在真实医疗场景中的落地可能性与可扩展性。

  这短短5天 “攻防战”,不仅改写了全球医疗大模型的实力排名,更重要的一点在于,在中美通用大模型差距持续扩大的背景下,中国团队可以在AI垂直行业大模型赛道中,实现弯道超车。

  当前,医疗是大模型最重要、最有潜力的应用领域之一,正在逐渐成为全球共识。不过,作为应用底座的医疗大模型,现阶段行业中并未有特别突出的产品。

  即使是OpenAI最新发布的GPT-5,其数学能力满分,代码、写作、知识能力的成绩也都很高,但医疗领域的得分依旧很低。

  而中美垂直行业大模型的能力差距并不大,作为中国头部大模型企业代表,百川智能此次在医疗大模型上,已实现与OpenAI的并驾齐驱。

  那么,作为国内最早全力押注医疗AI赛道的大模型创企,百川智能又是如何做到弯道超车的?

  长期以来,模型在医学考试(如 USMLE)上的表现被视为衡量其医疗能力的重要指标,但随着相关题库的饱和,这类选择题或短回复的评测已难以全面反映模型的真实临床实用性。

  毕竟,医疗AI并不等于“刷题机器”,考试分数再高,也未必意味着在真实医疗场景中好用。

  因此,医疗能力的评测需要有系统化的方法,验证模型在推理决策、临床沟通等关键能力上的综合表现。

  今年5月,OpenAI发布权威且贴近真实临床场景的HealthBench医疗健康评测集。

  该测评集包含了5000个广泛场景覆盖的医患多轮对线个医疗评价规则来对模型能力进行评估,是全球公认的医疗大模型“能力试金石”。

  同时,Baichuan M2在医疗对话任务中展现出显著优势,如紧急医疗响应、医疗上下文理解、医患沟通能力、全球健康知识覆盖及医学思维完备性等核心医疗场景性能全面领先。

  HealthBench Hard,是一个针对更复杂困难场景的数据集,用于验证模型多维度、全景化解决疑难复杂医学问题的能力。

  据悉,此前该测试集发布时,世界上所有顶尖模型得分都没超过32分,许多前沿模型得分甚至为0。

  但现在Baichuan-M2打破了这一纪录,其以34.7分成为全球第二款超过32分的模型,力压世界所有其他顶尖闭源大模型。而Baichuan-M2和GPT-5也是目前全球唯二超过32分的模型。

  事实上,尽管HealthBench已收集大量真实医疗场景,但现实情况往往更加复杂多样。

  不过,基于其评测,也至少能够证明在多数医疗场景上的问答质量,GPT-5和Baichuan-M2已经超越资深医生,特别是在知识更新速度和全面性上,完全可以给人类医生强大支持。

  那么,百川智能的Baichuan-M2医疗大模型,是如何以32B参数,实现以小博大?其核心思路,就是让大模型像医生一样思考、应对真实医患场景。

  从技术角度来说,其背后则是百川智能在大型验证系统(Large Verifier System)、端到端强化学习、AI患者模拟器、多类型医疗数据用于深度推理等4个方面的创新探索。

  近一年来,大语言模型后训练范式的升级,特别是基于RLVR(Reinforcement Learning with Verifiable Rewards)方法的大规模强化学习训练,带来了大模型效果的显著提升,尤其是在有明确答案的数学、代码、科学等领域。

  但是,强化学习在数学、代码、科学等领域之所以能够显著提升模型能力,是因为这些领域的数据是静态的,由简洁的问题和答案构成。

  而医疗问题却是复杂问题,没有标准答案,同一个症状可能存在不同病因,同一病因,患者的体格、病史、用药史、药物耐受程度不一样,治疗方案也会不同。

  因此,医疗领域的强化学习不仅要验证诊断结果、治疗方案的准确性,还要验证大模型的问诊对话过程是否符合医生思维,是一个动态验证的形式,也就导致传统强化学习规则在医疗领域表现并不好。

  针对这一现状,百川智能则以构建Large Verifier System为核心,在通用Verifier之外,结合医疗场景自身特点设计了一套较为全面的医疗Verifier系统。

  用通俗的话来理解,如果将大模型比作一位医学实习生,那么这个系统就像是一个要求极高、异常挑剔的医疗专家。它会从医疗正确性、完备性、安全性以及对患者的友好性等多个维度,细致地评估模型的输出,指出其不足并引导模型改正,使其思维方式更贴近专业医生。

  但想要让这个系统成为严谨的医疗专家,最大的难点在于,人类医生在听取患者描述病情时,很容易分辨患者描述中的逻辑漏洞、从含混不清的表达中辨别出真实病因。现实中患者几乎无法全面准确表达自己的症状,仅基于静态的病例、指南等医疗数据训练,模型无法掌握人类医生的这一能力。

  而为了突破这一瓶颈,百川技术团队升级迭代了今年初首创的“AI患者模拟器”。

  今年1月,百川在arXiv上发表AI患者模拟器,用真实数据构造上万个不同年龄性别症状的AI患者,能够模拟千差万别患者的症状和表达,特别是包含错误噪声的表达,最大程度还原线个月后,百川升级患者模拟器并引入模型端到端强化学习,训练的Baichuan-M2在HealthBench等评测上取得更大突破。

  而为了AI能够更好的学习医学知识,百川智能还采用了多阶段强化学习策略(Multi- Stage RL),将复杂的强化学习任务分解为几个易于管理的、分层的训练阶段。

  就像学车要先练直线、再练转弯、最后上马路,AI学当医生也分阶段练,先练“医学常识”,再练“和病人聊天的技巧”,最后练“复杂病例的诊断”,一步步提升,避免一下子学太难而懵圈。

  综合来看,用“智能考官”判断AI表现,用“真实病例 + 虚拟病人”模拟实战,分阶段训练让AI既懂医学知识,又能灵活应对真实医患场景,百川智能最终使大模型具备了一个靠谱医生的能力。

  但在当前AI大模型落地应用浪潮中,大模型不仅仅要有能力,更重要的还是能落地,尤其是在垂直行业中,很多时候都面临着大模型效果是很好,但部署运营成本太高,终成demo的情况。

  但这一代医疗大模型开启了全新范式,其能力与上一代医疗AI相比已经产生了质的飞跃,医疗大模型不仅仅是医学知识的问答引擎与效率提升的工具,它能够通过Agent的方式全流程融入到诊中、诊前、诊后的各个环节,为AI落地医疗真实场景打开了更广阔的空间。

  在实践应用中,今年2月,以Baichuan-M1为底座的AI儿科医生在国家儿科医学中心多学科会诊中大放异彩,获得会诊专家一致认可。M2则在医疗沟通、诊断合理、检查合理、医疗治疗、医疗安全六个维度相较于M1均显著提升。

  这背后最关键的一点在于,Baichuan-M2为了更适配中国医疗场景,也从中国医学指南对齐、医疗政策适配和患者需求洞察等多个维度进行了深度优化。

  在中国临床诊疗场景的问题评测中,对比gpt-oss系列模型,Baichuan-M2展现出更明显的可用性优势,其中部分优势就来源自中国医疗场景的适配性,例如针对临床诊疗的案例,M2更贴合中国医疗场景,更遵循中国权威指南推荐。

  以某一个真实的肝癌治疗案例中,针对CNLC IIa期(BCLC B期)的肝细胞肝癌患者,M2首选推荐在具备手术条件的情况下进行解剖性肝右叶切除(或根据肿瘤具体位置,可考虑扩大右半肝切除、右三叶切除等),目标是R0切除。

  同样的案例,gpt-oss-120b建议首选治疗经动脉化疗栓塞术(TACE),理由是符合BCLCB期治疗指南,当前情况下手术切除和移植风险不理想。

  仅就这个案例来说,手术切除或TACE都是可选方案,只是中西方指南不同,不是医学上的高下之分,而是基于本地患者特点、医疗资源与当前医学发展水平权衡之下的最优解。

  毕竟,医疗大模型能否将全球医学知识、医学证据转化为符合本地优势特长的临床决策,也是为医生和患者提供切实服务能力的关键。

  Baichuan-M2则为此所做的专门优化,让中国临床场景有了专属的顶尖模型。此外,更为重要的一点在于,Baichuan-M2能够让中国万千医疗机构以更低的成本部署使用。

  业内皆知,医疗大模型落地面临“两难”,即追求高精度往往意味着高成本,如闭源模型授权费、定制化开发投入,而低成本方案又难以满足临床核心需求,尤其是在复杂场景的推理上。

  Baichuan-M2则通过技术优化和开源的方式,降低了医疗机构的部署成本。

  百川智能通过多种PTQ量化策略,对Baichuan-M2进行权重4bit量化,量化后模型精度接近无损,可在RTX4090上单卡部署,相比DeepSeek-R1 H20双节点部署方式,成本降低了57倍。

  另外,开源大模型特性是支持二次开发,可根据具体场景轻量化训练,避免“大而全”的冗余成本,模型权重、训练代码全开放,企业/机构无需支付授权费。

  百川M2开源医疗大模型为中国医疗AI提供了“低成本突破”的路径,推动医疗AI技术的普惠应用。它通过“高精度推理 + 开源低成本”的组合,证明医疗大模型落地无需在效果与成本间妥协。

  近期在由谷歌Kaggle推出的首届全球AI象棋争霸赛中,一众中国大模型也表现并不佳,首轮比赛中就被淘汰出局。

  我们可以看到,在通用大模型上,中美之间始终存在着差距,无论是在能力上,还是在技术创新层面,差距也仍在不断扩大。

  百川智能作为中国大模型创企之一,选择医疗这一“中国有需求、有数据优势” 的领域深耕,用反超OpenAI的成绩证明 “中国可以在垂直赛道做全球第一”。

  而通过开源大模型的模式,也可以降低医疗AI技术门槛,让全球研究者、医疗机构可直接复用模型,在细分的医疗领域构建出自己的专属模型,加速医疗AI的落地与创新。

  此次发布会后,M2模型将进入全面落地期,百川将与国家儿童医学中心、北京大学第三医院、海淀卫健委等探索AI医疗的深度应用,真正推动AI医疗从 “实验室” 走向 “临床一线”。未来,随着模型的落地,将为基层医疗、疾病诊断等场景带来革新,推动“AI医疗惠及全民”。

搜索