香港创新研究院开源“术影”surgmotion 手术视频大模型

3月24日,中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)把“术影”SurgMotion手术视频大模型给开源发布了,打算帮医生从只能看画面,升级到真能看懂操作。这个模型是用了一个包含1500万帧、也就是超过3658小时的真实手术视频数据集——SurgMotion-15M训练出来的。在17个国际权威的AI手术基准测试上,它全都拿到了最高分,这说明AI在手术领域已经突破了过去只能做局部识别的限制,往通用化理解的方向迈进了一大步。它不光能用来做临床治疗,还能帮老师教学,或者让医生在做完手术之后复盘。 为了让模型更懂手术动作里的深层含义,“术影”没走传统的像素重建路子,而是引入了一种叫运动引导的隐空间预测机制。据CAIR研究员易东介绍,团队在V-JEPA架构的基础上做了三项改进:让模型更专注于运动和中高层语义信息、保持特征多样性、还有保证模型的稳定性。这样一来,训练就变得更高效了。这个模型能搞定13种人体主要器官的事儿,还能处理6大类任务,像工作流理解、动作识别、深度估计什么的。特别是在看手术流程、器械怎么用、精细动作建模这些核心环节上,它的表现比以前的方法强太多。支撑它的SurgMotion-15M数据集其实是把50个不同地方的资料都汇集在了一起,涵盖了13个解剖区域的各种场景,从腹腔镜到神经外科都有。 发布会现场,香港大学深圳医院神经医学中心的潘伟生教授展示了“术影”在培训上的作用。他说香港大学深圳医院是专门搞神经外科培训的基地,以前“师带徒”的方式很难做到标准化。这次验证的数据显示,“术影”在多中心临床里的准确率达到了90%,在公开的JIGSAWS技能评估数据集里,评估误差最低能到2.649,跟专家给的分很像。中山一院的廖槐教授也展示了它在呼吸介入治疗上的应用。廖槐教授觉得医生有了一定基础后再用AI能提效。他举了个例子说用增强现实技术,拍一张图就能马上分析出信息生成报告。在中山一院的实际数据测试里,呼吸介入治疗流程的识别准确率达到了85%。 CAIR的刘宏斌研究员说这次把模型开源出来,是为了搭建大湾区AI医疗的新生态。“开源是为了让更多人加入进来一起出力。”他希望未来AI系统能变成一个大型具身智能框架。“术影”现在虽然已经覆盖了13个领域,但还有不少问题没解决。他希望更多机构能用上这个模型,大家一起分享碰到的痛点和难点,把底层技术推上去。