香港创新研究院开源“术影”surgmotion 手术视频大模型

3月24日，中国科学院香港创新研究院人工智能与机器人创新中心（CAIR）把“术影”SurgMotion手术视频大模型给开源发布了，打算帮医生从只能看画面，升级到真能看懂操作。这个模型是用了一个包含1500万帧、也就是超过3658小时的真实手术视频数据集——SurgMotion-15M训练出来的。在17个国际权威的AI手术基准测试上，它全都拿到了最高分，这说明AI在手术领域已经突破了过去只能做局部识别的限制，往通用化理解的方向迈进了一大步。它不光能用来做临床治疗，还能帮老师教学，或者让医生在做完手术之后复盘。为了让模型更懂手术动作里的深层含义，“术影”没走传统的像素重建路子，而是引入了一种叫运动引导的隐空间预测机制。据CAIR研究员易东介绍，团队在V-JEPA架构的基础上做了三项改进：让模型更专注于运动和中高层语义信息、保持特征多样性、还有保证模型的稳定性。这样一来，训练就变得更高效了。这个模型能搞定13种人体主要器官的事儿，还能处理6大类任务，像工作流理解、动作识别、深度估计什么的。特别是在看手术流程、器械怎么用、精细动作建模这些核心环节上，它的表现比以前的方法强太多。支撑它的SurgMotion-15M数据集其实是把50个不同地方的资料都汇集在了一起，涵盖了13个解剖区域的各种场景，从腹腔镜到神经外科都有。发布会现场，香港大学深圳医院神经医学中心的潘伟生教授展示了“术影”在培训上的作用。他说香港大学深圳医院是专门搞神经外科培训的基地，以前“师带徒”的方式很难做到标准化。这次验证的数据显示，“术影”在多中心临床里的准确率达到了90%，在公开的JIGSAWS技能评估数据集里，评估误差最低能到2.649，跟专家给的分很像。中山一院的廖槐教授也展示了它在呼吸介入治疗上的应用。廖槐教授觉得医生有了一定基础后再用AI能提效。他举了个例子说用增强现实技术，拍一张图就能马上分析出信息生成报告。在中山一院的实际数据测试里，呼吸介入治疗流程的识别准确率达到了85%。 CAIR的刘宏斌研究员说这次把模型开源出来，是为了搭建大湾区AI医疗的新生态。“开源是为了让更多人加入进来一起出力。”他希望未来AI系统能变成一个大型具身智能框架。“术影”现在虽然已经覆盖了13个领域，但还有不少问题没解决。他希望更多机构能用上这个模型，大家一起分享碰到的痛点和难点，把底层技术推上去。