关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。自主AI手术机器人很厉害,又能提高手术精度,医生也不用那么累,复杂手术说不定以后小医院也能做。但有个大问题一直卡着大家的脖子,就是数据太少。
训练机器人做手术,得有高清的手术视频,还得有机器人每个动作的详细参数,这俩还得精准对应上。
可收集这数据太难了,进手术室得审批,还得保证患者安全,各种规定一大堆,花钱又费力。更别说还有海量的手术视频躺在那没用。
因为没人给标上机器人该怎么动,根本没法用来训练模型。为了解决这个大难题,英伟达、温州医科大学、瑞金医院等搞出了个SurgWorld框架。
其实手术机器人就像个学手艺的学徒,得看大量“师傅操作”的案例,才能学会怎么动手。这个案例不是普通的视频,得是“视频+动作指南”的组合,视频让它知道手术场景长啥样,动作指南告诉它每一步该怎么动。
但现实是这种组合数据少得可怜。一方面手术机器人本身就贵,还得装专门的设备记录动作参数。
另一方面手术室是特殊地方,患者隐私要保护,手术安全不能马虎,想多收集点数据难如登天。就算有医生愿意帮忙标注,耗时耗力不说,每个人的标准还不一样,最后数据也没法用。
反观家里用的机器人、工厂里的工业机器人,人家有海量的数据可以学,所以发展得快。那些厉害的VLA模型,能看懂指令还能动手干活,背后都是靠大量数据喂出来的。
可这些技术搬到手术场景就不管用了,手术里的组织反光、摄像头拍不全、工具要轻轻操作,还有软软的组织不好模拟,跟家里工厂里的环境完全不一样。
以前也有人做过手术模拟器,但出来的效果跟真实手术差太远,机器人学了模拟器的操作,到真手术上还是不会动。
SurgWorld的思路也特别简单,就像先教会机器人“看懂”手术视频,再让它猜出该怎么动,最后把这些猜出来的动作当成练习素材,让机器人反复学。
要让机器人看懂手术,得先有好的教材。研究团队就整理了一个叫SATA的数据集,相当于给机器人编了一套带详细讲解的手术教程。
这个数据集可不是随便凑的,是从正规的外科视频频道和公开的手术数据里,精挑细选再重新标注的。
一共2447个视频片段,加起来30多万帧,涵盖了8种手术类型。但只聚焦四个核心动作,持针、穿刺、拉线、打结,这可是外科手术的基础,学会了这些,复杂手术也能慢慢拓展。
每个视频都配了详细说明,比如器械在哪、在操作哪个部位、怎么跟组织互动。
就像老师讲课一样,不仅让机器人看动作,还告诉它为什么这么动、动的时候要注意啥。这样一来,机器人就能慢慢理解手术的逻辑,而不是单纯模仿动作。
有了教材,还得有练习的地方。SurgWorld就是一个能生成逼真手术视频的虚拟手术室,基于一个叫Cosmos-Predict2.5的强大模型改造而来。
这个改造也很有讲究,用了LoRA的技术,就像给通用模型装了个手术场景的插件,不用大改原有功能,就能让它精准适配手术场景。
训练的时候用了一种流匹配的方法,简单说就是让模型学会“预测”手术接下来会发生什么,生成的视频就像真的手术一样,动作连贯,场景逼真。
你给它一个初始画面和文字指令,比如让它做两次针头移交,它就能生成完整的视频,连组织的反应都模拟得很真实。
就算是没学过的复合动作,它也能把学过的基础动作组合起来完成,就像人学会了基本动作后,能自己摸索复杂操作一样。
光有虚拟手术视频还不够,机器人还得知道每个画面对应的动作参数。这时候逆动力学模型就派上用场了,它就像个翻译官,能把视频里的画面翻译成机器人能看懂的动作指令。
它的工作原理很有意思,输入两个间隔16帧的视频画面,就能算出这中间机器人每个瞬间该怎么动。
比如画面里左边器械移动了一下,它就能精准算出移动的距离、角度,还有夹爪的开合程度,最后输出一个20维的参数,把机器人双臂的动作都描述清楚。
而且这个模型不用从头学起,先用通用的机器人运动数据打底,再用少量真实手术机器人的数据微调,就能精准适配特定的手术机器人,大大减少了数据需求。
SurgWorld的整个流程特别清晰,就四步,环环相扣,把无标注视频变成了宝贵的训练数据。
第一步是用SATA数据集训练SurgWorld,让虚拟手术室能生成符合手术规范的视频。这一步就像给模型打基础,让它先熟悉手术场景和基本动作。
第二步是针对具体的手术机器人和任务做微调。毕竟不同机器人长得不一样,动作方式也有差异,用少量真实数据调一调,让模型能精准适配目标机器人。同时也把逆动力学模型训练好,确保它能准确翻译这个机器人的动作。
第三步就是生成大量合成数据。微调后的SurgWorld能生成很多手术视频,单轮生成56个,多轮能生成560个,足够机器人练手了。再用逆动力学模型给这些视频配上动作参数,就有了海量的“视频+动作”训练数据。
第四步是混合训练。把真实数据和合成数据混在一起,训练VLA模型。先用合成数据让模型打基础,再用真实数据精准微调,这样训练出来的模型,既懂理论又会实战,操作精度特别高。
为了测试SurgWorld,研究团队进行了大量综合测试。先看视频生成质量SurgWorld生成的视频在各项指标上都碾压其他模型。
别的模型要么生成错误的器械,要么动作不符合规范,而SurgWorld能精准执行指令,生成的视频跟真实手术几乎没差别。
找了三个外科专家做评估,从视频和指令的匹配度、器械动作的一致性、组织的真实性三个方面打分,SurgWorld每项都拿了最高分,专家都觉得这视频跟真手术没两样。
少样本适配能力也特别强,只用5个真实轨迹微调,SurgWorld的任务成功率就达到了73.2%,而直接微调基础模型只有51.8%,没经过适配的模型更是成功率为0。这意味着就算真实数据很少,它也能快速适应真实手术场景。
最关键的是政策训练效果,加入合成数据后,机器人的操作精度大幅提升。不管用5个、10个还是20个真实样本,只要加上合成数据,动作预测的误差就明显降低,而且合成数据越多,效果越好。
就算换其他VLA模型,或者用多视角数据训练,这个规律都成立,说明这个框架的通用性特别强。