Scientific Reports:口咽癌原发肿瘤体积的交互式3D分割

时间:2025-09-28 12:12:39   热度:37.1℃   作者:网络

口咽癌是头颈部鳞状细胞癌的重要亚型,主要发生于扁桃体和舌根区域。其治疗效果高度依赖放射治疗的精准实施,而放疗计划的核心在于对原发肿瘤体积(GTVp)的准确分割。传统的人工或半自动分割方法不仅耗时较长,且存在显著的观察者间变异性,严重影响了治疗的一致性与疗效。近年来,深度学习技术在医学图像分割领域取得长足进展,展现出自动化处理、减少人为误差的巨大潜力。然而,在复杂临床场景下,如图像质量不均或病灶边界模糊时,完全依赖自动分割模型仍难以满足高精度要求,往往需要人工修正。

为弥补这一缺陷,交互式深度学习成为新兴研究方向,旨在融合自动分割的高效性与医生交互的灵活性。通过简单操作(如点击误分割区域),临床医师可快速引导模型优化结果,从而提升整体分割质量与工作流实用性。然而,现有主流方法如DeepGrow和DeepEdit在非交互模式下的初始分割性能与交互优化能力之间存在明显权衡——即难以同时实现高质量的初始输出与高效的后续修正,限制了其在临床实践中的广泛应用。

针对上述挑战,本研究提出一种新型两阶段交互点击细化框架(2S-ICR),专用于口咽癌原发肿瘤的3D分割。该框架采用双模型架构:第一阶段由初始分割网络生成基础结果,输入为配准后的PET-CT双通道数据,输出为经sigmoid激活的概率图;该概率图不仅表征初步分割状态,还作为“记忆机制”在后续迭代中保持分割连续性与稳定性。第二阶段引入细化网络,负责响应用户交互并优化分割结果。当用户进行点击操作(正点击标记遗漏区域,负点击标识误分割区)时,系统将原始图像、初始概率图及编码后的点击信息(以高斯平滑球体形式嵌入三维空间)共同输入至细化网络。该网络基于3D U-Net结构,但输入扩展为五通道,以整合多源信息。

为避免细化网络对初始分割结果的过度依赖,研究引入一种掩码丢弃正则化策略:在训练过程中以概率 pdrop 将初始分割图替换为中性值0.5,迫使模型更关注图像内容与用户交互信号。实验表明,当 pdrop=0.2 时,模型在点击响应幅度与分割精度之间达到最优平衡。训练过程采用Dice损失与二元交叉熵损失的加权组合,并结合随机旋转、缩放、剪切、平移及强度扰动等数据增强手段,提升模型鲁棒性。

评估采用五折交叉验证于HECKTOR 2021数据集,并在独立的MD Anderson(MDA)外部测试集上验证泛化能力。交互模拟采用基于误差距离加权的概率采样机制,确保每次点击聚焦于当前分割与真实标注差异最大的区域,最大化交互效率。

表1:MDA数据集(N = 67)在0、1、5、10次点击及整体平均下的定量结果

定量结果显示,在MDA数据集上,2S-ICR在零点击状态下Dice相似系数(DSC)达0.722,显著优于DeepGrow与DeepEdit-25(均为0.642),与DeepEdit-50(0.721)相当。随着交互次数增加,性能持续提升:一次点击后DSC升至0.773,五次达0.835,十次达0.858,平均DSC为0.820,位居所有对比方法之首。Hausdorff距离95%(HD95)从初始5.385 mm降至10次点击后的2.236 mm,且四分位距更小,表明边界优化更为稳定。在HECKTOR 2021数据集上,2S-ICR同样表现优异:零点击DSC为0.752,十次交互后达0.870,平均DSC为0.836,HD95由3.000 mm降至1.732 mm,验证了良好的泛化能力。

表2:HECKTOR 2021数据集(N = 224)在0、1、5、10次点击及整体平均下的定量结果

 

在交互效率方面,2S-ICR优势显著:在MDA数据集中,达到DSC=0.75平均仅需1.81次点击,达到0.85需5.97次,均少于DeepGrow的2.50和7.40次;同时在多数阈值下失败率最低,说明其临床可靠性更高。计算效率分析显示,模型在NVIDIA RTX 3080 GPU上单次推理时间为0.08秒,峰值显存占用2.06 GB,略高于基线方法但仍在消费级硬件承受范围内;CPU环境下平均耗时1.62秒,具备在常规临床工作站实时运行的潜力。

消融实验进一步证实掩码丢弃策略的有效性:随着 pdrop 从0增至0.2,平均DSC由0.827提升至0.845,每次点击调整的体素数亦从731增至941,表明适当正则化可增强模型对用户反馈的敏感度与调整力度。

综上所述,2S-ICR通过创新的双阶段设计与记忆机制,成功打破了传统交互式分割方法在初始精度与交互优化之间的性能权衡,实现了无需妥协的高精度分割。该框架在分割准确性、交互效率与计算资源消耗之间取得了良好平衡,具备较强的临床可集成性。尽管目前仅针对二分类任务进行评估,且交互模拟可能未能完全复现真实医生行为,但其模块化结构为未来拓展至多类分割或融合真实用户行为数据提供了坚实基础。本研究为推动交互式深度学习在医学图像分析中的实际应用提供了关键技术支撑,有望助力精准放疗与个体化医疗的发展。

原始出处:

Saukkoriipi, M. et al. Interactive 3D segmentation for primary gross tumor volume in oropharyngeal cancer. Sci Rep 15, 28589 (2025).

本文相关学术信息由梅斯医学提供,基于自主研发的人工智能学术机器人完成翻译后邀请临床医师进行再次校对。如有内容上的不准确请留言给我们。

上一篇: NGS检测助力「FET::CREB​融合...

下一篇: 2025 CSCO | Heinz-Jo...


 本站广告