【神麻人智】一种用于诊断面部疼痛的人工智能工具

时间:2025-09-28 12:16:08   热度:37.1℃   作者:网络

概述

对于颞下颌关节紊乱病(TMDs) 和三叉神经痛 (TN) 这两种导致面部疼痛的原因鉴别诊断非常重要,因为这两种疾病的性质和治疗方法截然不同。TMDs 通常采用康复治疗但在极少数情况下,如疼痛的根源与口腔或颞下颌关节病理有关,则可能需要进行牙齿矫正甚至手术。相比之下,TN主要通过抗惊厥药物、外科手术或三叉神经消融术进行治疗。TMDs 的发病率TN 高出好几个数量级,这可能导致如果一开始没有做出正确诊断,就会出现误诊和治疗不当。

我们对101名患有 TMD 或 TN 的患者进行了一项使用监督式机器学习的研究。我们问卷和定向体格检查作为模型的输入,开发了一个预测模型。该神经网络经过训练后,能够根据受试者口面部体格检查和专家诊断,实现相应的正确输出。 对该网络的分析表明,使用标准化问卷和体格检查可以可靠地鉴别TMDs 和TN,准确率约为90% 。这些工具可为对此类鉴别感兴趣的临床医生提供有用信息 。

背景

口面部疼痛对于患者和临床医生而言都是一个挑战。要使治疗有效,准确的诊断至关重要。我们的工作旨在解决一种我们认为在口面常见的疼痛原因——颞下颌关节紊乱病 (TMDs) 和一种较罕见的神经系统问题——三叉神经痛 (TN) 之间的诊断混淆 。这两种综合征都可能导致严重的致残性疼痛。本研究的目的是创建一个基于机器学习(ML) 或人工智能 (AI) 的诊断决策支持系统,用于对 TN 或 TMDs 患者进行第一阶段临床评估和诊断。目标不仅是训练一个诊断算法,还要评估模型训练中特征的重要性,并了解临床上重要的预测因素

TMDs

TMDs 是一组骨骼肌肉和神经肌肉异质性疾病,涉及颞下颌关节(TMJ) 复合体及其周围的肌肉组织和骨骼成分。它们通常还伴有一种或多种慢性重叠性疼痛,如偏头痛、慢性腰痛或纤维痛。TMDs 已被认为是一个公共健康问题,影响着约5%至12%的人口 ,有些甚至高达50%。TMD 是第二常见的导致疼痛和残疾的骨骼肌肉疾病(仅次于慢性腰痛) 。据估计,美国每年在 TMD 管理上的花费不包括影像检查,在过去十年中翻了一番,达到40亿美元。

TMDs 的鉴别诊断范围很广,因为许多疾病都具有这些症状。因此,临床医生在获取完整的病史时必须保持谨慎TMDs常见症状包括头痛、磨牙症、颞下颌关节疼痛、颈痛、关节杂音和耳痛。常见体征包括在下颌角和颈部肌肉触诊时出现压痛。当诊断不确定或保守治疗失败时,则需要进行影像检查,如CTMRI。随着年龄增长,颞下颌关节退变的患病率似乎也在增加,这表明在65岁以上的个体中,大多数 TMD 患者合并退行性关节紊乱。

TMD 可能难以诊断,因为肌源性和关节源性两种类型可能同时存在。TMD 的共病包括头痛、纤维痛和心理障碍(焦虑和抑郁)。神经病理性疼痛似乎是某些TMD 疾病的一个重要方面;然而,在这些情况下,疼痛的病理生理学与潜在的神经损伤有关。TMD 仍然是一个有争议的、甚至有些令人困惑的诊断,尽管已经有人试图对这些疾病进行分类的合理化。

TN

TN 是一个更加罕见的问题,患病率约为人口的0.03%至0.3%。其发病率随着年龄的增长而增加,在50岁以上的个体中更为常见。女性患TN 的频率高于男性,原因尚未完全解释。在多发性硬化症患者中,TN 的发病率显著增高,估计范围为2.4%至3.8%。TN 可能由三叉神经从三叉神经节经过环池到达脑干时受到血管压迫引起,或极少情况下由肿瘤、动脉瘤或血管畸形压迫神经引起。TN 也常在完全没有神经血管或其他明显病理压迫的情况下发生

TN 包括突然发作的严重疼痛,锐痛、放射性或电击样疼痛。发作可能持续几秒钟到几分钟并可能快速连续发生。疼痛位置总是在三叉神经感觉支所支配的下颌、上颌和眼皮肤分区。疼痛可能由轻微触摸、咀嚼、说话、刷牙甚至微风触发。发作的频率各不相同;有些人一天可能经历多次发作,而另一些人可能数周或数月没有疼痛,有时这被称为无痛期。

TN国际头痛协会定义,然而根据《国际头痛疾病分类》(ICHD-3)分类方案TN分为:典型TN、纯发作性TN13.1.1.1.1)、伴随持续性疼痛的典型TN13.1.1.1.2)、继发于多发性硬化症的TN13.1.1.2.1)、占位性病变的引起的TN13.1.1.2.2)和其他TN13.1.1.2.3)。值得注意的是,典型TN13.1.1.1.1)还要求“在 MRI 或手术期间证明有神经血管压迫(不仅仅是接触),并伴有三叉神经根的形态学变化”。特发性TN可以是纯发作性的(13.1.1.3.1)或伴随持续性疼痛的(13.1.1.3.2)。因此,这个分类系统将临床综合征与影像学发现结合在一起。在纯临床基础上,分类13.1.1.1.1 和 13.1.1.3.1 是相同的,13.1.1.1.2 和 13.1.1.3.2 也是相同的 。

方法

伦理合规性

所有涉及人类参与者的研究程序均符合机构和/或国家研究委员会的伦理标准,并符合1964年《赫尔辛基宣言》及其后来的修正案或可比较的伦理标准。

受试者神经外科门诊招募。在获得知情同意后,每位患者都由两位专家进行访谈和检查:一位在TN 诊断方面经验丰富的神经外科医生 (KJB) 和一位专门训练并有 TMD 综合征诊断经验的牙医 (SB) 。所有受试者均完成了我们的面部疼痛问卷 (表1) 。每位受试者都由这两位专家仅根据其病史和体格检查得出一个临床诊断,且结果都是TMD 或 TN。

1.俄勒冈健康与科学大学面部疼痛问卷

图片

图片

图片

以下诊断的受试者未被纳入研究:(1) 继发于多发性硬化症的症状性TN (STN),(2)继发于其他原因,如肿瘤或血管病变TN(3) 继发于特异神经损伤相关的TN (TNP),(4) 继发于特异性神经损伤相关的TN (TDP),或 (5) 带状疱疹后TN (PHN) 。这些诊断有明确的病史基础,并且不会造成诊断困扰,因为如先前报道,可以通过病史或问卷以高灵敏度和特异性进行诊断

所有受试者都接受了口面部体格检查,包括是否存在以下5个特征:检查项目1 (E1) 切牙间张口时的下颌中线最大偏移,(E2) 颞下颌关节侧和耳内触诊时的压痛,(E3) 开/闭口时颞下颌关节发出疼痛的“咔嗒声”或“爆裂声”,(E4) 咀嚼肌触诊时的压痛,以及 (E5) 咬磨牙时的疼痛。这些检查特征中的每一个都被视为一个独立的变量(表2) 。

2.口面部体格检查

图片

为了分析问卷和检查数据,我们选择了三种监督式机器学习算法:随机森林分类器(Random Forest Classifier)、逻辑回归 (Logistic Regression) 和支持向量机 (SVM) ,选择这些算法是基于它们的可解释性和评估特征重要性的能力。每种算法都在三个特征子集上进行训练:(1) 全部特征集(51个特征),(2) 仅体格检查特征,以及 (3) 主要研究者指定的两个调查问题。我们使用网格搜索进行超参数优化,并通过5次迭代交叉验证评估模型性能。我们使用平均加权F1 分数作为评估准确性的主要指标 。所有数据分析、模型训练和可视化均使用 Python 3.7 以及 sklearn、PANDAS、matplotlib 和 Seaborn 库进行 。

对三种监督式分类算法随机森林、逻辑回归和SVM进行了评估。对于随机森林,使用GridSearchCV 进行超参数优化,并采用5折分层交叉验证。网格搜索探索了从50到400的 n_estimators 值和 None、10和20的 max_depth 值。最佳配置是 n_estimators = 100 和 max_depth = None,这些参数被用于最终模型。所有交叉验证和训练-测试分割程序都按诊断进行分层,以在每个迭代中保持类别分布,并防止因不平衡抽样而产生的偏差。在训练和超参数调优之前,我们预留了一个单独的、占数据20%的测试集。最终的模型评估,包括报告的 F1 分数和分类指标,仅在该未运行的测试集上进行,以评估泛化性能

结果

共有101名被诊断为 TMD 或 TN 的患者完成了问卷 (表1) 和口面部检查 (表2) 。其中42名患者被诊断为 TN,59名患者被诊断为 TMD 。这些数据随后被用于开发三个机器学习模型,其结果为“TMD”或“非 TMD” 。默认情况下,“非 TMD”患者被诊断为 TN 。

这三种机器学习模型(随机森林分类器、逻辑回归和SVM)的性能差异显著 (表3) 。随机森林分类器和逻辑回归实现了相似的平均加权 F1 分数,其中随机森林分类器在交叉验证迭代中表现出略好的稳健性和一致性。在完整特征集上训练的模型始终优于在子集(例如仅体格检查特征或选定的两个调查问题)上训练的模型。

经过对模型性能和特性的全面评估,随机森林分类器被选为最终算法(最佳加权 F1 测试数据分数:0.953 [95% CI: 0.855-1.000],受试者工作特征曲线下面积 (ROC-AUC) 测试数据分数:0.952 [95% CI: 0.837-1.000]) 。随机森林分类器之所以优于逻辑回归,是因为其固有的优势,包括对异常值的稳健性、有效处理不平衡数据集的能力以及对复杂的非线性特征交互进行建模的能力。这些特性表明随机森林分类器是区分 TMD 和 TN 诊断最合适的算法。

3总结了三种模型(随机森林、逻辑回归和 SVM)在三种不同场景下的平均 F1 交叉验证分数:全部特征、口面部体格检查和仅问卷(问题3和5)。图1描绘了 (a) 随机森林、(b) 线性回归和 (c) SVM 模型的受试者工作特征曲线 。图2描绘了如果从模型中删除这些检查特征 (E#) 或问卷特征 (Q#),平均模型准确性的下降情况 。该图中只显示了前8个特征,表4列出了用于制作该图的数据。

3. 三种模型(随机森林、逻辑回归和SVM)在三种不同场景:所有特征、口面部体格检查和仅问卷调查(问题 3 和 5)的表现

图片

图片

1三种模型(随机森林、逻辑回归和SVM)的ROC曲线

图片

2. 如果从模型中删除了检查特征E#) 或问卷特征 (Q#),则平均模型准确性会降低。仅列出前 8 个特征

4. 使用随机森林分类器按平均准确率下降对特征重要性进行排名

图片

TMD 的主要预测因子,均来自口面部检查,是颞下颌关节侧和耳内触诊时的压痛,以及咀嚼肌(颞肌、咬肌)触诊时的压痛。来自问卷的最重要问题是:“您的疼痛是否完全或主要是短暂的(几秒到几分钟)和不可预测的感觉(电击样、刺痛、刀刺样、放射性)?” 。

讨论

我们先前曾报告过使用人工神经网络来诊断面部疼痛。该网络诊断TN1 的能力分析显示出高灵敏度和特异性(分别为0.924和0.878)。使用该模型对 TN2 的诊断能力尚不明确(分别为0.625和0.964)。在早期的问卷中,TNP、TDP、STN 和带状疱疹后神经痛 (PHN) 的诊断能力也很明显(分别为0.867-1.0和0.952-1.0)。这与这些诊断可以通过简单的患者病史获得的事实相符。因此,我们选择不将 TNP、TDP、STN 和 PHN 的病例纳入本次分析 。我们之前的工作表明,鉴别 TN 和 TMD 是一项挑战 ,因为这两种疾病的患病率相差大约三个数量级,这可能导致将一些 TMD 病例误诊为 TN。

来自随机森林分类器的特征重要性分析确定了以下变量按重要性排序是最具预测性的变量:“颞下颌关节触诊时有无压痛,如果有,是哪一侧?”、“您的疼痛是否完全或主要是短暂的、不可预测的感觉?”、“颞肌和咬肌触诊时有无疼痛或压痛?”、“您是否意识到或怀疑自己磨牙?”、“您是否习惯性地咀嚼或不小心咬到嘴唇、脸颊或舌头?”、“您的疼痛是否仅在三叉神经手术后才开始?”、“您是否曾因三叉神经手术而使面部疼痛有重大缓解?”以及“您是否患有多发性硬化症?” 。这些发现与临床预期一致,并为诊断过程提供了可解释的见解。这些发现支持了以下观点:短暂性疼痛和既往手术后的疼痛缓解是 TN 诊断的有力指标。相反,咀嚼肌触诊时的疼痛和磨牙史则指向 TMD 诊断。

在本研究中,17/59(28.8%)被诊断为 TMD 的患者对问题“您的疼痛是否完全或主要是短暂的(几秒到几分钟)和不可预测的感觉(电击样、刺痛、刀刺样、放射性)?”回答“是” 。考虑到 TMD 相比 TN 的整体患病率,即 TMD 的患病率大约高出三个数量级 ,这表明被误诊为 TN 的 TMD 患者人数,至少会比真正的 TN 患者人数多出两个数量级以上 。除了这个问题,我们的研究没有试图对 TMD 患者可能报告的任何短暂性疼痛的相对发生率进行分级。这是未来研究的重点。

在任何类似当前工作的分析中,一个关键问题是类别分布不平衡在多大程度上影响模型的性能。为了评估模型在真实临床环境中的泛化能力(其中TMD 的患病率远高于 TN),我们使用了一个TMD:TN 10:1 类别不平衡的合成数据集进行了额外的实验。我们训练了两个模型:一个使用应用了合成少数类过采样技术(SMOTE) 的原始接近平衡的训练数据 ,另一个使用了一个合成的不平衡训练集,其中 TN 类的样本被下采样到 TMD 类的十分之一 。这两个模型都在一个同样不平衡的10:1测试集上进行了评估 。在不平衡数据集上训练的模型达到了0.696的加权 F1 分数 。相比之下,在平衡数据集上训练的模型在同一不平衡测试集上评估时,达到了更高的0.874加权 F1 分数。这表明,在本研究中,在平衡数据上进行训练可以提高模型在不平衡场景中的性能,可能是通过减少假阳性并提高少数(TN)类的召回率。然而,这些发现突出了训练分布对模型性能的重要性 。即使在实际部署中存在类别不平衡,在平衡数据上进行训练也可以支持更稳健的跨类别特征学习并增强泛化能力。

我们的研究结果表明,一种用于鉴别TN 和 TMD 的人工智能辅助诊断工具是可行的,特别是当利用患者数据报告和临床检查发现的组合时。随机森林分类器的性能,尤其是在使用完整特征集时,突显了整合多样化数据源以提高诊断准确性的价值。该模型能够精确定位临床相关特征,例如支持 TN 的发作性和短暂性电击样疼痛,以及支持 TMD 的颞下颌关节或肌肉压痛,这提供了一个透明的框架,临床医生可以解释并将其纳入他们的决策过程。然而,在完整特征集上训练的模型和在子集上训练的模型之间的性能差距强调了全面数据收集的重要性。依赖有限数量的特征可能会损害该工具的诊断精度和实用性。

局限性

尽管这些结果令人鼓舞,但在将此类工具应用于一般临床实践之前,仍存在一些挑战。对独立数据集进行外部验证对于确保模型在不同患者群体中的泛化能力至关重要。此外,尽管特征重要性的可解释性是一个优势,但必须与临床专业知识仔细平衡,以避免过度依赖算法输出。还应解决实际考虑因素,如整合到临床工作流程、临床医生的信任以及处理潜在的算法偏差。本研究为未来在TN 和 TMD 方面的人工智能辅助诊断研究奠定了基础,并有可能提高诊断准确性并简化患者护理。这些结果必须由其他中心进行测试和验证,特别是那些能够结合 TN 和 TMD 专家分析的中心。这些结果的复制和验证可能使我们能够将 TMD 添加到我们之前出版物中指定的诊断列表中 。

上一篇: 白癜风心理干预研究进展

下一篇: 北京大学第三医院安阳团队Biomater...


 本站广告