【神麻人智】人工智能在心电图诊断围手术期心肌缺血中的应用:一项范围综述
时间:2025-09-25 15:47:17 热度:37.1℃ 作者:网络
摘要
背景:围手术期心电图监测可实现心肌缺血的即时检测,但其在围手术期及远程监测场景中的应用常因频繁的假警报和信号干扰而受限。为此,我们开展了一项范围综述,旨在梳理人工智能(AI)在围手术期心电图解读中的当前发展状况。
方法:我们在Ovid MEDLINE、EMBASE、Compendex和CINAHL数据库中检索自建库至2023年5月10日发表的文献。纳入所有针对心肌缺血、心肌梗死或两者兼有的心电图监测原始研究。
结果:共纳入1991年至2023年间发表的182篇原始研究文献。大多数研究(n=132)利用现有心电图数据库回顾性开发AI算法,其余研究未明确说明数据来源。58%的研究在开发AI算法前使用了信号处理滤波器以去除心电图噪声或伪迹。在所使用的AI技术中,ResNet表现出最高的中位敏感性、精确度和特异性,分别为98.4%、99.8%和99.1%。仅有5项研究对ST段抬高型心肌梗死进行了间歇性前瞻性心电图采集;尚无研究在围手术期环境下前瞻性采集连续心电图数据,而该场景恰恰存在频繁的假警报和信号干扰。
结论:AI技术在处理“干净”的间歇性心电图时,对心肌缺血的诊断可达到高准确性。然而,几乎所有这些算法均基于少数开源的“干净”心电图数据库开发,未在“含噪声数据”中进行验证,这极大限制了其在围手术期临床环境中的适用性——该环境中信号干扰极为常见。未来亟需开发并验证适用于围手术期心电图的AI算法,且应在真实噪声环境(包括围手术期监护和可穿戴设备等远程监测场景)中进行测试。
编辑要点
人工智能(AI)算法在“干净”的心电图数据上检测心肌梗死具有相对较高的准确性,但其在实时围手术期环境及含噪声心电图中的表现仍基本未经验证。
本综述梳理了当前可用于基于心电图的心肌梗死检测的AI应用,并指出了其在围手术期应用中的关键空白。
未来研究应致力于在真实围手术期环境中验证AI模型,将有助于将其整合至可穿戴设备中,实现连续监测。
围术期心肌梗死可发生于每33例接受非心脏手术的住院患者中。早期关于心肌缺血(心肌梗死的前驱事件)研究指出,术后患者中缺血发生率高达41%,并与所有不良心脏结局风险升高2.8倍、任何缺血性事件发生几率升高9.2倍相关。根据近期研究,接受非心脏手术患者中真实围术期心肌梗死的发生率介于3.5%至19.1%之间。围术期心肌梗死主要由氧供需失衡所致,称为2型心肌梗死(Type 2 MI),若能及时通过β受体阻滞剂或硝酸甘油治疗纠正该失衡,则可能予以预防。然而,超过60%的围术期心肌梗死无症状,使得及时诊断与干预极具挑战。目前针对非心脏手术后心肌损伤的监测主要依赖每日检测肌钙蛋白水平。尽管肌钙蛋白对围术期及长期预后具有预测价值,但其间断性监测策略缺乏有效、及时的机制以检测并阻断缺血进程。在日间手术背景下,高危患者常面临两难抉择:延长住院以监测,或提前出院而可能遗漏并发症。相较之下,持续监测心电图(ECG)ST段变化可实现心肌缺血的即时识别。术中采用五导联心电图(重点监测II导联与V5导联)监测ST段变化,数十年来已被用于检测术中心肌缺血及2型心肌梗死。个案报告提示,术后远程心电监测亦可能实现心脏事件的及时检出,从而中断缺血进程并降低术后心肌梗死风险。然而,远程环境中因信号噪声导致的频繁误报警可能引发“报警疲劳”(警觉性下降与报警忽视),进而危及患者安全。近期研究表明,人工智能(AI)技术已显著提升心电图解读能力。为此,我们开展本范围综述,旨在系统梳理当前AI技术在围术期及远程场景下用于心电图识别心肌缺血与梗死的研究现状与知识图谱。
方法
在启动本综述前,已在JBI系统评价与实施报告数据库、Cochrane系统评价数据库及国际系统评价前瞻性注册库(PROSPERO)中确认无类似已发表文章。本研究问题为:“现有证据如何支持在围术期及远程监测场景中应用人工智能(AI)进行心电图诊断心肌缺血与心肌梗死?”目标人群为“术后住院或已出院患者”,核心概念为“人工智能”,研究背景为“非心脏手术患者围术期心肌缺血或梗死的心电图诊断”。报告遵循《系统评价与Meta分析报告规范之范围综述扩展版》(PRISMA-ScR)指南。
检索策略
在医学图书馆员协作下,我们制定了全面检索策略。根据图书馆员建议,检索范围除心肌梗死外,亦纳入心房颤动(AF),并涵盖所有住院(如内科患者)与门诊(如动态心电图)场景。此策略旨在降低因数据库索引不一致(部分研究可能被归入AF主题)而遗漏相关文献的风险,确保文献覆盖的全面性。我们于2023年5月10日系统检索Ovid MEDLINE、EMBASE、Compendex及CINAHL数据库,并对纳入文献的参考文献进行滚雪球式追溯。检索无发表年限限制,但限定为“人类研究”及“英文文献”。核心检索词包括:人工智能、心电图、心肌梗死、心肌缺血或损伤、心房颤动、ST段抬高型心肌梗死(STEMI)。同时纳入“较早期”术语,如生物信息学、自动学习、计算智能、机器学习与深度学习。详细检索策略与结果见补充材料1。文献题录导出至COVIDENCE™(Covidence, 澳大利亚墨尔本)并去重。
筛选与纳入
两名作者(AK与JC)独立进行标题与摘要初筛,随后对初筛入选文献进行全文审阅。分歧通过讨论解决;第三位评审员(HY)作为仲裁者备用,但实际未启用。我们纳入所有明确评估AI用于心电图检测心肌缺血或心肌梗死的原始研究。特别说明,我们排除了仅聚焦心房颤动的研究,因其非本研究主要目标,且检索发现已有大量系统评价专门探讨AI在房颤检测中的应用。对AI模型类型或心电图数据来源无限制,包括探索可穿戴心电设备的研究。
数据提取
提取信息分为三大类:(1)研究基本信息,包括研究设计、发表年份与国家、队列规模、患者特征、心电图类型及所用数据库;(2)所采用的AI技术及参考标准;(3)所评估AI技术的召回率(或敏感度)、特异度、精确率(或阳性预测值[PPV])、阴性预测值(NPV)及总体诊断准确率。
工程学文献中用于描述诊断准确性的术语与临床流行病学文献略有不同。为明确概念,我们在补充表S1中列出了这些指标的定义。
数据分析
本研究为范围综述,分析以叙述性为主,旨在回答以下问题:
已开发出哪些用于围术期心肌梗死/缺血心电图诊断的人工智能算法?
与医师人工判读相比,基于人工智能的算法准确性如何?
不同AI模型(如机器学习、深度学习)或特定患者亚组是否影响诊断准确性?
围术期与远程监测场景下AI应用的关键局限性与知识空白是什么?
鉴于各研究目标异质性高且报告质量参差不齐(如多数研究未报告样本量),定量荟萃分析不可行。因此,我们采用描述性分析方法,主要以中位数(四分位距[IQR])和频数(计数)对现有数据进行汇总,同时承认该方法固有的局限性。
结果
初始系统检索共获得12,634条记录。去除5,068条重复记录后,我们首先对7,566条记录的标题与摘要进行筛选,随后对910篇全文进行审阅。最终从182项研究中提取数据构建本综述结果(完整引文见补充材料2)。我们排除了缺乏明确量化指标或偏离预设结局与方法的研究(见附录1)。值得注意的是,我们识别出355项关于AI辅助房颤判读的研究,因其超出本综述范围而被排除。
研究特征
纳入的182项研究发表时间跨度为1991年至2023年,其中近5年研究数量呈指数级增长(见补充图S1)。这些研究来源国家广泛,其中中国(n=47)与印度(n=28)为领先国家。
心电图数据来源
绝大多数研究为回顾性设计(n=177),并使用现有开源心电图数据库构建其AI算法;具体而言,PTB/PTB-XL数据库被91项研究采用,欧洲心脏病学会ST-T数据库被22项研究采用,MIT Physionet/MIT-BIH数据库被9项研究采用。常用开源心电图数据库的特征汇总见补充表S2。大量研究(n=54)未明确说明其心电图数据来源。在所有纳入研究中,训练集与验证集均源自同一心电图数据库,无一使用外部验证数据集。病例报告与病例系列原则上被排除于分析之外,但涉及可穿戴设备的研究被纳入叙述性综述,以探索其在远程心电监测中的应用。所有纳入研究的特征详见补充表S3。
参考标准
在177项纳入研究中,最常用的参考标准为心内科医师手动标注的心电图判读结果(n=171)。两项研究依赖主治医师的心电图解读,四项研究采用冠状动脉造影作为确诊方法。其余研究未明确说明参考标准。
所采用的人工智能技术类型
原始研究中探索的AI技术可大致分为:基于算法(n=51)、传统机器学习(n=27)、信号处理(n=2)、神经网络(n=90)及混合网络(n=12)(见表1及补充表S4)。历史上,用于检测心肌梗死或心肌缺血的AI算法已从专家系统演进至经典机器学习,并在近年发展至深度学习,反映出AI算法日益复杂化。心电图解读中的专家系统(AI算法)通常依赖预定义规则或既定阈值识别缺血性改变,例如ST段偏移。例如,基于规则的系统可能将超过设定幅度或持续时间的ST段抬高或压低判定为心肌缺血。此类专家系统虽在受控环境下有效,但在面对超出预设参数的复杂或噪声干扰心电信号时可能表现不佳。
传统机器学习方法,如支持向量机(SVM)与决策树,涉及人工特征工程,即手动选择相关心电图特征(如ST段与T波)以训练并构建预测模型,用于在新心电图数据中识别缺血事件。尽管对较简单任务有效,这些方法可能无法充分捕捉心电图数据中固有的复杂非线性关系。
深度神经网络(DNNs)通过直接从原始心电信号中学习复杂模式与非线性关系,无需人工特征提取,从而解决了这一问题。其中,卷积神经网络(CNNs)利用卷积层,擅长识别输入心电图数据中的空间模式,通过应用特定滤波器或卷积核捕捉ST段等细微特征。通过互联所有检测专用层,CNNs能够学习并解释更高层次的表征,相比更通用的人工神经网络(ANNs)做出更准确预测,因其专门针对网格状数据(如心电图)设计。
残差网络(ResNet)与密集连接卷积网络(DenseNet)的引入标志着CNN架构的重大进步,使其能够深入挖掘数据复杂性。ResNet凭借其容纳数百层的能力(相较CNN的数十至百层),通过残差块引入“跳跃连接”(skip connections),绕过一个或多个层,无缝融合所有层的学习成果。相比之下,DenseNet依赖层间密集连接,促进梯度在整个网络中的高效流动,缓解传统CNN中常见的梯度消失或数据过载等问题。
混合网络,如CNN-LSTM混合网络,结合了长短期记忆(LSTM)网络的能力,以应对梯度消失问题并捕捉数据中的时间动态特征。该混合方法使CNN能够从心电信号中提取复杂特征,同时LSTM网络擅长检测随时间演变的时序模式,从而增强算法在心肌梗死检测场景中的效能。有关AI技术的更详细描述见补充材料3。
人工智能技术的总体诊断性能
AI算法展现出优异的整体诊断性能,敏感度与特异度中位数分别为89.0%(82.7–95.9%)和93.3%(84.9–97.7%)。阳性预测值(PPV)与阴性预测值(NPV)分别为85.0%(63.9–93.4%)和96.3%(91.8–99.2%),准确率与曲线下面积(AUC)分别为91.6%(82.5–96.5%)和91.9%(89.2–97.0%)(见表2及补充表S5)。神经网络是最常使用的AI技术(n=95),其性能表现稳定优异,敏感度、精确率与特异度中位数(IQR)分别为95.4%(89.8–98.5%)、95.8%(88.6–99.3%)和96.2%(88.8–99.1%)。传统机器学习方法虽仍有效,但精确率略低,其敏感度、精确率与特异度中位数(IQR)分别为94.1%(91.8–98.9%)、90.3%(70.0–96.1%)和96.7%(90.7–99.5%)(见表2)。研究混合方法与基于信号处理方法的文献较少,反映出这些技术尚处于新兴阶段。详细诊断数值见表2。
神经网络家族内的诊断性能
在神经网络家族中,性能从人工神经网络(ANN)、卷积神经网络(CNN)到更先进的残差网络(ResNet)逐步提升,详见表2。ANN技术(包括ANN贝叶斯、ANN Hermite表示法、ANN格拉斯哥技术)的召回率(敏感度)、精确率与特异度中位数(IQR)分别为88.6%(83.9–96.7%)、87.9%(77.7–93.0%)和89.2%(78.4–96.2%)。CNN技术表现更优,召回率(敏感度)、精确率与特异度分别为94.2%(87.0–97.1%)、89.8%(82.2–96.6%)和93.2%(90.0–97.7%)。最先进的ResNet展现出最高诊断准确率,召回率(敏感度)、精确率与特异度分别达98.4%(96.2–99.0%)、99.8%(99.1–99.8%)和99.1%(97.6–99.5%)。
不同导联心电图的诊断性能
多数研究使用由12导联心电图记录组成的间歇性心电片段(n=156),其次为2导联(n=13)与单导联(n=11)。其他格式(3、6、8、9、15导联)共在9项研究中使用。12导联心电图的召回率(敏感度)、精确率与特异度中位数(IQR)分别为94.2%(88.0–98.2%)、91.3%(76.9–98.4%)和95.1%(88.1–99.0%)。2导联与单导联心电图的诊断性能相近,详见表2。
不同应用场景下的诊断性能
多数研究为回顾性研究,使用住院患者数据。仅6项研究前瞻性采集心电图数据,但样本量较小(中位数=204例),最小样本为1例患者的个案报告³¹。三项研究通过智能手表采集心电数据:一例报告为“不确定”的单导联心电图,尽管患者胸痛持续3天;另两项研究通过患者调整设备位置模拟12导联心电图。这些研究中的患者均因疑似急性冠脉综合征就诊或转运至急诊科或心脏重症监护病房,所用心电数据多为间歇性片段,无一采集自连续围术期心电监测。比较住院、门诊与智能手表来源的心电数据,其召回率(敏感度)中位数(IQR)分别为94.1%(88.6–98.5%)、94.9%(88.4–99.7%)和93.0%(85.4–100.0%),特异度分别为95.8%(88.3–99.1%)、98.6%(92.2–99.9%)和95%(82.4–100.0%)。
未使用信号预处理技术的诊断性能
超过半数研究(n=109)使用预滤波后的心电片段(即仅使用干净无噪声的心电片段构建AI算法)。值得注意的是,许多AI算法是在数据预处理滤波后才应用的。若排除使用预处理数据的研究,AI算法的召回率(敏感度)、精确率与特异度中位数(IQR)分别为91.9%(87.5–98.2%)、89.5%(72.8–98.5%)和94.6%(89.9–99.1%)。使用预处理数据的研究其召回率(敏感度)、精确率与特异度中位数(IQR)分别为93.9%(89.0–98.6%)、93.0%(76.9–98.1%)和95.0%(86.3–98.6%),表明使用或不使用预处理滤波的研究间诊断性能相当。
讨论
本范围综述勾勒了当前用于诊断心肌梗死(MI)与心肌缺血的人工智能(AI)算法研究格局。尽管在开发MI检测AI方面已有大量探索,但在实时围术期应用场景中——特别是针对ST段压低/非ST段抬高型心肌梗死(NSTEMI)——相关研究仍极为有限。当前研究主要沿两条路径展开:(1)开发旨在提升诊断准确性的AI算法,但大多未迈出关键下一步,即将这些算法整合至围术期临床实践中;(2)探索在门诊环境中应用内置AI算法的可穿戴设备以检测ST段抬高型心肌梗死(STEMI)。多数研究聚焦于基于开源心电图数据库(包含正常与异常心电图,如ST段抬高)构建工程化AI算法。这些研究普遍采用高度相似的方法学:将数据库划分为模型推导、验证与测试数据集,继而开发新型AI算法,并将算法测试性能与作为参考标准的医师(通常为两名心内科医师)心电图判读结果进行比较。仅少数研究采用冠状动脉造影诊断作为参考标准(见补充表S4)。
仅有五项研究为前瞻性设计,但均存在方法学缺陷:纳入标准模糊、样本量极小(如一项研究仅纳入1例患者,另一项仅2例)、女性代表性不足(13%)。这些前瞻性研究中验证队列的选择标准亦不明确。例如,Chen等的研究中,验证队列仅包含10例患者,且未明确说明纳入或排除标准。所有前瞻性研究的目标疾病均为STEMI,无一涉及ST段压低/NSTEMI。尤为重要的是,尚无任何算法在术中、术后住院期间或出院后远程居家监测项目中接受过测试。
在门诊可穿戴设备研究中,智能手表近年来成为多项研究(n=3)的热门选择。然而,其阻碍围术期应用的关键局限在于仅能检测单导联心电图。为克服此局限,部分研究设计尝试通过调整智能手表佩戴位置(以艾因托芬三角为指导)来增强导联检测能力。例如,Avila的研究旨在按预期获取I导联,而II、III导联则通过患者用左手或右手拇指接触表冠、并将表背贴于腹部中线位置实现。一项研究使用Apple Watch在54例和27例患者中分别检测已确诊的STEMI与NSTEMI,报告其对STEMI的敏感度与特异度分别为93%与95%,对NSTEMI则为94%与92%。其余报告主要为小样本可行性演示(Avila:n=2;Stark等:n=1),旨在验证Apple Watch检测STEMI的准确性,并与专家医师在传统心电图上的判读结果进行对比。然而,可穿戴设备佩戴位置的变异性对可靠导联检测构成挑战,凸显了围术期场景下可穿戴设备与算法开发仍需进一步突破。
解读
尽管近期AI算法展现出优异的诊断性能,但在将其应用于围术期场景时,对其高数值结果应持审慎态度。实时心电图数据常包含噪声与伪迹,可能严重影响AI算法的准确性。许多研究虽采用预处理滤波器试图消除噪声,但预处理与非预处理数据间的诊断性能差异相对有限。这一现象可归因于多重因素:首先,多数现有数据库经过精心整理,提供的是干净且标注良好的高质量数据,因此额外施加预处理滤波对性能指标提升有限;其次,采集数据所用硬件设备本身常内置硬件滤波器,使额外的数字滤波显得冗余;此外,部分研究刻意选择不引入复杂预处理滤波,这可能源于其算法本身对噪声与输入数据变异具有内在鲁棒性。通过聚焦于能内在应对此类挑战的算法设计,这些研究在不重度依赖预处理技术的情况下亦实现了稳定的性能表现。本质上,高质量训练数据与算法对数据变异的鲁棒性共同解释了预处理滤波在这些研究中对诊断性能影响甚微的原因。
尽管在预处理数据上训练的算法在受控环境下表现良好,其在围术期实时、高噪声、频繁伪迹干扰的心电数据中的准确性仍属未知。此外,合并心律失常或其他心电图异常(如电解质紊乱、左束支传导阻滞)可能限制AI判读的准确性。大多数研究未能在其心电图数据集中充分处理这些主要混杂因素,从而限制了其在真实临床环境中的适用性。另外,目前尚无明确证据表明心电图导联类型或采集场景会显著影响AI诊断性能——尽管由于门诊数据(n=6)与智能手表数据(n=3)样本量远小于住院数据(n=178),对此结论的解读仍受限。
深度学习模型虽可能提供更优性能,但因其复杂性,需依赖大规模数据集进行训练。当前数据可用性受限于标注错误(例如PTB-XL数据集中存在1.86%的错误率)及标注记录匮乏,这直接影响模型的训练与评估效果。数据增强与自监督学习(SSL)技术或可缓解上述局限,因其可在无需大量人工标注的前提下实现模式识别;然而,这些方法亦可能放大数据集中已存在的固有偏倚。
当前局限性与知识空白
当前主要局限性与知识空白总结如下(见表3):第一,多数AI算法基于经过筛选的开源心电图数据训练,其泛化能力受限,难以适用于高危手术人群及噪声干扰严重的围术期环境。第二,围术期心肌缺血常源于氧供需失衡,其心电图表现与非手术环境下急性心肌梗死的典型模式存在差异,从而增加了算法适用性的复杂性。第三,多数研究采用医师心电图判读作为参考标准,而非心肌缺血或心肌梗死的确诊依据,可能引入诊断偏倚。第四,将AI诊断工具整合至围术期临床工作流程面临技术挑战:可穿戴设备常需刻意调整佩戴位置,限制了其在围术期环境中的实用性。鉴于超过60%的围术期心肌梗死病例无症状且常发生于夜间,亟需开发更先进、经临床验证的AI算法,以满足围术期关键监测需求。
未来方向
人工智能在围术期医学中已引起广泛关注,其应用远不止于心电图监测。Bellini等的系统综述指出,AI已被应用于多个围术期领域,包括预测围术期死亡风险、心血管并发症,以及心脏手术或全膝关节置换术后急性肾损伤等。多数研究依赖术前变量(如患者特征、病史、实验室指标)进行风险预测。值得注意的是,其中六项研究探索了基于实时数据输入AI算法的早期预警系统,专门针对麻醉过深、低血压、低氧血症与心动过缓等事件。这些研究多采用梯度提升、随机森林与逻辑回归等机器学习技术,较少使用人工神经网络(ANN)或支持向量机(SVM)等神经网络方法。尚无实时监测研究采用CNN或ResNet等常用于心电图解读的先进AI方法。这一空白凸显了开发高精度AI工具的迫切需求——此类工具需专门针对术中、术后或远程场景下实时、高噪声的围术期心电图进行优化。此类技术进步有望提升监测能力,进而改善患者预后。
研究局限性
首先,因原始研究报告质量不足,本综述未进行定量荟萃分析,但可识别研究趋势并为现有文献提供背景解读。Bellini等关于非心电图研究的系统综述亦支持我们的观点,指出当前研究在应用场景与评估算法方面高度异质,导致无法进行统一评估或荟萃分析。此外,心电图报告的实际要素(如片段数量、受试者人数、是否使用预处理滤波、最优导联数)在各研究间差异显著,这些不一致性可能影响本综述对研究结果的整合。参考标准的多样性亦可能导致模型开发与性能评估的异质性。另一局限在于尽管我们在临床、工程与相关健康领域四大数据库中进行了全面检索,仍未能充分纳入灰色文献及科技与工业领域常见的专有数据集。因商业限制或未发表状态,部分相关资源可能仍无法获取。这凸显了推动医疗AI多学科协作的重要性:医学主导必须持续引领AI工具的开发、评估与落地,但工程学专业力量与产业资源的深度参与同样不可或缺,方能充分释放AI在围术期照护中的潜力。同等重要的是,应采纳AI专用报告框架,如DECIDE-AI指南,用于早期临床阶段AI辅助决策系统的评估。未来心电图-AI研究应遵循此类AI专用规范,以提升研究的透明度、可重复性与可信度。
结论
综述揭示了AI算法开发在围术期应用转化方面存在显著空白,具体表现为:(1)缺乏专门用于开发与测试围术期及远程居家监测AI算法的围术期心电图数据库;(2)缺乏在更贴近现实的高噪声心电采集环境中进行的临床验证;(3)缺乏将AI算法开发并集成至适用于远程居家监测场景的可穿戴设备中。我们相信,通过填补上述知识空白,有望为外科患者构建更可靠、更实用的围术期与远程心肌梗死监测策略,支持患者安全、早期出院。
Kim A, Chatterjee M, Iansavitchene A, Komeili M, Chan ADC, Yang H, Chui J. Artificial intelligence for electrocardiographic diagnosis of perioperative myocardial ischaemia: a scoping review. Br J Anaesth. 2025 Sep;135(3):561-570.