电子鼻联合机器学习对肺结节良恶性及中医证素呼气图谱辨识的单中心观察性研究

时间:2025-09-17 12:14:17   热度:37.1℃   作者:网络

 摘  要 

目的 探究电子鼻联合机器学习对肺结节良恶性及中医证素呼气图谱的辨识效能。方法 研究设计为单中心观察性研究。收集2023年4月—2024年3月期间就诊于成都中医药大学附属医院心胸外科住院部108例肺结节患者的一般资料及四诊信息,通过证素辨证的方法分析患者中医病位、病性分布特点,运用Cyranose 320电子鼻采集口腔呼气的气味图谱,基于随机森林(random forest,RF)、K最近邻(K-nearest neighbor,KNN)、逻辑回归(logistic regression,LR)、支持向量机(support vector machine,SVM)、极端梯度提升(eXtreme gradient boosting,XGBoost)5种机器学习算法辨识肺结节良恶性及不同中医证素的呼气图谱。结果 (1)肺结节常见病位证素从高到低依次是肝、肺、肾;常见病性证素从高到低依次是阴虚、痰、湿、气滞、血虚。(2)电子鼻联合RF算法对肺结节良恶性呼气图谱辨识效能最佳,受试者工作特征曲线下面积(AUC)为0.91,准确度为86.36%,特异度为75.00%,灵敏度为92.85%。(3)电子鼻联合RF、LR或XGBoost算法能较好辨识肺结节不同病位、病性证素,其分类准确度、特异度及灵敏度普遍≥80.00%。结论  电子鼻联合机器学习不仅具备鉴别肺结节良恶性的潜力,亦可为肺结节中医客观化病证诊断提供新技术与新方法。

正  文

随着低剂量螺旋CT(low-dose computed tomography,LDCT)的广泛应用,我国健康人群中肺结节检出率高达80%,并呈逐年上升趋势[1-2]。作为早期肺癌和肺癌前病变的主要表现形式,肺结节存在6%~82%的恶变概率[3],结节良恶性早期判别、适时精准干预是降低肺癌发病率与死亡率的重要手段。现行肺结节诊疗策略以随访-监测为主,但存在潜在的辐射风险,且反复筛查可能会持续加重患者身心、经济负担。因此,从无创层面拓展肺结节新的诊疗手段是目前该领域持续探索的前沿与热点。

近年来,研究[3-8]表明,中医学整体观、辨证论治、治未病等理论指导下的诊疗方法,在缩小肺部结节体积、防止结节恶变等方面具有一定优势[4-6],并获得相关指南/共识推荐[3,7-8]。其中,辨证论治是确保中医诊治肺结节疗效的前提与关键,但早期肺结节起病隐匿,传统辨证停留在宏观表征,时常面临无症可辨的尴尬局面。微观辨证的提出,打破了传统四诊技术以症状为唯一辨证重点的困境,其通过现代科学技术阐释人体内在物质基础改变,不仅更加客观真实地阐释了肺结节发病本质,且推动了肺结节中医诊疗从经验向证据的重要转变[9]。

呼气分析因无创、便捷、经济高效等优势成为肺肿瘤诊断领域的前沿及热点,《早期肺癌诊断中国专家共识(2023 年版)》[10]明确将其推荐为肺癌早筛无创检查方式之一。与其他呼气检测技术相比,电子鼻选择性高、反应快速、精密度好,在肺癌早期诊断能力上具有出色的稳定性和特异性[11-12]。更重要的是,电子鼻利用特异性气味传感器阵列模拟生物嗅觉系统,通过呈现可视化的特征性曲线和降维数据来反映疾病的整体气味信息,与中医整体观认知相符,被视为嗅诊的现代化技术延伸与实体呈现[13]。诸多研究[14-16]已证实电子鼻可通过关联疾病常见证素与口腔呼气信号,为临床病证诊断提供微观指标参考。然而,课题组前期研究[17]发现,电子鼻虽是目前肺癌无创诊疗方式的有力补充,但仅有一项临床研究[18]利用该技术进行肺部结节良恶性鉴别。此外,聚焦肺结节,尚无研究发现其特异性呼气信号与中医证素间潜在关联。

综上,本研究基于电子鼻无创检测技术,联合随机森林(random forest,RF)、K最近邻(K-nearest neighbor,KNN)、逻辑回归(logistic regression,LR)、支持向量机(support vector machine,SVM)、极端梯度提升(eXtreme gradient boosting,XGBoost)5种机器学习算法开展肺结节良恶性及常见中医证素的呼气图谱辨识研究,以期明确电子鼻在良恶性肺结节早期鉴别诊断中的能力,亦为肺结节中医证素诊断提供客观、数智化证据。

资料与方法

1.1   研究对象

选取2023年4月—2024年3月就诊于成都中医药大学附属医院心胸外科住院部的108例肺结节患者作为研究对象。

1.2   诊断标准

1.2.1   肺结节诊断标准

参照《肺结节诊治中国专家共识(2018 年版)》内容[19],肺结节是影像学表现为直径≤3 cm的局灶性、类圆形、密度增高的实性或亚实性肺部阴影;可为孤立性或多发性;不伴有肺不张、肺门淋巴结肿大和胸腔积液。肺结节良恶性诊断主要参考2021年世界卫生组织(World Health Organization,WHO)《胸部肿瘤分类》中肺肿瘤分类标准[20]。

1.2.2   中医证素诊断标准

基于朱文锋《证素辨证学》[21],根据收集到的四诊信息在诊断中的权重,采用加权阈值法确定证素。以70作为通用阈值,各症状对各证素的贡献度之和≥70时,即可诊断相应证素。

1.3   病例筛选标准

纳入标准:① 符合肺结节诊断标准;② 年龄≥18 岁,性别不限;③ 自愿接受病史及症状调查,并签署知情同意书。排除标准:① 既往罹患恶性肿瘤疾病者;② 合并呼吸道感染性疾病、口腔疾病者;③ 合并心、肝、脑、肾和造血系统等严重疾病者;④ 依从性差或有精神疾病,无法完成配合者;⑤ 妊娠及哺乳期患者。

1.4   临床信息收集与整理

安排至少3名经正规培训后的中医专业人员进行临床信息采集。采集内容包括:① 一般信息:姓名、性别、年龄、身高、体重、既往史、吸烟史、家族肿瘤史等;② 结节信息:记录患者胸部CT报告,并追踪术后病理报告;③ 中医证候采集:采用统一的中医证素采集表收集患者四诊信息。

采用双人双机方法录入信息,包括根据中医证素诊断标准计算证候积分,提取出相应病位、病性证素,最后由第三人进行一致性校验及完成错误数据修正。

1.5   呼气图谱的采集

1.5.1   呼气样本的采集

要求受试者采样前至少禁食8 h,禁烟2 h,避免剧烈运动及使用带有浓烈气味的个人卫生用品。采气时间为早上6:30~8:00,受试者用100 mL清水漱口后安静状态休息至少15 min,然后嘱其端坐在椅子上,鼻子佩戴鼻夹,3次深呼吸后,缓慢吹气至连有过滤器的特氟龙采气袋(1 L)。样品于室温下保存,用黑色塑料袋遮光处理,为避免采样袋本底干扰,采样结束后的3 h内完成对呼出气体样本的检测。

1.5.2   呼气图谱的采集

实验设备使用Cyranose 320电子鼻(美国 Sensigent 公司),主要由32个纳米复合材料导电聚合物传感器组成。当聚合物涂层暴露在挥发性有机化合物中时发生膨胀,通过增加导电颗粒间距离致电阻改变,进而形成被测试气味特定的气味打印图谱[22]。

呼气样本分析周期包括3个阶段:首先采样泵以120 mL/min速度泵入环境空气,时间为10 s,使传感器响应稳定在基线水平;其次样本气体以相同速度进入气室,分析时间为30 s;最后采样泵速增加到180 mL/min,再次泵入环境空气样品管路吹扫及进气口清洁,使传感器恢复基线水平。每个样本连续分析两次,后台导出电阻数据转存至Excel表备用。

1.6   数据预处理

本研究选择分数比例法进行基线处理以避免传感器漂移影响最终测量结果,具体公式为:ΔR/R0 =(Rmax-R0)/R0,其中Rmax是每个传感器的最大电阻响应,R0为每个传感器的参考电阻(环境空气)。此外,选择小波变化用于传感器响应曲线滤波处理,采用Z-score标准化方法消除数据单位限制或大小范围。

1.7   机器学习

综合国内外电子鼻结合机器学习辨识疾病研究现状[23-27],选择RF、KNN、LR、SVM和XGBoost 5种常用经典算法对肺结节呼气图谱预处理数据进行模式识别,通过分类模型构建及性能评价,确定不同应用场景下最优模型配置,提高结局预测的准确性及可靠性。

2023年4月—2024年3月所有患者的数据用于模型研究,按照7∶3随机拆分为训练集和测试集用于内部验证,采用k折交叉验证进行模型调优,防止数据过拟合。使用准确度、特异度、灵敏度及受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)评估不同模型的辨识性能。

1.8   统计学分析

使用SPSS 26.0软件进行统计分析。正态分布的计量资料以均数±标准差(x±s)描述,采用独立样本t检验进行组间比较。不符合正态分布的计量资料采用中位数(四分位数间距)描述,组间比较则采用秩和检验。计数资料用频数(百分比)进行描述,采用χ2检验或Fisher确切概率法进行组间比较。应用R 4.2.0软件的“caret”、“random forest”和“xgboost”包进行模型构建及验证,“pROC”包绘制相应ROC曲线。双侧P≤0.05表示差异有统计学意义。

1.9   伦理审查与注册

本研究已获得成都中医药大学附属医院伦理委员会审批(伦理编号:2022KL-051),并完成注册(临床试验注册号:ChiCTR2200062140)。

结果

2.1   肺结节基线资料

本研究共纳入肺结节患者108例,其中男47例、女61例,平均年龄(55.61±11.70)岁。经随访后明确病理诊断的肺结节患者80例,其中良性结节30例,恶性结节50例,两组在性别、年龄、身高、体重、体重指数(BMI)、吸烟史、高血压病史、糖尿病病史、家族肿瘤史方面差异均无统计学意义(P>0.05);见表1。

图片

2.2   肺结节患者的证素分布情况

2.2.1   病位证素分布情况

对108例肺结节患者的病位证素进行频数统计,以分布比例≥30%为界,从高到低依次是肝、肺、肾;见表2。

图片

2.2.2   病性证素分布情况

对108例肺结节患者的病性证素进行频数统计,以分布比例≥30%为界,从高到低依次是阴虚、痰、湿、气滞、血虚;见表3。

图片

2.3   良恶性肺结节的呼气图谱辨识

在对良恶性肺结节的呼气图谱辨识分析中,最佳分类模型是RF,AUC为0.91,准确度为86.36%,特异度为75.00%,灵敏度为92.85%。其次是XGBoost模型,AUC为0.88,准确度为86.36%,特异度为100.00%,灵敏度为78.57%。KNN、LR、SVM模型AUC均不足0.80;见表4、附件图1。

图片

2.4   肺结节常见证素的呼气图谱辨识

2.4.1   肺结节常见病位证素的呼气图谱辨识

在对证素肝的识别中,RF模型的辨识性能最佳,AUC为0.84,准确度为82.14%,特异度为75.00%,灵敏度为91.67%,其次是LR模型,AUC为0.83,准确度为85.71%,KNN、SVM、XGBoost模型的AUC均不足0.80。在对证素肺的识别中,RF模型的辨识性能最佳,AUC为0.86,准确度为85.71%,特异度为73.33%,灵敏度为100.00%,其次是XGBoost和SVM模型,AUC分别为0.84、0.82,准确度分别为85.71%、82.14%。在对证素肾的识别中,RF和XGBoost模型辨识性能最佳,AUC、准确度、特异度与灵敏度均一致,分别为0.89、96.43%、100.00%、88.89%。其次,辨识性能从高到低依次为SVM、LR、KNN模型;见图1、附件图2。

图片

图1 肺结节常见病位证素的ROC曲线图

a:证素肝的ROC曲线图;b:证素肺的ROC曲线图;c:证素肾的ROC曲线图;ROC:受式者工作特征;KNN:K最近邻;SVM:支持向量机;XGBoost:极端梯度提升;AUC:曲线下面积

2.4.2   肺结节常见病性证素的呼气图谱辨识

在对证素阴虚的识别中,LR模型的辨识性能最佳,AUC为0.96,准确度为96.43%,特异度为100.00%,灵敏度为94.74%;在对证素痰的识别中,RF模型的辨识性能最佳,AUC为0.90,准确度为92.59%,特异度为92.31%,灵敏度为92.86%;在对证素湿的识别中,LR模型的辨识性能最佳,AUC为0.95,准确度为96.43%,特异度为100.00%,灵敏度为93.33%;在对证素气滞的识别中,XGBoost模型的辨识性能最佳,AUC为0.89,准确度为89.29%,特异度为100.00%,灵敏度为76.92%;在对证素血虚的识别中,RF模型的辨识性能最佳,AUC为0.98,准确度为92.86%,特异度为88.89%,灵敏度为100.00%;见图2、附件图3。

图片

图2 肺结节常见病性证素的ROC曲线图

a:证素阴虚;b:证素痰;c:证素湿;d:证素气滞;e:证素血虚;ROC:受式者工作特征;KNN:K最近邻;SVM:支持向量机;XGBoost:极端梯度提升;AUC:曲线下面积

3 讨论

3.1   肺结节宏观与微观辨证结合的必要性

“肺结节”一词中医典籍中并无记载,根据其临床及影像学特征溯源典籍,可归属于“肺积”、“息贲”、“窠囊”等范畴[28]。本研究证素分布统计发现,肺结节病位证素中肝、肺占比最高,其次是肾;病性证素中占比从高到低依次是阴虚、痰、湿、气滞、血虚。上述病位证素规律同既往研究[29-30]结果不尽相似,肺结节发病部位首要在肝,其次在肺。情绪不良是肺结节发病的重要因素,也是患者最突出的临床表现。据统计,60%以上肺结节患者处于抑郁、焦虑状态[31],患者临床出现呼吸道症状与结节大小、数量无关,而与焦虑、抑郁程度正相关[32]。基础研究[33]表明,情志障碍会直接导致肺结节免疫失调,引发异常炎症反应,促使结节生长甚至恶变。中医认为,肝为人体气之中轴核心,主司疏泄,总调全身气机。肝气郁滞或疏泄太过均会影响肺宣发肃降,致有形实邪胶结郁于肺络,为肺结节发病提供条件。本研究常见病性证素分布规律与疾病固有认知相吻合,即肺结节的病机本质为本虚标实、虚实夹杂[34-35]。素体外感六淫邪毒或受七情内伤、先天禀赋不足等影响,致正气亏虚、气血津液运行无力、痰湿血瘀等病理产物蕴积于肺,久之肺叶结构改变形成结节。

不同于传统辨证手段,证素辨证通过对证候客观辨识及统计学分析确定病位病性,赋予了中医辨证科学性及可解释性[36]。但近90%肺结节患者随访期症状及体征并不明显,在“无症可辨”的情况下,证素诊断时常无效。本研究引入微观辨证理念,即利用现代先进医学技术从影像、理化检验等微观视角认识中医“证”的内在机制与物质基础,不仅一定程度上弥补了宏观辨证对肺结节诊断滞后的不足,打破当前“无证可辨”局面,实现肺结节先时监测、隐病防变,且通过宏微观指标结合可辅助临床提高肺结节中医辨证精准度,加强中医诊断与病情轻重、进程间关联。

3.2   电子鼻具备鉴别肺结节良恶性的潜力

呼出气中挥发性有机化合物(volatile organic compounds,VOCs)能表征疾病诱发的一系列内源性生物化学过程,对提示机体异常代谢状态可靠性较高[37-38]。尤其对于以肺癌为代表的呼吸系统疾病,呼气中VOCs来自于呼吸道本身或经外周循环入肺,具备反应肺内氧化应激、炎症等特性,常作为生物标志物辅助疾病实时监测及精准诊治[39]。1985年Gordon等[40]首次证实呼出气VOCs在肺癌早期诊断中可行性,在此基础上,Phillips等[41]后续发现基于22种VOCs组合能显著区分肺癌与非肺癌患者。随着检测仪器及分析方法的不断改进,呼出气VOCs在肺癌早期筛查、病程诊断及预后管理方面的潜在价值现逐渐得到证实[11-12,42-44],《早期肺癌诊断中国专家共识(2023 年版)》[10]明确将呼气检测列为无创检查之一。

电子鼻是一种新型仿生嗅觉设备,其原理是借助特异性传感器阵列完成混合气体的整体响应,形成个体独特的呼气指纹图谱,经特定模式识别后实现机体病理生理和代谢重塑情况判断[45-46]。相较于其他VOCs检测手段,该技术无创、安全、易于操作,具备较快的检测速度和实时分析性能,更符合临床应用推广的现实需求。目前大量研究[25, 47]发现电子鼻技术在肺癌检测中有着良好的灵敏度和特异度。Chen等[26]利用自主研发电子鼻有效辨识出肺癌及健康人,其准确度、灵敏度及特异度分别可高达93.59%、95.60%及91.09%,同时该设备创新性区分Ⅱ期与Ⅳ期肺癌,辨识准确度超过80%。de Vries等[47]借助电子鼻技术实现慢性阻塞性肺病患者早期肺癌的前瞻性检测,准确率为87%,AUC为0.90[95%CI(0.84,0.95) ]。但肺结节作为肺癌早期主要表现之一,前期文献挖掘发现,仅一项国外研究[18]明确使用电子鼻系统进行肺部结节良恶性鉴别,其中准确度和特异度分别达到87%和93%,灵敏性相对较低,仅有75%。本研究利用商用Cyranose 320电子鼻进行良恶性肺结节间呼气图谱辨识,与上述研究结果一致,电子鼻能较好辨识出恶性肺结节,准确度、特异度和灵敏度分别为86.36%、75.00%和92.85%,AUC可达0.91。由此可见,电子鼻在肺结节良恶性鉴别诊断方面确实具备良好的应用推广前景。

3.3   电子鼻对肺结节中医证素的微观辨识作用

“嗅诊”是中医四诊的一个重要分支,其主要通过嗅病体本身、排出物散发异味及病室气味,了解脏腑生理病理变化进而辅助临床诊治。中医认为,疾病状态下,由于邪气侵袭,脏腑功能失调致气血运行失常,秽浊排除不利,会形成腐臭浊气随特定形体官窍散发而出,例如肺热者痰黄粘稠味腥,胃热者呕吐物酸腐味臭,伤食者大便臭如败卵,消渴者尿甜伴烂苹果气味等[13,48],故基于“嗅诊”辨识气味可辅助判断脏腑生理病理改变,为诊病、辨证提供依据。但人的嗅觉主观影响较大,无法提供精确结果;而化学检验耗时长,难以实时监测。电子鼻结合先进的智能信息处理技术,建立呼气图谱与肺结节病证之间的数学模型和模式识别体系,一定程度上克服了人体感官的嗅觉疲劳及主观性缺陷。不仅如此,电子鼻技术借助气味传感器实现人体呼气混合物整体响应,与中医整体观认知高度契合,故也被认为是中医“嗅诊”的可视化技术延伸。

近年来,国内基于电子鼻嗅诊客观化开展了大量临床研究。尤其林雪娟教授团队基于自主研发的中医电子鼻,完成对社区获得性肺炎、2型糖尿病、慢性胃炎等多种疾病证候相关的呼气图谱辨识[14-16,49-50],例如,电子鼻可以区分热证不同病位的呼气气味图谱特征;电子鼻采用KNN方法对社区获得性肺炎常见病性证素外风的判别度可达93.53%;电子鼻结合特定模式识别方法能对糖尿病前期与糖尿病期常见病位证素作初步辨识,最高平均分类准确率分别达76.00%与80.76%。不仅证实了电子鼻作为中医“嗅诊”现代化新手段,且为中医辨证施治提供客观依据。本研究基于上述研究基础,首次利用电子鼻对肺结节常见中医证素进行辨识,结果提示Cyranose 320电子鼻结合适宜模式识别方法能实现对肺结节单一病位、病性证素的准确辨识,辨识准确度基本达80.00%以上,且具备较高的特异度及灵敏度。这一方面证实了气味图谱在肺结节不同病位、病性证素间确有差异,为中医嗅诊提供了客观化、可视化证据;另一方面,电子鼻技术赋予中医证素可量化指标,为肺结节中医病证诊断提供了新技术和新方法。

本研究局限性及研究展望总结如下:(1)本研究为单中心研究,研究周期短,且研究样本量有限,仅纳入108例肺结节患者。研究团队后续将开展多中心、大样本研究,一方面增加外部验证评估现有模型在不同环境下的泛化能力及推广价值,另一方面通过追踪随访,深入不同大小、密度及病理类型肺结节的呼气辨识,以及关联不同阶段肺结节中医证候与气味传感器响应曲线的特征。(2)Cyranose 320电子鼻具有较好的临床推广潜力,但只能做呼出气VOCs定性分析,不能像传统基于色谱的检测手段对各气体样本成分进行分离及鉴定,故后续研究将在电子鼻基础上联合色谱、质谱仪等技术,通过筛选特异性呼气标志物,为中医辨证提供更加精确的微观证据。

肺结节良恶性之间、不同中医证素之间呼出气存在差异,经电子鼻联合以RF为代表的适宜分类算法能实现有效辨识,提示嗅诊及呼气图谱变化或可成为未来恶性肺结节早诊、早筛重要手段,减少临床低剂量螺旋CT的过度使用;此外,电子鼻可作为嗅诊的客观化技术延伸,一定程度上弥补现有宏观辨证的主观局限,辅助中医临床对无症状肺结节更加精准的辨证施治。

利益冲突:无。

作者贡献:谭施言和曾琼负责数据采集、分析,论文设计和初稿撰写及修改;向红霞负责数据采集及录入;王倩、马琼负责论文设计和审阅;付西、何佳玮、由丽婷负责数据整理和分析;任益锋和由凤鸣负责研究方案制定及指导,文章的知识性内容审阅与修改,对编辑部的意见进行核修。

本文中附件图1、附件图2与附件图3见本刊电子版(https://www.tcsurg.org/article/10.7507/1007-4848.202407045)。

上一篇: 临床实践指南:成人鼻窦炎更新(2025)

下一篇: 广州医科大学周蕾/张清顺/王簕团队ACS...


 本站广告