Scientific Data:告别抗生素滥用困境!手机拍咽喉 + AI 模型可区分细菌性咽炎,PGUPharyngitis 数据集验证可行性
时间:2025-09-29 12:11:46 热度:37.1℃ 作者:网络
咽炎作为一种常见的上呼吸道感染疾病,每年影响全球数百万人,其病因主要分为细菌性和非细菌性两大类,其中细菌性咽炎多由A组链球菌引起,而非细菌性咽炎则通常由病毒、过敏或环境因素导致。准确区分这两种类型的咽炎对于临床治疗至关重要,因为细菌性感染需要及时使用抗生素以预防并发症,而非细菌性感染则不应使用抗生素,以避免加剧全球抗生素耐药性问题。然而,现有诊断方法如快速抗原检测和咽拭子培养存在时间延迟和操作复杂性,且临床医生仅凭症状和体征进行判断时容易产生误诊,尤其是在医疗资源匮乏地区,这一问题更为突出。因此,开发一种快速、非侵入性且准确的诊断工具具有重要的临床意义和社会价值。
近年来,随着智能手机普及和深度学习技术的进步,利用手机拍摄的咽喉图像结合人工智能模型进行疾病分类成为一种新兴研究方向。然而,该领域缺乏高质量、大规模且公开可用的数据集,限制了相关算法的开发和验证。为此,本研究团队构建了名为PGUPharyngitis的公开数据集,该数据集包含742名患者的咽喉高分辨率图像,并记录了每位患者的年龄、性别、20种症状的二进制指标以及4至9名医生的独立诊断结果。数据收集于伊朗两个气候迥异的城市,一个为寒冷山区,另一个为温暖潮湿的沿海地区,时间跨度为2023年10月至2024年5月,以确保样本的多样性和代表性。所有图像均使用三星Galaxy S21 Ultra和小米Redmi 8 Pro两款智能手机拍摄,并在光照充足的室内环境下利用手机闪光灯增强咽喉区域的可见度。
在数据预处理阶段,研究团队实施了严格的质量控制流程,包括手动检查图像清晰度、旋转校正错位图像、裁剪以突出咽喉关键区域,并排除了至少三名医生认为不适合诊断的图像,最终从原始860张图像中筛选出742张高质量图像纳入数据集。诊断标签的生成基于多名医生的独立评估,每位图像平均由六名医生审阅,部分图像审阅人数可达九名,诊断结果通过多数投票机制确定,若出现显著分歧则引入额外医生进行仲裁,以确保标签的准确性和一致性。数据集的最终形式为结构化Excel文件,每行代表一名患者,列包括患者ID、年龄、性别、20种症状的存在与否以及多位医生的诊断分类。
图1 (a) 数据集中非细菌性喉咙图像示例 (b) 数据集中细菌性喉咙图像示例
为验证数据集的实用性并建立基线性能,研究团队选取了四种深度学习模型——DenseNet121、Swin Tiny、MobileNet V3 Small和ConvNeXt Small,进行细菌与非细菌咽炎的二元分类任务。所有图像在输入模型前统一调整为224×224像素,训练过程中采用3折交叉验证以降低数据划分偏差,批量大小设为20,优化器选用Adam,并应用了随机旋转、水平翻转和仿射变换等数据增强技术。模型在五个性能指标上进行了评估,包括准确率、精确率、召回率、F1分数和AUC面积。实验涵盖了整个数据集以及按采集城市和手机型号划分的子集,以探究不同条件下模型的稳健性。
实验结果显示,在不同模型和数据集子集上,分类性能存在一定差异。当使用全部数据训练时,MobileNet V3 Small在多数指标上表现最佳,准确率达到80.50% ± 12.79%,精确率为69.30% ± 21.99%,召回率为55.26% ± 1.75%,F1分数为54.26% ± 1.81%,但AUC值相对较低,为55.40% ± 7.30%。其他模型如DenseNet121在AUC指标上略优,达到64.45% ± 3.06%。在按城市划分的子集上,寒冷城市数据训练的模型整体准确率较高,DenseNet121在寒冷城市子集上准确率达84.00% ± 4.00%,而在温暖城市子集上各模型性能较为接近。按手机型号划分时,三星手机拍摄的图像上ConvNeXt Small模型准确率最高,为81.25% ± 1.43%,而小米手机图像上Swin Tiny模型表现较好,准确率为72.00% ± 2.00%。这些结果说明,模型性能受数据来源和设备类型的影响,同时也反映了当前模型在咽炎图像分类任务上仍有提升空间,尤其是在处理真实世界中图像质量不均和症状重叠的情况时。
数据集的统计分析进一步揭示了患者群体的特征和症状分布。最常见症状为咽喉痛、咳嗽和流涕,分别占患者的19.8%、14.7%和12.1%,年龄分布覆盖多个年龄段,性别比例接近均衡,男性占51.6%,女性占48.4%。细菌性与非细菌性诊断的比例也得到统计,其中非细菌性案例略多,但整体分布较为平衡。此外,症状共现热图显示了不同症状之间的关联性,为后续多模态模型开发提供了依据。值得注意的是,数据集中有182张图像在所有医生诊断中达成完全一致,这部分数据可作为模型评估的“金标准”,而其余数据则适合用于训练具有标签不确定性处理能力的模型。
图2 本研究中使用的整体数据采集和质量评估工作流程
本研究的贡献在于提供了目前该领域规模最大、标注最详尽的公开咽炎数据集,并通过基线模型验证了其应用于人工智能辅助诊断的可行性。数据集的多样性和真实性使其能够支持远程医疗和移动健康应用的发展,特别是在资源有限地区,患者可通过智能手机自行拍摄咽喉图像,由AI模型提供初步诊断建议,从而减少抗生素滥用和误诊风险。然而,数据集也存在一定局限性,例如真菌性咽炎和慢性咽炎案例较少,图像质量因拍摄条件而异,部分图像聚焦不佳,但这些特点反而增强了模型在真实场景中的适应能力。未来研究可结合症状数据与图像信息,开发多模态深度学习架构,或引入概率方法处理诊断标签的不确定性,以进一步提升分类性能。
总之,PGUPharyngitis数据集的发布为咽炎智能诊断研究提供了重要资源,推动了人工智能在耳鼻喉科和初级保健中的应用。通过促进开源数据和算法的共享,本研究有望加速精准医疗和远程健康解决方案的普及,为全球公共卫生事业贡献力量。
原始出处:
Shojaei, N., Rostami, H., Barzegar, M. et al. A publicly available pharyngitis dataset and baseline evaluations for bacterial or nonbacterial classification. Sci Data 12, 1418 (2025). https://doi.org/10.1038/s41597-025-05780-5
本文相关学术信息由梅斯医学提供,基于自主研发的人工智能学术机器人完成翻译后邀请临床医师进行再次校对。如有内容上的不准确请留言给我们。