人工智能辅助肺癌数据库构建
时间:2025-09-16 12:25:55 热度:37.1℃ 作者:网络
摘 要
目的 采用人工智能技术对临床数据进行结构化和标准化,构建基于人工智能的肺癌数据库,支持肺癌诊治中的大数据深度挖掘,为多样化的真实世界研究提供高质量的数据支持。方法 依托北京协和医院胸外科丰富的临床数据资源,本研究利用机器学习技术,特别是自然语言处理技术,对电子病历、检查报告、病理报告等非结构化数据进行自动化处理,转化为结构化信息。同时,采用数据治理和自动化清洗技术,确保数据的完整性和一致性。结果 截至2024年9月,数据库共收录了18 811例患者的数据,涵盖住院和门诊病历、检验检查报告、病理报告、医嘱信息以及随访信息,形成了结构完整、变量丰富的多维数据系统。数据库的实时查询和多层次筛选功能使研究人员能够快速获取符合特定条件的研究数据,大幅提升了数据处理效率和研究进程。在非小细胞肺癌预后探究的真实世界应用举例中,通过数据库实现了对预后影响因素的快速分析。研究表明,肿瘤分期、合并症情况等因素显著影响患者生存率。这一应用实例展示了数据库临床大数据挖掘应用中的价值。结论 基于人工智能的肺癌数据库显著提升了数据管理和分析的整体效率,为临床大规模研究、回顾性分析以及疾病管理提供了坚实的数据支持。随着大语言模型和多模态方法进一步应用于临床,该数据库的精确性和分析深度将持续增强,为肺癌大数据挖掘及真实世界研究提供更强有力的支撑
正 文
肺癌是全球范围内最常见的恶性肿瘤之一,发病率和死亡率均位列各类癌症之首。根据世界卫生组织的统计,2020年全球新增肺癌病例220万,死亡人数约180万[1]。在中国,肺癌的发病率和死亡率也同样居于癌症的首位。在如此庞大的人口基数下,如何进一步优化治疗策略、提高患者预后、加强全程管理,仍然是临床和研究领域的重大挑战。
对于确诊肺癌患者的术后管理和长期预后评估,需要依赖大量的临床数据,肺癌单病种数据库的建设也应运而生。在全球范围内,多个国家和机构已经建立了专门的肺癌数据库,为研究和临床实践提供了丰富的数据资源。其中,美国国家癌症研究所开发的SEER (Surveillance,Epidemiology, and End Results)数据库是最具代表性的癌症数据库之一[2]。SEER数据库涵盖了自1973年以来的癌症患者数据,收集了关于患者人口学信息、肿瘤分期、治疗方式和预后等信息,数据来源广泛且具有高可信度,为全球肺癌的研究提供了重要依据。在中国,近年来也逐步建立了一些大型的癌症数据库。例如,国家癌症中心数据库作为国家癌症中心的重要组成部分,汇集了来自全国各地的癌症登记数据等,旨在为癌症研究、政策制定和公共卫生实践提供数据支持。其中的肺癌相关数据,也为肺癌的临床研究、治疗优化和个性化医疗提供了强有力的支持[3]。
但在实际建设过程中,传统的人工录入和数据管理方式存在较大局限性。首先,手工录入的过程中容易出现数据缺失或错误,特别是在复杂的多中心研究中,不同医院的数据标准往往不一致,数据库之间的互操作性较差,导致数据整合困难,限制了数据的共享与深度挖掘。此外,人工录入方式费时费力,无法适应现代医学数据的爆炸式增长,尤其是检查报告、病理报告等非结构化数据的处理难度更大。这些问题严重制约了临床研究的效率,也影响了临床决策的质量。
为了克服这些挑战,建立一个标准化、自动化、结构化的肺癌专病数据库至关重要。通过整合电子病历、医嘱信息、检验结果、影像资料、病理资料、基因测序资料和随访数据,数据库可以提供全方位的患者信息,不仅为临床医生提供决策支持,还为科研工作者提供高质量的数据平台,加速临床和科研工作的进展。然而,电子病历系统中数据中包含大量非结构化文本,如手术记录、病理报告、影像报告等。这些数据尽管信息丰富,但由于格式不统一,难以直接用于分析和研究。人工智能为这一问题提供了有效的解决方案,特别是自然语言处理(natural language processing,NLP)技术,是一种使计算机能够理解和处理人类自然语言的技术,已被广泛应用于各个领域[4]。在肺癌数据库建设中,NLP能够自动识别和提取病历、手术记录、病理报告中的关键临床信息,并将其转化为结构化数据[5]。人工智能技术还可在数据治理、数据分析、数据深度挖掘中发挥巨大潜力。
鉴于上述背景,本研究依托北京协和医院胸外科广大的临床数据,建立了基于人工智能的肺癌数据库。我们将系统探讨该数据库的建设过程及其在临床研究中的应用潜力。此外,本文还将讨论数据库建设中面临的挑战以及人工智能技术在数据库应用中的前景,展望未来人工智能在肺癌领域的发展方向。
1 资料与方法
1.1 数据集设计
本研究首先设计了标准化的肺癌专病库数据集,涵盖了患者从术前评估到住院到术后随访的全流程信息。根据数据集所设定的变量内容,明确每个变量的来源及其对应字段,确保数据提取来源的准确性。例如,设定患者的人口学信息来源于病案首页,手术名称、术者来源于手术记录,肿瘤性质来源于病理报告等。
1.2 数据采集与预处理
我院信息中心将HIS系统、电子病历系统、LIS系统、PACS系统、病理系统、手术麻醉系统、电生理系统、输血系统、内镜系统等全院多个数据平台的原始数据统一汇总至临床数据中心(clinical data repository,CDR)。肺癌专病库通过数据库同步技术和ETL (extract-transform-load) 等技术,从CDR中按照所设定的映射路径,抽取相关数据,并随着数据的增加,定期自动更新(图1)。
图1 数据采集过程
在数据采集完成后,首先对所有采集到的数据进行标准化处理,以确保来自不同系统的数据字段在数据库中的命名和格式一致。例如,实验室检查数据中的“白细胞计数”和“WBC”被统一为相同的字段。此外,系统通过自动化清洗算法对异常值、不合理记录或重复数据进行识别并修正。系统还执行逻辑一致性检查。如果发现问题,系统会自动标记,并在必要时进行人工复查和修正(图2)。
图 2 数据库建设流程
1.3 自然语言处理技术的应用
在本研究中NLP技术是处理非结构化临床文本数据的核心工具,旨在将病历文书、病理报告、影像报告等自由文本转化为结构化数据。整个处理过程分为几个关键步骤,以确保数据的完整性、准确性和一致性。
1.3.1 分词技术
首先,NLP系统通过分词技术对输入的文本进行初步处理。由于中文文本中存在大量未登录词,尤其是医学术语和缩写,这对电子病历分词提出了挑战。为解决这个问题,系统分为两个步骤进行分词处理。第一步,使用开放领域词典,结合最大似然原则对电子病历进行初步切分。词的出现概率通过期望最大化(expection maximization,EM)算法从大规模未标注语料中学习得出,以提高词语识别的准确性。第二步,系统利用字串的边界熵、长度等信息,通过有序聚类算法对初步切分结果进行调整,以便准确识别未登录词。在医学文本中,不同医生可能使用不同的术语来描述相同的病灶或病理特征,例如“胸膜转移”可能会在不同报告中被表述为“胸膜侵犯”或“胸膜浸润”。通过有序聚类算法,系统能够将这些不同表述归类为相同的临床概念,确保数据一致性。“浸润”和“侵犯”这样的同义表达会被系统统一映射到相同的字段,从而避免数据分析中出现不一致或重复的现象。系统根据不同场景采用了多种分词技术。最短路径分词用于通用的快速文本处理;N-最短路径分词适用于需要较高准确度的场景。为提高分词的灵活性,系统还支持自定义词典,允许根据具体的医学数据进行人为干预,确保特定领域的专业术语能够得到准确识别和处理。
在整个过程中,系统还结合了隐马尔可夫模型(HMM)和条件随机场(CRF)分词技术。这些技术通过分析上下文信息和词语的频率,能够更好地处理复杂的上下文依赖关系,特别是在处理多义词和具有模糊边界的词语时表现尤为突出。例如,在影像报告中,“病灶边界”与“病灶形态”之间存在复杂关联,CRF模型能够通过上下文分析准确分离这些信息,并标注到相应的字段中。HMM和CRF的结合使用确保了系统能够处理复杂的语言结构。HMM用于初步标注序列数据,而CRF则在处理长距离依赖时更加有效。通过结合这两种技术,系统能够在识别医学术语时兼顾语境,从而提高整体准确性。
1.3.2 实体命名和语义解析
在分词处理完成后,系统对每个分词后的短语进行实体命名和词性标注。对于“左肺结节”这样的描述,系统能够识别出“左肺”为解剖部位,“结节”为病理实体,并标注其为关键医学信息。这一步为后续的结构化数据存储和语义分析奠定了基础。在实体命名过程中,临床医师参与了规则的制定和校正,确保命名规则的准确性和实用性。这种人工校正极大地提高了系统的准确性,特别是在涉及新术语或罕见病例时,NLP系统能够通过临床医师的规则及时调整和适应。随着临床实践的发展,系统中的规则库也能根据最新的医学文献和实际使用情况进行动态更新,保证规则的时效性和科学性。
1.3.3 短语提取与语义消歧
为了处理文本中存在的复杂语义关系,特别是在否定词、反向词和条件表达的情况下,系统引入了语义分析模型。这一过程依赖于规则库中的条件和否定表达,同时系统通过深度学习模型(如BERT)进一步增强其对复杂语义的处理能力。例如,对于类似“无明确肿瘤”这样的表达,系统不仅要识别“无”作为否定词,还需通过上下文解析来确认是否存在反向表达,确保提取的信息不会出现语义上的误差。为此,系统通过规则库识别否定词和反向表达,并结合上下文进行判断。此外,条件表达在临床文本中也十分常见。例如,病历中可能存在类似“如果病灶增大,则考虑手术”的描述,这类语句中包含了条件表达。系统通过上下文分析和条件推理,能够识别出这些条件语句并避免将潜在条件误解为实际的临床决策。
1.3.4 数据量处理与系统优化
由于系统通过数据接口获取海量的电子病历数据,处理效率和性能优化至关重要。为应对大规模数据的挑战,系统采用了并行计算和分布式处理技术。系统通过多线程和缓存机制优化处理性能,确保在处理大规模文本数据时仍然保持高效的处理速度。数据的预处理、分词和实体提取均通过分布式架构实现,确保系统能够扩展以处理日益增长的数据量,避免性能瓶颈。
1.3.5 数据库架构
在数据库架构设计方面,研究采用了分布式架构以应对大规模异构数据的处理需求。MongoDB作为主要数据库,提供了文档型的灵活存储结构,支持大规模数据的并行处理和快速查询。每例患者的病历数据以json格式存储在MongoDB中,确保了数据查询的高效性和灵活性。Elasticsearch搜索引擎则支持实时数据查询,通过分布式存储和索引技术保证了系统的高可用性和扩展性。
1.3.6 数据库质量控制
在数据质量控制方面,系统建立了严格的质量控制体系。首先,系统自动对关键变量进行完整性检查,标记缺失或异常值,并通过人工或自动化方式进行补全和修正。逻辑一致性检查确保患者的诊断、治疗和随访数据在不同记录中的合理性和一致性。系统通过自动异常值监控,实时标记并修正潜在数据问题。此外,系统具备数据溯源功能,科研人员可以直接回溯到原始病历记录,验证数据的准确性。在数据存储和传输过程中,所有患者信息进行了匿名化处理,确保隐私保护,同时通过加密技术保障数据的安全。
2 结果
2.1 数据集概况
北京协和医院人工智能肺癌专病数据库的设计重点是系统化采集接受肺部手术的患者住院期间的详细临床数据,并整合术前和术后门诊信息,构建患者全程管理的数据链条。数据集设计是数据库建设的基础。数据集包括了患者的基本信息(如年龄、性别、吸烟史)、诊断信息、病史信息(如症状、吸烟史)、影像学检查(如CT、PET-CT影像特征)、常规检验检查(如血常规、肿瘤标志物)、手术操作信息(如手术路径、切除范围)、围术期情况(如术后并发症)、医嘱信息、病理结果(如肿瘤类型、分期)以及预后随访信息(如复发、转移情况)。这些数据变量的精细化设计见表1,能够支持从疾病特征分析到治疗方式效果评估和预后因素分析的多层次研究需求。
2.2 数据库概况
自2012年7月我院启用电子病历系统以来,截至2024年9月29日,数据库共纳入18 811例患者,包含19 267例住院病例和438 714例门诊病例。然而,由于早期数据存储方式的限制,2012—2015年间的患者信息存在一定程度的缺失,2016年及以后的数据最为完整。在就诊人次的年度分布上,数据显示患者数量自2015年起呈波动增长趋势,特别是在2019年和2023年达到了高峰(图3a)。
图3 数据库界面概览
图3b展示了数据库中的患者列表页面,该页面提供了所有纳入患者的基本信息,包括年龄、性别、出生日期、诊断信息、入院和出院时间、手术方式等。通过此页面,临床研究人员可以快速浏览患者的基本信息和诊疗情况,支持用户对住院患者核心信息的浏览。每条数据记录都可进一步展开,显示更详细的住院期间治疗过程、病理结果及术后随访情况,为研究人员提供了全面的患者管理和信息获取功能。
图3c展示的是数据库的变量列表页面,列出了数据库中可供查询和分析的各类变量。研究人员可以通过多层次的筛选条件对患者数据进行精细化筛选,涵盖基础信息、诊断、病史情况、影像学检查、化验结果、病理报告、手术信息等多个维度。这一功能提升了数据检索效率,为复杂数据的深度挖掘和分析奠定了基础。
2.3 临床研究的应用:非小细胞肺癌的预后及影响因素挖掘
为展示北京协和医院人工智能肺癌专病数据库在临床研究中的优势,本文以非小细胞肺癌患者的预后及其影响因素分析为研究实例,说明数据库在数据挖掘方面的应用能力(图4)。本研究实例展现了数据库的高效性和智能化流程,使得研究人员能够快速获得临床研究所需数据,显著降低了研究耗时。例如,应用数据库进行此次研究的数据筛选、分析总耗时约5 h,而传统数据录入和整理方式可能需耗时数月。
图4 应用数据库进行临床研究流程
步骤一:研究设计。数据库支持灵活的研究设计流程,研究人员可以根据研究需求,快速设定特定的分析目标和策略。在本次研究中,我们的研究目标是分析非小细胞肺癌患者的长期预后及其影响因素。通过数据库中的查询和筛选功能,研究者能够在设计阶段便捷地构建出适合特定人群和变量的分析方案。
步骤二:确定研究群体。在数据库的支持下,研究人员可以精确筛选符合研究标准的患者群体。在本次研究中,我们通过数据库的多层次筛选功能,筛选出所有病理确诊为非小细胞肺癌且具备完整随访数据的患者,确保数据的完整性。这一筛选过程仅需几分钟,大大缩短了传统方式下需要人工核查和录入数据的时间,提升了研究效率。我们筛选2016年1月1日—2023年12月31日住院及随访信息完整的患者9 383例。
步骤三:选择研究变量。数据库提供了多维度、细粒度的变量列表,研究人员可以根据需要自由选择所需的变量进行分析。本次研究选择了包括年龄、性别、肿瘤分期、肿瘤大小、合并症、手术情况等在内的多个关键变量,为深入分析预后影响因素提供了丰富的数据支持。相比传统数据收集模式,数据库支持即时选择并提取变量,不需手动整理,为研究提供了极大的便利性和灵活性。
步骤四:描述性统计分析。在研究群体和变量选定后,数据库支持自动生成描述性统计分析,快速展示研究对象的基本特征。在本研究中,生存曲线显示了不同临床分期患者的生存差异,早期分期患者的生存率显著高于晚期患者,符合临床预期。数据库的描述性统计功能不仅帮助研究者快速获得总体数据特征,还为进一步深入分析奠定了基础。
步骤五:数据挖掘和多因素分析。利用多变量分析工具,研究者能够对非小细胞肺癌患者的预后影响因素进行全面挖掘。通过Cox回归模型等分析方法,本研究得出年龄、肿瘤分期、合并症情况等对患者生存率的显著影响。例如,数据显示晚期患者的生存风险显著高于早期患者,且患有呼吸系统合并症的患者预后较差。
本研究实例充分展示了数据库在临床研究中的高效性、灵活性和数据整合优势。通过数据库的多维数据筛选、精细变量选择和自动化统计分析功能,研究人员能够在短时间内完成复杂的数据分析流程,为大数据挖掘、回顾性研究提供了重要支持。与传统的手动数据录入相比,数据库的使用显著减少了研究耗时,极大地提升了数据获取和处理效率,表明其在临床研究中的应用潜力和重要价值。
3 讨论
本研究构建的基于人工智能的肺癌数据库在数据整合、标准化、结构化和多维分析方面展现了显著优势,为肺癌的临床研究提供了强大的数据基础。通过NLP技术和机器学习模型[5- 6],数据库实现了对多源、异质性医学数据的高效处理,使得复杂的临床信息能够被结构化为可分析的数据形式,为大规模真实世界数据研究奠定了可靠的数据支撑。
首先,数据库在多源数据整合和质量控制方面表现出色。医疗数据来源复杂,包含电子病历、影像数据、病理报告等,且记录方式、术语和格式各异。通过数据治理和自动化数据清洗技术,数据库实现了多源数据的高效整合,确保了数据的完整性和一致性。
其次,数据库的建设极大提高了数据处理和分析的效率。传统的临床数据录入方式不仅费时费力,还容易产生错误。而通过NLP技术自动化处理病历、影像报告和病理报告等非结构化文本数据,数据库能够快速、准确地提取关键信息。例如,NLP能够从影像报告中提取肿瘤的大小、形状和位置等特征,并将其结构化存储。这种自动化处理极大地减少了人工录入的工作量,使得研究人员能够在短时间内完成数据筛选和分析。本次研究实例表明,应用数据库进行非小细胞肺癌预后分析仅需约5 h,而传统的手动数据录入和整理可能需要耗时数月,这显著提升了研究效率。
基于上述优点,数据库在数据挖掘和多因素分析方面表现出显著优势[7]。在本文研究实例中,应用数据库快速纳入大量患者的大量变量,通过自动化分析工具,我们能够快速识别出影响非小细胞肺癌患者生存率的主要因素,如年龄、肿瘤分期和合并症等。数据库的实时查询和筛选功能使得研究人员可以根据特定研究需求,迅速调整分析变量和研究人群,极大地增强了数据库在临床研究中的灵活性。传统临床数据分析受制于数据整理和分析周期较长,而本研究的数据库能够通过自动化数据提取和分析,迅速生成多维度的研究结果,从而更高效地挖掘数据价值。
在科室管理方面,人工智能数据库也具备一定的应用价值。数据库提供了关于手术方式、术后并发症、住院时间等核心指标的实时数据支持。管理者可以基于这些数据评估不同手术路径的效果,了解并发症发生率和住院时间等运营关键指标。这种实时、可视化的数据访问特性帮助管理者在优化手术流程、合理配置资源和提升患者护理质量方面做出科学决策,使得科室管理更加高效。
此外,人工智能数据库在多中心联合研究中的潜力也不容忽视[8]。数据库通过标准化的数据架构支持跨机构的数据共享,使不同医疗机构能够在统一框架下共享数据,从而形成更大规模的样本量,增加研究的广泛适用性。这种多中心的合作不仅提升了数据库在不同患者群体中的适用性,还为肺癌临床研究提供了多样化的病例数据支持。更大样本量和多样化的患者群体可以提高人工智能模型的泛化能力,使研究结果更具普适性,为大范围的肺癌研究提供科学依据。
尽管人工智能数据库在数据整合和临床应用中展现了显著优势,当前的技术仍存在一些挑战。首先,数据质量和准确性问题依然存在。虽然NLP和自动化清洗技术在一定程度上提高了数据标准化,但不同医生的记录方式和用词习惯仍可能导致信息提取的偏差,这种偏差在个体病例分析中可能带来影响[9]。其次,人工智能模型的“黑箱”特性限制了其临床解释性,医生难以理解深度学习模型的决策逻辑,影响其对人工智能结果的信任。因此,未来的发展方向之一是提升模型的可解释性,使医生能够清楚地理解人工智能决策依据,以便在临床中更广泛地应用。在数据隐私保护方面,跨机构数据共享的安全性问题也是一项重要挑战。尽管研究中对数据采取了严格的匿名化和加密措施,但在多中心数据共享中,数据隐私和安全问题仍需进一步优化[10]。未来可以探索隐私保护技术以确保数据不离开本地即可实现联合建模,在保障数据隐私的前提下支持多中心合作。
展望未来,随着大语言模型技术(如ChatGPT等)的发展[11],人工智能数据库的处理能力和精确度将不断提升。大规模预训练语言模型将提高NLP在复杂医学文本处理中的精确度,使数据库在识别和理解医学描述方面更为全面。结合多模态数据,如影像数据、基因组等[12-13],未来数据库将能够实现更全面的患者信息整合,为大规模真实世界研究提供更精准的数据支持。
综上所述,本研究构建的人工智能肺癌数据库在数据整合、标准化和深度挖掘方面表现出显著优势,为临床研究提供了重要的数据支持。尽管当前存在模型解释性和隐私保护等挑战,但随着AI技术的发展和多中心数据共享的推进,数据库的应用前景广阔,有望在肺癌研究和临床实践中发挥更大作用。
利益声明:无。
作者贡献:杨丽冰、郭超参与起草、 撰写、 修改论文;杨丽冰、郭超、姜会珍参与资料分析、设计及修改论文;马琏、李单青参与选题、设计和修改论文。
致谢 在本研究的完成过程中,我们得到了许多同事和专家的指导与支持,特此致以诚挚的感谢。首先,感谢北京协和医院胸外科的全体同仁,他们在数据库建设、数据采集和研究设计方面提供了宝贵的资源和技术支持,为研究的顺利开展奠定了坚实基础。感谢北京协和医院信息中心的工作人员,他们在数据库的技术实现和数据治理上给予了大量帮助,确保了数据库的完整性、一致性和可靠性,为本研究的高效进行提供了保障。特别感谢北京嘉和海森健康科技有限公司的工作人员提供的技术支持。