【期刊导读】首个预测家族聚集性HBV感染者肝癌发生风险的机器学习模型
时间:2025-09-18 12:11:41 热度:37.1℃ 作者:网络
编者按
目前,全球HBV相关肝癌负担仍较为严重,特别是在中国。由HBV感染家族内传播导致的早期慢性感染可能与家族聚集性肝癌有关,因此,精准识别其中的肝癌高危人群是实现早期干预、改善预后的关键措施。
近期,兰州大学第一医院严俊教授团队在Cancer Reports上发表相关研究,利用血常规和生化指标,结合多种机器学习算法,构建了一个针对家族聚集性HBV感染者的肝癌风险预测模型,为优化肝癌监测策略提供了重要的循证依据。
研究方法
本研究纳入2010年1月至2019年12月期间在兰州大学第一医院就诊的1285例家族聚集性HBV感染者(家族中至少有2名血清HBsAg阳性的亲属)。将患者按7 : 3的比例随机分为训练集和测试集。训练集(n = 899)用于模型构建,测试集(n = 386)用于模型验证。
研究结果
01 患者基线特征及肝癌相关危险因素
患者平均年龄52岁,其中女性378例,男性907例。
患者基线特征
02 血清生物学标志物cut-off值的确定
通过计算ROC曲线评估各指标的预测能力,并确定每个指标的最佳cut-off值:
-
血红蛋白(Hb)≥ 136.5 g/L(95% CI:0.5359 - 0.6272)
-
中性粒细胞百分比(NP%)≥ 69.85%(95% CI:0.5776 - 0.6655)
-
总蛋白(TP)≥ 72.67 g/L(95% CI:0.5015 - 0.5955)
-
γ-谷氨酰转移酶(GGT)≥ 68.55 U/L(95% CI:0.6478 - 0.7354)
-
α-L-岩藻糖苷酶(AFU)≥ 20.405 U/L(95% CI:0.5858 - 0.6743)
-
AST/ALT比值(AAR)≥ 1.325(95% CI:0.5747 - 0.6671)
-
甲胎蛋白(AFP)≥ 380.265 ng/mL(95% CI:0.6482 - 0.7366)
各指标的ROC曲线
03 单因素和多因素Logistic分析
单因素分析结果显示,有39个指标与肝癌相关。结合临床专业知识和文献资料,最终筛选出7个重要的预测指标,包括Hb、NP、TP、GGT、AFU、AAR和AFP。
训练集和测试集的基线特征
单因素及多因素分析结果显示,Hb、NP、TP、GGT、AFU、AAR和AFP均为HBV相关肝癌发生的独立危险因素。
训练组的单因素和多因素Logistic回归分析结果
04 肝癌预测模型的构建与评估
随机选取总人群的70%作为构建模型的训练集,30%作为验证模型的测试集。训练集和测试集的结果显示出良好的一致性。
基于上述筛选出的7个指标,采用多元逻辑回归(LR)、分类决策树(CART)、朴素贝叶斯(NB)、贝叶斯判别法(BT)、自适应增强(AdaBoost)和随机森林(RF)等方法,在训练集中构建家族聚集性HBV相关肝癌的预测模型,并在测试集中验证。
以多元逻辑回归模型作为基准(AUC = 0.737),对比了其余5个模型的AUC变化情况,与基准相比,朴素贝叶斯模型的表现显著提升(AUC值变化+ 1.2%),且优于其他模型。
6个预测模型的AUC
不同预测模型的ROC曲线
6个预测模型的重要评估参数
根据测试集中上述模型的AUC对比结果,最终选定预测效能最佳且具有显著区分度的朴素贝叶斯模型(AUC = 0.749)作为风险预测模型。
肝霖君有话说
我国60%肝癌患者确诊时已为晚期,肝癌早诊率仍较低,因此,对慢乙肝患者进行肝癌风险预测具有重要意义。目前国内外学者已开发了多种用于评估慢乙肝患者肝癌发生风险的预测模型。
家族聚集性HBV感染者是肝癌发生的重点人群。这部分患者在积极接受抗病毒治疗、追求临床治愈的同时,更应进行动态风险评估和分层管理,以提高肝癌筛查的成本效益比。本研究基于常规血清学标志物,构建了针对这一特定人群的肝癌预测模型,为精准识别肝癌高危个体提供了实用工具,有助于优化肝癌监测策略,提高肝癌早筛率。但本研究纳入的人群主要来自中国西北地区,且抗病毒治疗等相关因素未被充分纳入考量,可能限制模型的普适性,未来仍需开展多中心、大样本的研究进行外部验证。
参考文献:
Zhong L, Nie G, Wu Q, et al. Prediction Model for Familial Aggregated HBV-Associated Hepatocellular Carcinoma Based on Serum Biomarkers[J]. Cancer Rep (Hoboken), 2025, 8(6): e70253.