發(fā)布時間: 2025-05-08 14:29:42
2025年4月26日,Yue Zhang等人在《eBioMedicine》雜志上發(fā)表了一篇題為《Prediction of acute and chronic kidney diseases during the post-covid-19 pandemic with machine learning models: utilizing national electronic health records in the US》的文章。本研究旨在旨在利用大型電子健康記錄(EHR)和機器學習(ML)算法預(yù)測疫情后急性腎損傷(AKI)和慢性腎臟疾病(CKD)的發(fā)病率,評估將COVID-19感染史作為預(yù)測指標的必要性,并開發(fā)一個可供臨床使用的實用網(wǎng)頁應(yīng)用程序。
■
研究背景
■
CKD和AKI是美國成人中的常見疾病,但早期診斷困難,且COVID-19感染已被證實與腎臟并發(fā)癥風險增加相關(guān)?,F(xiàn)有機器學習模型多基于小規(guī)模臨床數(shù)據(jù)或未包含COVID-19相關(guān)變量,且缺乏針對后疫情時代普通人群的大規(guī)模研究。因此,本研究通過整合COVID-19感染次數(shù)、住院史、實驗室指標(如估計腎小球濾過率(eGFR)、血尿素氮(BUN))等69個基線變量,填補了這一空白,并強調(diào)臨床實用性。
■
數(shù)據(jù)來源
■
研究數(shù)據(jù)來自美國TriNetX研究網(wǎng)絡(luò)的電子健康記錄,覆蓋2020年1月至2024年3月期間約250家醫(yī)療機構(gòu)的患者。初始樣本包括1,312,610名18歲以上患者,經(jīng)排除缺失人口統(tǒng)計學信息、無2022年7月后就診記錄、已有腎臟疾病史或肌酐值缺失后,最終納入104,565名患者。
■
研究方法
■
研究采用機器學習模型進行預(yù)后分析,包括數(shù)據(jù)預(yù)處理、缺失值填補、類別平衡處理及模型訓練。缺失值通過XGBoost算法填補,類別不平衡問題通過SMOTE過采樣和隨機降采樣解決。使用8種機器學習算法(XGBoost、隨機森林、神經(jīng)網(wǎng)絡(luò)、支持向量機等)訓練模型,并通過10折交叉驗證和網(wǎng)格搜索優(yōu)化參數(shù)。特征選擇結(jié)合模型驅(qū)動(變量重要性評分)、數(shù)據(jù)驅(qū)動(Spearman相關(guān)性降維)和臨床驅(qū)動(專家意見)方法,最終選定9個關(guān)鍵變量(年齡、性別、BMI、收縮壓/舒張壓、eGFR、BUN、住院次數(shù)、COVID-19感染次數(shù))。模型性能通過AUROC、敏感性、特異性、準確率、F1分數(shù)等指標評估,并通過Delong檢驗比較不同模型的AUROC差異。
■
結(jié)果
■
- 研究人群的基線特征 -
經(jīng)排除標準后,共納入104,565例患者。其中,101,870例(年齡(平均值,[SD]),52.6 [17.8];女性(%),57.4%)患者在隨訪期間未發(fā)生腎臟結(jié)局,366例(年齡,64.1 [15.2];女性,43.7%)患者在1個月內(nèi)發(fā)生AKI,332例(年齡,69.6 [12.7];女性,46.7%)患者在1個月內(nèi)發(fā)生CKD,1,475例(年齡,64.6 [15.3];女性,46.2%)患者在1年內(nèi)發(fā)生AKI,1,642例(年齡,69.1 [13.0];女性,53.8%)患者在1年內(nèi)發(fā)生CKD。與AKI患者1個月預(yù)測窗口(65.0 [25.5])、1年預(yù)測窗口(72.2 [23.8])和非病例組(91.9 [20.9])相比,CKD患者1個月預(yù)測窗口(mL/min/1.73 m2,平均值[SD],51.8 [20.1])和1年預(yù)測窗口(58.6 [20.3])內(nèi)的eGFR最低。一共從EHR中提取了69個變量。
-預(yù)測因子的變量重要性-
將8種機器學習算法應(yīng)用于訓練數(shù)據(jù)集,使用所有69個變量進行完整模型訓練,分別針對1個月和1年的預(yù)測窗口內(nèi)的AKI和CKD,共計得到32個模型。使用縮放變量重要性(VI)評分進行評估,在1個月和1年的預(yù)測窗口中,預(yù)測AKI的最重要變量是前一年的住院就診次數(shù)(1個月窗口的VI為100;1年窗口的VI為100),其次是eGFR(29.0;52.8)和BUN(15.6;33.8)。在1個月和1年的預(yù)測窗口中,CKD的前三個變量分別是eGFR(100;100)、肌酐清除率(CrCL)(59.8;35.4)和住院次數(shù)(45.0;40.4)。在按變量分類的評估亞組中,除了實驗室檢查結(jié)果和住院相關(guān)變量外,以下因素在其各自的類別中也顯示出重要性:BMI、收縮壓、舒張壓、高血壓、年齡、性別和前一年COVID-19感染人數(shù)。
- 模型開發(fā) -
基于模型驅(qū)動、數(shù)據(jù)驅(qū)動和臨床驅(qū)動方法,作者將變量(特征)的數(shù)量從69個減少到3個(分別為69、31、15、12、9和3),并分別評估每組ML性能。前4個ML模型的特征和性能列表如圖4所示。具體而言,在9個特征時,XGBoost模型在預(yù)測1年內(nèi)AKI、1個月內(nèi)AKI和1年內(nèi)CKD方面表現(xiàn)出最佳性能。隨機森林模型在9個特征下預(yù)測1個月內(nèi)CKD的效果也最好。然后選擇在9個特征處具有最佳AUROC的模型來評估準確性、F1分數(shù)、靈敏度和特異性。這些模型展現(xiàn)了良好的性能,在所有評估指標上均未出現(xiàn)顯著下降,甚至優(yōu)于一些包含9個以上特征的模型。因此,作者為最終模型選擇了9個特征,包括5個患者人口統(tǒng)計學信息(年齡、性別、BMI、舒張壓和收縮壓)、2個實驗室檢查結(jié)果(eGFR (mL/min/1.73 m2)和BUN (mg/dL)以及2個過去1年的病史(COVID-19感染次數(shù)和住院次數(shù))。
- 模型評估 -
總體而言,四種機器學習模型——AdaBoost、XGBoost、神經(jīng)網(wǎng)絡(luò)和隨機森林——在使用9個選定特征預(yù)測四種結(jié)果時表現(xiàn)出色。模型選擇主要以AUROC為指導。此外,還尋求在其他標準(包括準確度、F1分數(shù)、靈敏度和特異性)之間取得平衡的性能,以確定最終模型。選擇XGBoost來預(yù)測(1) 1個月窗口內(nèi)的AKI發(fā)病率,AUROC為0.803(95% CI:0.770–0.835),準確度為0.749(0.728–0.771),F(xiàn)1分數(shù)為0.848(0.829–0.867),靈敏度為0.751(0.732–0.771),特異性為0.775(0.756–0.793);(2) 1年窗口期內(nèi)AKI發(fā)生率,AUROC為0.799(0.777~0.822),準確度為0.740(0.727~0.760),F(xiàn)1得分為 0.816(0.798~0.834),敏感度為0.746(0.723~0.769),特異度為0.747(0.724~0.771);(3) 1年窗口期內(nèi)CKD發(fā)病率,AUROC為0.894(0.879~0.910),準確率為0.832(0.815~0.848),F(xiàn)1得分為0.883(0.870~0.899),敏感度為0.841(0.821~0.855),特異度為0.803(0.789~0.818)。選擇隨機森林對1個月窗口期內(nèi)CKD發(fā)病率進行預(yù)測,AUROC為0.896(0.864~0.928),準確率為0.841(0.822~0.858),F(xiàn)1得分為0.909(0.881~0.924),敏感度為0.842(0.821~0.864),特異度為0.828(0.803~0.823)。
- 網(wǎng)頁應(yīng)用程序 -
為促進其在臨床環(huán)境中的應(yīng)用,作者開發(fā)了一個名為AIBI APP的網(wǎng)頁應(yīng)用程序,該應(yīng)用程序整合了最終模型,用于預(yù)測1個月或1年內(nèi)的AKI和CKD。用戶可以通過輸入9個選定變量的相應(yīng)值來獲取預(yù)測結(jié)果(高/低風險)??赏ㄟ^以下鏈接訪問該應(yīng)用程序:https://zackzhang1993.shinyapps.io/aibi_app/。
■
結(jié)論
■
研究證實,基于大規(guī)模國家EHR數(shù)據(jù)和機器學習模型(XGBoost、隨機森林)可高效預(yù)測疫情后的AKI和CKD風險,其中COVID-19感染史是關(guān)鍵預(yù)測因子。最終模型在簡化變量后仍保持高判別性能(AUROC>0.8),且通過網(wǎng)頁應(yīng)用實現(xiàn)了臨床轉(zhuǎn)化。
- END -
上一篇:透析患者心臟瓣膜鈣化早期篩查機器學習模型的開發(fā)和外部驗證:一項多中心研究
下一篇:05.05-05.11 臨床預(yù)測模型研究頂刊快報