Ein maschinelles Lernmodell zur Diagnose der akuten Lungenembolie und Vergleich mit Wells-Score, revidiertem Geneva-Score und YEARS-Algorithmus
Die akute Lungenembolie (ALE) ist eine lebensbedrohliche kardiovaskuläre Erkrankung und weltweit die dritthäufigste Ursache für kardiovaskuläre Todesfälle nach ischämischer Herzkrankheit und Schlaganfall. Trotz ihrer Schwere wird die ALE häufig übersehen oder fehldiagnostiziert, da die Symptome unspezifisch sind. Eine frühzeitige und präzise Diagnose ist für die Therapieentscheidung entscheidend, jedoch bleiben die aktuellen diagnostischen Strategien kontrovers und klinisch schwer umsetzbar. Ziel dieser Studie war die Entwicklung eines maschinellen Lernmodells (ML) zur Unterstützung der ALE-Diagnose und der Vergleich mit etablierten klinischen Risikobewertungstools wie dem Wells-Score, revidierten Geneva-Score und YEARS-Algorithmus.
Hintergrund
Die europäischen Leitlinien empfehlen klinische Wahrscheinlichkeitsbewertungen zur Steuerung der Diagnostik (z. B. CTPA). Diese Tools weisen jedoch Limitationen auf: Der Wells-Score ist beispielsweise für stationäre Patienten nicht anwendbar, und der revidierte Geneva-Score eignet sich weniger für kritisch Kranke. ML-Modelle können komplexe Muster in großen Datensätzen erkennen und bieten Potenzial zur Verbesserung der Diagnosegenauigkeit.
Methoden
In dieser monozentrischen retrospektiven Studie wurden Patienten der China-Japan Friendship Hospital (Peking, 2019) eingeschlossen, bei denen eine ALE-Verdachtsdiagnose vorlag und eine CTPA durchgeführt wurde. Ausschlusskriterien umfassten chronisch thromboembolische Lungenerkrankungen oder unvollständige Daten. Insgesamt wurden 454 Patienten randomisiert in Trainings- (n = 340) und Testdatensätze (n = 114) unterteilt. Ein zusätzlicher interner Validierungsdatensatz umfasste 204 Patienten aus dem Jahr 2018.
Es wurden 27 klinische Merkmale erfasst, darunter Demografie, Symptome (z. B. Thoraxschmerz, Dyspnoe), Vitalparameter (Herzfrequenz, Sauerstoffsättigung) und Biomarker (D-Dimer, cTnT, NT-proBNP). Mittels statistischer Analyse und Korrelationsreduktion wurden acht relevante Merkmale ausgewählt: D-Dimer, cTnT, Sauerstoffsättigung, Herzfrequenz, Thoraxschmerz, Beinschmerz, Hämoptyse und chronische Herzinsuffizienz.
Acht ML-Algorithmen wurden evaluiert, darunter Random Forest (RF), logistische Regression und Gradient Boosting. Die Modelle wurden mittels 5-facher Kreuzvalidierung trainiert und ihre Leistung anhand der AUC analysiert.
Ergebnisse
Das RF-Modell erreichte die höchste diagnostische Leistung mit einer AUC von 0,813 (95%-KI: 0,729–0,880) im Testdatensatz. Es übertraf den Wells-Score in Kombination mit D-Dimer (AUC = 0,709; p = 0,030) und zeigte vergleichbare Ergebnisse zum revidierten Geneva-Score (AUC = 0,713) und YEARS-Algorithmus (AUC = 0,719). Der negative prädiktive Wert (NPV) des RF-Modells betrug 0,953, was auf eine hohe Sicherheit beim Ausschluss einer ALE hinweist.
In der internen Validierung erreichte das RF-Modell eine AUC von 0,726 (95%-KI: 0,652–0,801). D-Dimer trug mit einem Gewicht von 0,35 am stärksten zur Modellvorhersage bei, gefolgt von cTnT und Sauerstoffsättigung.
Diskussion
Das RF-Modell demonstrierte eine überlegene diagnostische Genauigkeit gegenüber traditionellen klinischen Scores. Seine Stärke liegt in der Verarbeitung komplexer Merkmalsinteraktionen und der Objektivität, wodurch es klinisch praktikabler ist. Die hohe NPV reduziert potenziell unnötige CTPA-Untersuchungen und damit verbundene Risiken.
Bestehende Tools wie der Wells-Score sind jedoch durch Anwendungsbeschränkungen (z. B. bei Intensivpatienten) und Subjektivität (YEARS-Algorithmus) limitiert. Frühere Studien unterstützen den Einsatz von ML in der ALE-Diagnostik, wobei Modelle wie GBDT AUC-Werte bis 0,799 erreichten.
Limitationen
Die monozentrische, retrospektive Design kann Bias begünstigen. Direkte Vergleiche mit anderen ML-Modellen sind aufgrund heterogener Datensätze schwierig. Zukünftige Studien sollten multizentrische Validierungen und automatisierte Datenextraktion (z. B. NLP) integrieren.
Schlussfolgerung
Das RF-Modell bietet eine präzise, objektive Methode zur ALE-Diagnose und könnte die klinische Entscheidungsfindung optimieren. Weiterführende Forschung sollte multimodale Daten (inkl. Bildgebung) einbeziehen, um die Leistung weiter zu steigern.
doi.org/10.1097/CM9.0000000000002837