Bildgebungsbasiertes Deep Learning bei Lebererkrankungen

Bildgebungsbasiertes Deep Learning bei Lebererkrankungen

Lebererkrankungen stellen eine erhebliche globale Gesundheitsbelastung dar und umfassen ein breites Spektrum hepatischer Schädigungen mit unterschiedlichen Ätiologien. Moderne bildgebende Verfahren wie Computertomographie (CT), Magnetresonanztomographie (MRT) und Sonographie spielen eine entscheidende Rolle in Diagnostik und Management von Lebererkrankungen. In den letzten zehn Jahren hat sich bildgebungsbasiertes Deep Learning (DL) zu einer der am intensivsten erforschten Techniken in diesem Bereich entwickelt. DL ermöglicht die Extraktion hochdimensionaler Merkmale durch geschichtete Netzwerkstrukturen und erweist sich insbesondere in klinischen Szenarien mit Convolutional Neural Networks (CNNs) aus der Computer Vision als effektiv.

DL-Aufgaben in der medizinischen Bildgebung lassen sich allgemein in drei Kategorien unterteilen: Bildsegmentierung, Bildklassifizierung und Läsionsdetektion. Bei Segmentierungsaufgaben führen DL-Algorithmen eine End-to-End-Segmentierung durch, die den Aufwand und die Zeitkosten traditioneller halbautomatischer Methoden mit manueller Nachkorrektur erheblich reduziert. Diese Algorithmen generieren ein Ausgabearray derselben Größe wie die Eingabebilder, wobei höhere Werte im Ausgabearray der Zielregion entsprechen. Durch Festlegen eines Schwellenwerts wird eine Maske der Zielregion erzeugt. Die Leistung von Segmentierungsalgorithmen wird häufig anhand des Dice-Ähnlichkeitskoeffizienten (DSC) und der Hausdorff-Distanz bewertet, wobei ein höherer DSC und eine niedrigere Hausdorff-Distanz eine bessere Segmentierungsqualität anzeigen.

Bei Klassifizierungsaufgaben ordnen DL-Algorithmen Eingabebilder – mit oder ohne Läsionsmaske – bestimmten Kategorien zu und geben eine Wahrscheinlichkeit zwischen null und eins aus. Die DL-Klassifizierungsleistung wird anhand von Diskrimination, Kalibrierung und klinischem Nutzen bewertet. Die Diskrimination bezieht sich auf die Fähigkeit des Algorithmus, zwischen Personen mit und ohne Ereignis zu unterscheiden, und wird üblicherweise durch die Fläche unter der Receiver-Operating-Characteristic-Kurve (AUC) quantifiziert. Die Kalibrierung reflektiert die Übereinstimmung zwischen modellbasierten und tatsächlichen Ergebnissen, oft analysiert mittels Kalibrierungskurven. Der klinische Nutzen wird durch Entscheidungskurvenanalysen evaluiert, die Vorhersagemodelle unter Einbeziehung klinischer Konsequenzen vergleichen.

Läsionsdetektionsalgorithmen kombinieren Lokalisation und Klassifizierung von Läsionen. Sie geben die Läsionsposition – entweder als präzises Array oder grobe Bounding Box – sowie den Läsionstyp aus. Im Gegensatz zu Segmentierungsalgorithmen liegt der Fokus hier weniger auf räumlicher Übereinstimmung mit Ground-Truth-Regionen, sondern auf der Identifizierung echter Läsionen. Die Detektionsleistung wird anhand der True-Positive-Rate (TPR) und False-Positive-Rate (FPR) gemessen, wobei Ergebnisse als True-Positive, True-Negative, False-Positive oder False-Negative kategorisiert werden.

Die Anwendung von DL bei diffusen Lebererkrankungen zeigt vielversprechende Resultate. Beispielsweise ermöglichte ein CT-basierter DL-Segmentierungsalgorithmus die automatische Lebervolumenbestimmung, die eine objektive und präzise Beurteilung der Lebergröße lieferte. Diese Methode zeigte eine Normalverteilung des Lebervolumens sowie eine lineare Zunahme mit dem Körpergewicht, vergleichbar mit manuellen und halbautomatischen Methoden. In einer weiteren Studie wurde die automatisierte Ganzlebersegmentierung mittels DL mit manuellen ROI-basierten Messungen der Protonendichte-Fettfraktion und Eisenkonzentration in der MRT bei Patienten mit chronischer Lebererkrankung verglichen. Die DL-Methode ermöglichte eine akkurate Steatosegradierung und korrelierte stark mit pathologischen Fettanteilen, bei gleichzeitig reduzierter Variabilität und Zeitersparnis gegenüber manueller Segmentierung.

In CT-Bildern wurde die Gradient-weighted-Class-Activation-Mapping (Grad-CAM)-Methode eingesetzt, um visuelle Erklärungen für DL-basierte Vorhersagen von Leberfibrose zu liefern. Die Lokalisierungskarten zeigten, dass DL-Algorithmen bei Patienten ohne Fibrose verstärkt die Leberoberfläche und bei Zirrhose das Parenchym von Leber und Milz analysierten. Ähnlich erwies sich in MRT-Untersuchungen der Lobus-caudatus-Bereich als relevant für die DL-Erkennung von Leberzirrhose. Die Grad-CAM-Methode könnte zukünftig zur Qualitätskontrolle bei der DL-basierten Fibrosestadienvorhersage durch spezifische Lokalisierungsmuster beitragen.

Bei fokalen Leberläsionen ist präzise Segmentierung für quantitative Tumoranalysen entscheidend. Radiomics-Merkmale aus manuell gezogenen ROIs führen oft zu Variabilität. Ein Residual-U-Net mit dilatierter Faltung und einer neuen Verlustfunktion (kombiniert aus DSC und absolutem Volumenunterschied) erreichte eine hohe Segmentierungsgenauigkeit für Lebertumore. Eine weitere Studie entwickelte ein mehrkanaliges 3D-Fully-Convolutional-Residual-Netzwerk zur Detektion und Klassifizierung fokaler Leberläsionen, mit einer TPR von 0,6 bei durchschnittlich 25 False-Positives pro Fall und einer Klassifizierungsgenauigkeit von 0,790. Die Detektionsgenauigkeit von Hämangiomen – häufigen benignen Läsionen – war jedoch aufgrund ihrer Seltenheit im Datensatz gering, was Verbesserungsbedarf zeigt.

Ein DL-basiertes Diagnosesystem für hepatozelluläre Karzinome (HCC) wurde anhand von CT-Bildern aus 7512 Patienten entwickelt. Das System detektierte Leberknoten und klassifizierte sie in HCC oder Nicht-HCC, mit AUC-Werten von 0,887 und 0,883 in interner und externer Validierung. Die Diagnosegenauigkeit von Radiologen verbesserte sich signifikant mit DL-Unterstützung. Ein weiteres DL-Modell zur Vorhersage mikrovaskulärer Invasion (MVI) bei HCC-Patienten erreichte hohe AUC-Werte in externer Validierung. Grad-CAM-Analysen offenbarten, dass das Modell MVI ähnlich einem etablierten Biomarker identifizierte, was zur Interpretierbarkeit beitrug.

Die präzise Segmentierung großer Gefäße ist für die chirurgische Planung bei Hepatektomien und Transplantationen essenziell. Ein DL-Algorithmus zur schnellen Portalvenen- und Lebervenensegmentierung in CT-Bildern zeigte höhere Sensitivität und DSC als traditionelle Tracking-basierte Methoden. Diese Technik könnte die Abschätzung des zukünftigen Leberrestvolumens verbessern, bedarf jedoch weiterer Validierung hinsichtlich klinischer Machbarkeit.

Eine DL-Strategie zur Therapieoptimierung bei sehr frühem oder frühem HCC prognostizierte präoperativ das progressionsfreie Überleben nach Radiofrequenzablation und Resektion. DL-integrierte Nomogramme zeigten gute Vorhersagegenauigkeit und Kalibrierung für 2-Jahres-Progressionsfreiheit. Eine weitere Studie evaluierte die Korrelation zwischen DL-basierten Volumenmessungen und manuellen RECIST-Messungen nach TACE-Therapie bei HCC. Die Ergebnisse deuteten auf eine starke Übereinstimmung hin, was DL-basierte Volumetrie als Alternative zu manuellen Methoden unterstützt.

Trotz des Potenzials von DL bestehen Herausforderungen für die klinische Implementierung. Erstens erfordern DL-Algorithmen große, diversifizierte Bilddatensätze. Obwohl öffentliche Datensätze existieren, fehlen oft detaillierte demografische Daten aufgrund von Datenschutzrichtlinien. Zweitens muss die Interpretierbarkeit von DL-Modellen verbessert werden, um Vertrauen in klinischen Umgebungen zu stärken. Ansätze wie die Integration von Vorwissen in DL-Architekturen werden erforscht.

Drittens benötigen aktuelle DL-Modelle externe Validierung in multizentrischen Studien. Die Generalisierbarkeit von Algorithmen – insbesondere von Klassifizierungsmodellen – ist entscheidend für ihre Zuverlässigkeit. Mit zunehmender Modellkomplexität wird die Interpretierbarkeit jedoch herausfordernd. Große externe Validierungsstudien könnten die Black-Box-Natur kompensieren, indem sie Modellleistung unter realen Bedingungen bewerten.

Viertens sind einheitliche Berichtsstandards und Bias-Bewertungstools dringend erforderlich. Aktuelle Bias-Assessment-Tools sind für DL-Modelle unzureichend, da Parameterpräsentation und Prädiktoranalysen in DL nicht analog zu klassischen statistischen Modellen erfolgen. Multidisziplinäre Expertengruppen arbeiten an spezifischen Richtlinien für ML-Studien, um Schlüsseldetails transparent zu machen und Forschungsressourcen zu optimieren.

Zusammenfassend zeigt DL vielversprechende Leistung in der Datenanalyse und quantitativen Bildauswertung. Aktuelle Studien belegen das Potenzial von DL sowohl bei diffusen als auch fokalen Lebererkrankungen. Der Fokus liegt jedoch noch auf Machbarkeitsnachweisen; ob DL-Modelle komplexe klinische Szenarien bewältigen können, bleibt unklar. Präzisere, interpretierbare und robuste DL-Modelle mit breiter Validierung sind notwendig, bevor sie flächendeckend klinisch eingesetzt werden können. Standardisierte Berichtsrichtlinien und Bias-Assessments werden essenziell sein, um die Qualität zukünftiger Forschung zu sichern.

doi.org/10.1097/CM9.0000000000002199