Klinisch anwendbares Gleason-Grading-System für Prostatakrebs basierend auf Deep Learning

Klinisch anwendbares Gleason-Grading-System für Prostatakrebs basierend auf Deep Learning

Prostatakrebs ist einer der häufigsten bösartigen Tumoren des männlichen Genitalsystems, mit etwa 1,1 Millionen neu gemeldeten Fällen weltweit im Jahr 2012. Eine genaue Diagnose von Prostatakrebs ist entscheidend für eine erfolgreiche Behandlung, insbesondere wenn die Krankheit noch auf die Prostata beschränkt ist. Das Gleason-Grading (GD)-System, das erstmals von Donald Gleason zwischen 1966 und 1974 etabliert wurde, bleibt einer der stärksten Prädiktoren für onkologische Ergebnisse bei Männern mit Prostatakrebs. Das Gleason-Muster reicht von 1 bis 5, wobei höhere Werte auf eine schlechtere Differenzierung, eine schlechtere Prognose und eine höhere Wahrscheinlichkeit von Metastasen hinweisen. Der Gesamt-Gleason-Score (GS) wird durch die Kombination des dominanten und des nicht-dominanten Gleason-Musters berechnet.

Trotz seiner klinischen Bedeutung hat das Gleason-Grading-System seine Grenzen. Unterschiede in der Interpretation zwischen Pathologen und die subjektive Bewertung des Anteils jeder Stufe in der Probe können zu einer schlechten Wiederholbarkeit der Diagnose und sogar zu Fehldiagnosen führen, insbesondere bei kleinen Läsionen. Um diese Herausforderungen zu bewältigen, haben wir ein Deep-Learning-basiertes Gleason-Grading-System vorgeschlagen, um die histopathologische Diagnose von Prostatakrebs zu unterstützen. Dieses System zielt darauf ab, die Objektivität, Genauigkeit und Effizienz bei der Diagnose von Prostatakrebs zu verbessern.

Methodik

Datensammlung und -vorbereitung

Die Studie verwendete Prostatabiopsie-Präparate, die von der China-Japan Friendship Hospital gesammelt wurden. Insgesamt wurden 123 Hämatoxylin-Eosin (HE)-gefärbte Präparate für das Modelltraining verwendet, und 10 Präparate wurden zur Validierung eingesetzt. Zusätzlich wurden 137 HE-gefärbte Präparate für die Modelltestung gesammelt. Alle Präparate unterzogen sich einer strengen Qualitätskontrolle, um sicherzustellen, dass das Gewebe vollständig, flach und frei von Messermarken, Rissen oder Blasen war. Entsprechende immunhistochemische (IHC)-Präparate, einschließlich p63, 34bE12 und p504S, wurden verwendet, um den Beschriftungsprozess zu unterstützen.

Die Präparate wurden mit einem KF-PRO-005-Scanner bei 400-facher Vergrößerung digitalisiert. Der Gewebebereich wurde in 320×320-Pixel-Patches mit einem 200x Sichtfeld (0,5 mm/Pixel) unterteilt. Insgesamt wurden 152.139 Trainings-Patches erhalten, darunter Gleason-Muster 3 (25.316 Patches), 4 (31.176 Patches) und 5 (25.344 Patches) sowie hochgradige prostatische intraepitheliale Neoplasie (HPIN) (3.252 Patches), Entzündung (2.744 Patches) und normales Gewebe (64.307 Patches).

Beschriftungsprozess

Zwei lizenzierte Pathologen mit 11 und 30 Jahren Erfahrung in der Prostata-Pathologie-Diagnose überprüften alle Whole-Slide-Images (WSIs) mit einem hauseigenen Beschriftungssystem. Die Beschriftungen umfassten Gleason-Muster 3–5, HPIN, Entzündung und normales Gewebe. Die Präparate wurden zunächst dem ersten Pathologen zugewiesen und dann vom Senior-Pathologen überprüft. Während des Beschriftungsprozesses verwendeten die Pathologen die entsprechenden IHC-Präparate als Referenz, um die Genauigkeit zu gewährleisten.

Modelltraining

Das in dieser Studie verwendete Deep-Learning-Modell basierte auf dem DeepLab v3 Bildsegmentierungsmodell mit ResNet-50 als Backbone. Die Modellparameter wurden mit einem vortrainierten Magenkrebserkennungsmodell initialisiert und mit den Prostatatrainingsdaten durch Transferlernen feinabgestimmt. Das Modelltraining wurde mit TensorFlow auf 8 NVIDIA GTX1080Ti GPUs durchgeführt. Der verwendete Optimierer war ADAM mit einer Lernrate von 0,0001, einer Batch-Größe von 256 und 28.000 Trainingsiterationen. Histopathologisch orientierte Datenaugmentierungstechniken wurden angewendet, um die Robustheit des Modells zu verbessern.

Die Präparate-basierte Vorhersage wurde als der Durchschnitt der Top-100-Wahrscheinlichkeiten der pixelbasierten Vorhersagen definiert. Das Modell wurde in einer binären Klassifikationsweise evaluiert, wobei „bösartig“ als Gleason-Muster 3–5 und „gutartig“ als HPIN, Entzündung und normales Gewebe definiert wurde.

Modellleistung

Das Deep-Learning-Modell erreichte eine Sensitivität von 100,00%, eine Spezifität von 87,04% und eine Genauigkeit von 94,89% bei der Unterscheidung von bösartigem und gutartigem Gewebe. Die Vorhersagen des Modells stimmten in 100 von 137 Fällen mit der Diagnose des Senior-Pathologen überein. In 22 Fällen lagen die Vorhersagen des Modells sehr nahe an der Diagnose des Senior-Pathologen, mit einer Abweichung von nur einem Punkt.

Das Modell zeigte eine überlegene Leistung in mehreren Fällen, insbesondere bei der Identifizierung kleiner Krebsherde und lokaler Gleason-Muster-4-Läsionen innerhalb eines Gleason-Muster-3-Hintergrunds. Darüber hinaus sagte das Modell 20 Proben mit einem GS ≥ 8 korrekt voraus, während der behandelnde Pathologe nur 13 korrekt vorhersagte. Das Modell übertraf den behandelnden Pathologen auch bei der Erkennung von HPIN, mit einer Sensitivität von 100,00% im Vergleich zur Sensitivität des behandelnden Pathologen von 87,04%.

Validierung und Testung

Das Modell wurde weiterhin mit historischen Prostataproben validiert, die von Mai 2013 bis Juli 2015 am China-Japan Friendship Hospital gesammelt wurden. Das Modell erreichte eine Sensitivität von 100,0% und eine Spezifität von 91,4% für die Erkennung von bösartigen Tumoren. Zusätzlich wurden 166 Präparate vom Chinese PLA General Hospital für die Testung verwendet, bei denen das Modell eine Sensitivität von 97,0% und eine Spezifität von 77,4% erreichte.

Einschränkungen und zukünftige Arbeiten

Trotz seiner vielversprechenden Leistung hat das Modell einige Einschränkungen. Es gab Fälle von falsch-positiven Ergebnissen und ungenauem Gleason-Grading. Um diese Probleme zu beheben, sind mehr Trainingsproben erforderlich, um das Modell kontinuierlich zu optimieren und seine Spezifität zu verbessern. Darüber hinaus muss die Leistung des Modells bei der Erkennung seltener oder komplexer Fälle weiter untersucht werden.

Schlussfolgerung

Das in dieser Studie vorgeschlagene Deep-Learning-basierte Gleason-Grading-System bietet ein klinisch anwendbares Werkzeug für die Diagnose von Prostatakrebs. Das System kann Läsionen intuitiv identifizieren und objektive Gleason-Scores liefern, wodurch es Pathologen erhebliche Zeit spart. Es zeigte eine hohe Genauigkeit und Konsistenz bei der Unterscheidung von bösartigem und gutartigem Gewebe und übertraf menschliche Pathologen in mehreren Fällen. Eine fortlaufende Optimierung und Validierung ist jedoch notwendig, um die Einschränkungen des Modells zu adressieren und seine breite klinische Anwendbarkeit sicherzustellen.

doi.org/10.1097/CM9.0000000000001220

Schreibe einen Kommentar 0

Your email address will not be published. Required fields are marked *