Tiefenlernbasiertes System: Vergleichbare Leistung zu Dermatologen bei Hautdiagnose

Tiefenlernbasiertes, computerunterstütztes Klassifikationssystem mit dermoskopischen Bildern zeigt vergleichbare Leistung zu 164 Dermatologen bei der Diagnose von Hauterkrankungen in der chinesischen Bevölkerung

In China kommt es häufig zu verzögerten Diagnosen von Hauterkrankungen aufgrund eines gravierenden Mangels an Dermatologen. Das Verhältnis von Dermatologen zu Patienten liegt bei lediglich 1:60.000, wobei die meisten gut ausgebildeten und erfahrenen Fachkräfte in Großstädten konzentriert sind. Besonders in ländlichen Regionen führt die begrenzte klinische Erfahrung und mangelnde Fortbildungsmöglichkeiten bei Allgemeinärzten oft zu Fehldiagnosen oder späten Therapieeinleitungen. Um dieses Problem zu adressieren, wurde ein tiefenlernbasiertes Diagnoseunterstützungssystem entwickelt, das eine Vorabprüfung von Patienten ermöglicht und so die gezieltere Priorisierung dermatologischer Expertise sowie die Verbesserung der Diagnosegenauigkeit fördert. Diese Studie evaluiert die Sensitivität und Spezifität von Deep-Learning-Modellen bei der Klassifikation von Hauttumoren und Psoriasis in der chinesischen Bevölkerung unter Verwendung einer moderaten Anzahl dermoskopischer Bilder.

Die Studie entwickelte ein Convolutional Neural Network (CNN) anhand von zwei Datensätzen aus der Abteilung für Dermatologie des Peking Union Medical College Hospitals (2016–2018). Datensatz I umfasste 7.192 dermoskopische Bilder für ein Multi-Klassen-Modell zur Differenzierung der drei häufigsten Hauttumoren – Basalzellkarzinom (BCC), melanozytärer Nävus (MN) und seborrhoische Keratose (SK) – von anderen Erkrankungen. Datensatz II enthielt 3.115 Bilder für ein Zwei-Klassen-Modell zur Unterscheidung von Psoriasis und anderen entzündlichen Dermatosen. Die Leistung des CNN wurde in einer Leserstudie mit 164 Dermatologen verglichen, die 130 dermoskopische Bilder auswerteten. Der Referenzstandard für die Diagnosen bildete der Expertenkonsens, außer bei BCC-Fällen, die histopathologisch bestätigt wurden.

Die Ergebnisse zeigten, dass das Multi-Klassen-Modell eine Genauigkeit von 81,49 % ± 0,88 % erreichte, während das Zwei-Klassen-Modell 77,02 % ± 1,81 % erzielte. In der Leserstudie wies das Multi-Klassen-Modell eine mit den Dermatologen vergleichbare Sensitivität und Spezifität auf. Für BCC lagen die Werte der Dermatologen bei einer Sensitivität von 0,770 und Spezifität von 0,962, während das CNN 0,800 bzw. 1,000 erreichte. Bei MN betrugen die Sensitivität und Spezifität der Dermatologen 0,807 und 0,897 (CNN: 0,800 und 0,840). Für SK lagen die Werte der Ärzte bei 0,624 und 0,976 (CNN: 0,850 und 0,940). Bei der Gruppe „Sonstige“ erreichten die Dermatologen 0,939 und 0,875 (CNN: 0,750 und 0,940). Im Zwei-Klassen-Vergleich zeigten die Ärzte für Psoriasis eine Sensitivität von 0,872 und Spezifität von 0,838 (CNN: 1,000 bzw. 0,605). Sowohl die Dermatologen als auch das CNN erreichten mindestens moderate Übereinstimmung mit dem Referenzstandard (kein signifikanter Unterschied in den Kappa-Koeffizienten).

Die Studie unterstreicht das Potenzial tiefenlernbasierter Modelle zur Unterstützung der Hautkrebsdiagnostik, insbesondere in Regionen mit limitiertem Zugang zu Dermatologen. Trotz der vergleichsweise geringen Anzahl von Trainingsbildern zeigten die entwickelten CNN-Modelle eine der großen Gruppe zertifizierter Dermatologen ebenbürtige Leistung. Dies legt nahe, dass solche Modelle in Primärversorgungseinrichtungen zur priorisierten Vorauswahl von Fällen eingesetzt werden könnten, um die Effizienz und Genauigkeit der Diagnostik zu steigern.

Die Datensätze stammten aus der Dermatologie des Peking Union Medical College Hospitals. Alle Bilder wurden mit einem MoleMax HD 1.0-Dermoskop aufgenommen und von Experten mit mindestens fünfjähriger Erfahrung annotiert. Unklare Fälle wurden durch einen dritten Experten geklärt. Bilder mit geringer Qualität, multiplen Läsionen oder Störfaktoren (z. B. Kleidungsfasern, Haare) wurden ausgeschlossen. Die Datensätze wurden im Verhältnis 8:1:1 in Trainings-, Validierungs- und Testdaten aufgeteilt, ergänzt durch 10-fache Kreuzvalidierung. Das CNN basierte auf der vortrainierten GoogLeNet Inception v3-Architektur, wobei die finale Schicht mit Studiendaten trainiert wurde. Als Aktivierungsfunktion diente ReLU, optimiert über einen Gradient Descent Optimizer (Lernrate: 0,01). Der Verlust wurde mittels Cross-Entropy-Minimierung berechnet.

Mittels t-distributed Stochastic Neighbor Embedding (t-SNE)-Visualisierungen wurde gezeigt, dass ähnliche Bilder in Clustern gruppiert waren, was die Fähigkeit des Modells zur Unterscheidung dermoskopischer Merkmale unterstreicht. Die Konfusionsmatrix des Multi-Klassen-Modells ergab für alle Kategorien eine Klassifikationsgenauigkeit von mindestens 80 %, wobei die Fehlzuordnungsrate in andere Kategorien unter 12 % lag.

Die Ergebnisse stehen im Einklang mit früheren Studien zur Effektivität von Deep Learning in der Dermatologie. Beispielsweise demonstrierte Esteva et al. (2017), dass ein CNN mit 129.450 Bildern dermatologengleiche Genauigkeit bei der Hautkrebsklassifikation erreichte. Fujisawa et al. (2018) zeigten, dass ein mit nur 4.867 Bildern trainiertes CNN höhere Genauigkeiten als zertifizierte Dermatologen bei 14 Hauttumoren erzielte. Die aktuelle Studie erweitert diese Erkenntnisse durch den Fokus auf die chinesische Bevölkerung und die Einbeziehung entzündlicher Erkrankungen wie Psoriasis.

Limitationen umfassen die monozentrische Datenerhebung, die mögliche Generalisierbarkeit einschränkt, sowie die ausschließliche Nutzung dermoskopischer Bilder ohne klinische Zusatzinformationen (Anamnese, Tastbefund). Zukünftige Studien sollten multimodale Daten integrieren und das Spektrum der klassifizierbaren Erkrankungen erweitern.

Zusammenfassend zeigt diese Studie, dass tiefenlernbasierte Modelle mit moderaten dermoskopischen Datensätzen eine dermatologengleiche Leistung erreichen können. Die entwickelten Modelle könnten insbesondere in unterversorgten Regionen als Vorabprüfungswerkzeuge dienen. Künftige Forschung sollte auf die Erweiterung der Datengrundlage, klinische Validierung in diversen Settings sowie die Integration zusätzlicher Datenquellen abzielen.

doi.org/10.1097/CM9.0000000000001023