Tiefenlernverfahren in Kombination mit zweidimensionalen Farbdoppler-Ultraschallbildern verbessern die diagnostische Leistung bei der Klassifizierung von Brusttumoren signifikant: Eine multizentrische Studie

Brustkrebs bleibt eine der häufigsten Krebserkrankungen bei Frauen weltweit, was den Bedarf an frühzeitigen und präzisen Diagnosemethoden unterstreicht. Die Ultraschallbildgebung (US), insbesondere zweidimensionale (2D) und farbkodierte Doppler-Sonographie (CDFI), hat sich aufgrund ihrer Nichtinvasivität und Zugänglichkeit als zentrales Instrument in der Beurteilung von Brustläsionen etabliert. Die Differenzierung zwischen klinisch unterschiedlichen Kategorien von Brustläsionen – entzündliche Läsionen, Adenose, gutartige Tumoren und maligne Tumoren – stellt jedoch selbst für erfahrene Radiologen eine Herausforderung dar. Bisherige Deep-Learning-Ansätze konzentrierten sich überwiegend auf die binäre Unterscheidung (gutartig vs. bösartig) und vernachlässigten die klinische Notwendigkeit, Läsionen in Subtypen zu klassifizieren, die direkt therapierelevante Entscheidungen beeinflussen. Diese Studie adressiert diese Lücke durch die Entwicklung eines Faltungsneuronalen Netzwerks (CNN), das Brustläsionen anhand multimodaler Ultraschalldaten in vier klinisch relevante Kategorien einteilt.

Klinischer Kontext und Motivation

In China werden Brustläsionen basierend auf therapeutischen Pfaden in vier Gruppen eingeteilt: entzündliche Läsionen, Adenose, gutartige Tumoren und maligne Tumoren. Diese Klassifikation ist entscheidend, da jede Kategorie spezifische klinische Maßnahmen erfordert. Beispielsweise imitieren entzündliche Läsionen wie granulomatöse Mastitis (GM) häufig Malignome im Ultraschall, was zu unnötigen Biopsien führt. Ebenso zeigt die sklerosierende Adenose (SA), eine Unterform der Adenose, oft irregular begrenzte Läsionen mit Mikroverkalkungen, die malignen Tumoren ähneln. Fehldiagnosen können Übertherapien oder verzögerte Interventionen nach sich ziehen. Bestehende CAD-Systeme (Computer-Assisted Diagnosis) fokussieren primär auf die Unterscheidung benigner vs. maligner Läsionen, wodurch diagnostische Lücken für Subtypen wie Adenose oder entzündliche Läsionen bestehen. Die Innovation dieser Studie liegt im multiklassischen Klassifikationsrahmen, der klinische Workflows abbildet und die Entscheidungspräzision verbessert.

Studiendesign und Datenerfassung

Die multizentrische retrospektive Analyse umfasste 3.623 Patientinnen aus 13 Kliniken in neun chinesischen Provinzen. Der Datensatz beinhaltete 15.648 Ultraschallbilder, die zwischen Januar 2016 und Januar 2018 erhoben wurden. Einschlusskriterien erforderten eine histopathologische Bestätigung mittels Biopsie oder Operation mit Klassifizierung in die vier vordefinierten Kategorien. Ausgeschlossen wurden Patientinnen mit Fremdkörpern (z. B. Brustimplantaten), HIV-Koinfektion oder Bildern mit unzureichender Qualität (z. B. verwaschene oder artefaktbelastete Aufnahmen). Der Datensatz umfasste 1.601 gutartige Tumoren, 1.179 maligne Tumoren, 572 entzündliche Läsionen und 271 Adenosefälle. Die Bilder wurden mittels heterogener US-Systeme (GE LOGIQ E9, Siemens, Hitachi etc.) generiert, um die Vielfalt von Geräten und Protokollen abzubilden.

Deep-Learning-Architektur

Die CNN-Architektur bestand aus zwei Modulen: einem Detektionsmodul zur Lokalisation von Brustläsionen und einem Klassifikationsmodul zur Kategorisierung.

Detektionsmodul:
- Merkmalsextraktion: ResNet-50 generierte Feature-Maps aus Eingabebildern, während Feature-Pyramid-Netzwerke (FPN) mehrskalige Merkmale erfassten, um Größenvarianzen der Läsionen und Geräteunterschiede zu kompensieren.
- Regionen-Vorschlag: Eine Bounding-Box-Regression identifizierte Kandidatenregionen unter Anwendung von Non-Maximum Suppression zur Eliminierung wenig konfidenter Vorschläge. Focal Loss adressierte Klassenungleichgewichte während des Trainings.
Klassifikationsmodul:
- Modellvarianten: Drei Konfigurationen wurden evaluiert:
  - 2D-Modell: Ausschließliche Nutzung von Graustufen-US-Bildern.
  - 2D-CDFI-Modell: Kombination von 2D- und Farbdoppler-Bildern zur Integration struktureller und vaskulärer Informationen.
  - 2D-CDFI-PW-Modell: Einbindung von Pulsed-Wave-Doppler (PW)-Spektraldaten zusätzlich zu 2D- und CDFI-Daten.
- Aufmerksamkeitsmechanismen: Im 2D-CDFI-PW-Modell fusionierten globale Pooling- und Aufmerksamkeitslayer Spektraldaten aus PW mit 2D- und CDFI-Merkmalen.

Das Training erfolgte mittels stochastischem Gradientenabstieg (SGD) mit einer Lernrate von 0,001, Batchgröße 64 und Datenaugmentation (Rotation ±30°, Skalierung 0,5–1,5×) zur Vermeidung von Überanpassung. Snapshot Ensembling kombinierte fünf Teilmodelle zur Robustheitssteigerung.

Zentrale Ergebnisse

Leistung über Bildgebungsmodalitäten

Das 2D-CDFI-Modell übertraf 2D- und 2D-CDFI-PW-Modelle:

Genauigkeit: 89,2 % (2D-CDFI) vs. 87,9 % (2D) und 88,7 % (2D-CDFI-PW).
AUC-Werte:
- Gutartige Tumoren: 0,94 (95%-KI: 0,93–0,95).
- Maligne Tumoren: 0,96 (95%-KI: 0,95–0,97).
- Entzündliche Läsionen: 0,80 (95%-KI: 0,77–0,83).
- Adenose: 0,81 (95%-KI: 0,78–0,84).

Sensitivität und Spezifität lagen für benigne/maligne Tumoren über 90 %, jedoch niedriger für entzündliche Läsionen (55 % Sensitivität) und Adenose (46 % Sensitivität), was Datenungleichgewichte und subtile Bildmerkmale widerspiegelt.

Einfluss der Läsionsgröße

Die Genauigkeit des 2D-Modells variierte leicht mit der Läsionsgröße:

≤1 cm: 81,7 %.
1–2 cm: 82,3 %.
2–5 cm: 85,1 %.
>5 cm: 84,6 %.
Keine signifikanten Unterschiede zwischen Größenklassen (p > 0,05), was die Robustheit des Modells unterstreicht.

Multizentrische Validierung und Generalisierbarkeit

Die unabhängige Validierung mittels Daten des China-Japan Friendship Hospital (CJ) bestätigte die Adaptierbarkeit:

CJ-Datensatz (219 Fälle):
- 2D-Modell: 88,9 % Genauigkeit für benigne, 90,2 % für maligne Tumoren.
- 2D-CDFI-Modell: 85,7 % Genauigkeit für benigne, 90,9 % für maligne Tumoren.
  Leistungsunterschiede zwischen Kliniken reflektierten Variabilität in Bildgebungsprotokollen und Läsionshäufigkeit. Beispielsweise zeigte die Adenose-Diagnostik am Zhengzhou University Hospital nur 17 % Genauigkeit aufgrund limitierter Trainingsdaten.

Vergleich mit Radiologen

Das CNN übertraf 37 erfahrene Radiologen in einer verblindeten Evaluation mit 50 Testbildern:

CNN: 89,2 % Genauigkeit, 400 ms Verarbeitungszeit (GPU).
Radiologen: Mittlere Genauigkeit 30 % (Spanne: 10–45 %), mittlere Interpretationszeit 314 Sekunden.
Dieser Kontrast unterstreicht das Potenzial des CNNs, diagnostische Verzögerungen zu reduzieren und Workflow-Effizienz zu steigern.

Technische und klinische Implikationen

Rolle der CDFI: Die Integration des Farbdopplers verbesserte die Klassifikation durch die Erfassung malignomtypischer Gefäßmuster (z. B. chaotische intratumorale Durchblutung). PW-Daten zeigten hingegen keinen signifikanten Nutzen, wahrscheinlich bedingt durch unzureichende Trainingsdaten (nur 222 PW-Bilder).
Algorithmenrobustheit: Konsistente Leistung über Gerätehersteller und Läsionsgrößen hinweg unterstützt den Einsatz in heterogenen klinischen Umgebungen, einschließlich ressourcenlimitierter Regionen.
Klinische Integration: Echtzeitverarbeitung (1 Sekunde Latenz auf CPU) ermöglicht nahtlose Integration in klinische Workflows, um Hochrisikofälle zu priorisieren und unnötige Biopsien zu vermeiden.

Limitationen und zukünftige Richtungen

Datenungleichgewicht: Unterrepräsentation entzündlicher Läsionen und Adenose beeinträchtigte die Sensitivität. Zukünftige Studien sollten ausbalancierte Datensätze priorisieren.
PW-Bildgebung: Größere PW-Datensätze sind zur Validierung erforderlich.
Prospektive Validierung: Trotz multizentrischen Designs sind prospektive Studien nötig, um die Leistung in der Praxis zu bewerten.

Fazit

Diese Studie demonstriert, dass Deep-Learning-Modelle, insbesondere unter Einbeziehung von 2D-CDFI-Daten, hohe diagnostische Genauigkeit bei der Klassifizierung von Brustläsionen in vier klinisch handlungsrelevante Kategorien erreichen. Durch die Überlegenheit gegenüber Radiologen in Geschwindigkeit und Präzision bietet das CNN ein transformatives Werkzeug zur Reduktion diagnostischer Fehler, Optimierung der Therapieplanung und Entlastung des klinischen Personals. Zukünftige Arbeiten sollten die Datengrundlage für unterrepräsentierte Kategorien erweitern und Echtzeit-Entscheidungsunterstützungssysteme in klinische Abläufe integrieren.

doi.org/10.1097/CM9.0000000000001329

Tiefenlernverfahren mit 2D-Farbdoppler-US verbessern Brusttumordiagnose